спонсори:

Чистота на сторінці.


Наскільки важливо співвідношення тексту на сторінці до розміру HTML коду?
Чому статті із великим розміром тексту найчастіше правильно обробляються пошуковиками?
Чому наявність великої кількості зовнішніх та внутрішніх посилань збиває з толку пошукові роботи?
Чому на Ваш сайт заходять по словам, які відсутні в тексті статей?
Наскільки просто роботам знайти на Вашій сторінці текст, що несе в собі суть самого тексту?

Wordpress vs Wordpress - чи насправді однакові сторінки при використанні різних тем?

Давно задався метою дослідити і відповісти на ці запитання.
Дещо, що може допомогти в розумінні тексту цієї статті можна почитати в моїй ідеалізації щодо створення вебсторінок, спробі аналізу видачі пошуковиками україномовних запитів, а також в деяких частинах великого дослідження відсутності насправді українських вебсайтів в уанеті.

Ідея статті виникла під час розмови між masterpiecer (aka Олександр Фурман) та Ярославом Федораком (aka jarofed ) під час обговорення майбутнього каталогу блогів і не тільки, а саме моменту щодо співвідношення текстової частини самої статті і загальної кількості тексту на сторінці, а також співвідношення текстової частини та загального розміру html коду сторінки. Крім того було підняте питання схожості коду, що генерується CMS, якщо ця система є одного типу.

Для яскравості прикладу я обрав кілька сторінок з блогів, відвідуваність яких найвища. Враховуючи те, що розмова стосувалась wordpress, його і буду гнобити 8). Хоча ні... Вордпрес тут точно ні при чому.

  • Спроба розповісти про себе від Letrodectus
    1. стаття/html - 2,23%
    2. стаття/текст - 4,67%
    3. стаття+коментарі/текст - 80,18%

    Виходячи з теорії ймовірності, із досить малою похибкою можна сказати, що входи з пошуковиків будуть на 5% відповідати тексту самої статті, в той час як після знайчної кількості коментарів і повторної переіндексації сторінки саме з коментарями пошуковики будуть на (80-5)=75% ототожнювати сторінку з текстом коментарів і тільки на 5% з текстом самої статті.

  • Стаття про найкращі записи від Електрика
    1. стаття/html - 2,9%
    2. стаття/текст - 15,25%
    3. стаття+коментарі/текст - 50,31%

    На старті аналогічно до попередного прикладу, але через значно більшу кількість паразитного тексту на сайті, кількість корисного тексту лише трошки більше 15 відсотків. Така буде і видача від пошуку.

  • Приклад статті із фотоблогу "Гучні Імена"
    1. стаття/html - 10,38%
    2. стаття/текст - 41,53%

    Для прикладу я взяв чи не найбільшу за кількістю тексту статтю з цього блогу, тому показник і виявився таким значним. Для фотоблогів дуже суттєвим показником, що покращує віддачу від пошукових систем - це наявність атрибутів alt та title для кожної фотографії, тоді тексти з цих атрибутів рахуються за корисний матеріал статті і примножують показники.

  • Баян від Механіка щодо історії виникнення електронної пошти
    1. стаття/html - 32,78%
    2. стаття/текст - 73,84%

    Це чи не найвищий показник в тесті. Ну воно й зрозуміло - стаття досить велика і реально на сайті відсутня велика кількість "лівого матеріалу".

  • Федорак розмірковує про статистику
    1. стаття/html - 10,37%
    2. стаття/текст - 25,80%
    3. стаття+коментарі/текст - 42,94%

    Досить яскравий приклад, бо в даному випадкі я обрав найпопулярнішу статтю з всього вебсайту. Враховуючи, що на даному блозі досить значна кількість коментарів і вони несуть в собі дійсно релевантну інформацію, - можна зробити висновок, що коментарі вносять собою в значиму частину сторінки рівно стільки, скільки є сам текст статті. Тому дуже важливим фактором є наявність великої кількості правильних коментарів.


    1. стаття/html - 26,44%
    2. стаття/текст - 63,76%
    3. стаття+коментарі/текст - 72,81%

    Це точно не ідеал! Працюю над переробкою теми і виводом всіх блоків засобами зовнішнього javascript, бо хочу наблизитись до показника в 90-95% тексту статті до тексту загалом.

  • Новина від M.P.C.R про вихід нової версії нестійкого вордпресу
    1. стаття/html - 2,19%
    2. стаття/текст - 10,13%
    3. стаття+коментарі/текст - 25,1%

    Дуже низький показник. Спасають коментарі. Погіршує показник наявність великої кількості різноманітних блоків.

    Що можна сказати з вищеприведеного і не тільки

  • Розмір статті самим прямим чином впливає на співвідношення корисного матеріалу до розміру сторінки
  • Наявність великої кількості різноманітних текстових блоків та інформерів знижує цей показник, погіршуючи "чистоту" Ваших сторінок та ускладнюючи роботу пошуковим роботам
  • Переведення блоків, що повторюються на всіх сторінках в javascript видачу дуже сильно покращує дане співвідношення
  • Застосування складної HTML верстки ваших статей із великою кількістю вбудованих стилів погіршує показник співвідношення тексту статті до ваги сторінки в цілому

Порівняння двох вордпресів.

Я спеціально не виділяв цю частину статті окремою статтею, бо не рахував за потрібне розводити демагогію.
Отже - M.P.C.R проти Української Блогосфери.
В розмові було закинуто клич, що пошуковики однаково впізнають вордпреси і дуже легко визначають що на сторінці є корисним матеріалом, а що - паразитним грузом.
Враховуючи те, що точної інформації про це я не зустрічав, буду робити аналіз згідно того, що є в коді сторінок цього вебсайту, наводячи приклади що є схожим, а що відмінним. Для цього я взяв дві різних сторінки із приблизно однаковою кількістю матеріалу (про співвідношення читайте на початку статті).

Структура сайту згідно HTML

    M.P.C.R - У.Б.

  • заголовки однотипні в обох - Назва Статті / Ім'я Вебсайту
  • Блок Мета інформації - генератор в обох Вордпрес(різниця в версіях, що несуттєво), але метаінформація різна, через різницю в конфігураціях вордпресу - в M.P.C.R відсутні теги rel щодо архіву, в той час як в У.Б. - наявність цілого блоку з 11 посилань на місячні архіви за останній рік
  • Далі йде блок-меню головних посилань вебсайтів - він в обох однаковий практично - посилання на інформацію про сайти, контакнту інформацію тощо
  • А далі починається блок матеріалу, який суттєво відмінний. Ну нічого дивного - шаблони ж різні, та й конфігурація блоків також різна.
    M.P.C.R - наявні блоки популярних записів, останніх записів, блок контактів. Вже в цих блоках присутні теги h1(назва сайту) h2(заголовки блоків), які можуть бути сприйняті як заголовки статей.
    У.Б. - Заголовок статті(h1) і далі текст статті.
    Це тільки людина, окинувши оком вебсайт, може зрозуміти, що тут текст статті, а тут - блок, який не має відношення до контексту матеріалу статті. Робот же читає HTML код, по якому дуже важко зрозуміти де саме той текст, по якому варто формувати стратегію майбутної видачі в пошукових системах.
  • M.P.C.R - h3 тег оголошує блоки коментарів, які виводяться в вигляді пронумерованого ( ol тег) списка ( li теги )
    У.Б. - h4 тег оголошує блоки коментарів, які виводяться в вигляді багаторівневих div блоків для кожного коментаря.

    Висновок: Різниця дуже суттєва, і беручи до уваги лише два сайти практично нереально визначити де ж саме в тексті всієї сторінки знаходяться коментарі.

  • M.P.C.R - h3 заголовок попереджає про форму додавання коментаря
    У.Б. - h6 заголовок попереджає про форму додавання коментаря
    Ідентифікатори форм в HTML розмітці різні і впізнати схожість досить складно.
  • M.P.C.R - блоки div із назвами та текстом всередині кожного з блоків ( Завантажити Український Вордпрес, Підписка, Хмарка Тегів, Рубрики, Календар, Архів, Останні коментарі, Найсвіжіше з українських Блогів, Мета, Блогролл )
    У.Б. - блоки div із зовсім іншою розміткою та ідентифікаторами ( Свіжі Коментарі, Найпопулярніші Статті, Останні Статті)
  • І покажіть мені будь-ласка фактори, які б заставили пошукові системи придавати хоч якесь значення тому, чи на вордпресі створений вебсайт, чи на друпалі, чи банально статичний сайт із динамічно формованими блоками з допомогою php якогось самописного двигунця?
    Запевняю, що на одному і тому ж самому Вебсайті лише двома різними шаблонами можна створити абсолютно несхожі сторінки як розміткою, так і наявністю різноманітних блоків, хай навіть із однаковим текстом статті.
    Або з іншого боку, можна на зовсім різних двигунцях створити абсолютно ідентичну розмітку і зовнішній вигляд.
    І пошукові алгоритми не будуть впізнавати ніколи систему, на якій працює вебсайт. Головне - це певні співвідношення, статичність того чи іншого матеріалу, релевантність, пов'язаність матеріалу всередині вебсайту, наявність коректної метаінформації, кількість беклінків і їхня якість тощо.

Trackback URL для цього допису

http://itua.name/uk/trackback/442

З новим 2009 роком!

Приєднуюсь до Всіх привітань, що отримав сьогодні як через рідер, так і по персональних месенджерах и всіх можливих інформаційних каналах.

Більш технічні результати роботи мого блоґу можете прочитати окремо, а тут я хочу зробити менш офіційне привіт...

Початок кінця.

Вітаю Шановні!

Захотілось дивного - ось і результат...

Якось важко було стримуватись, формуючи статті технічного характеру на моєму IT блозі.
Тому я і тут....

Share this

Об'єднати вміст Об'єднати вміст

Propeople Expert

Партнери

експерименти

Rambler's Top100

Error. Page cannot be displayed. Please contact your service provider for more details. (26)