спонсори:

Чистота на сторінці.


Наскільки важливо співвідношення тексту на сторінці до розміру HTML коду?
Чому статті із великим розміром тексту найчастіше правильно обробляються пошуковиками?
Чому наявність великої кількості зовнішніх та внутрішніх посилань збиває з толку пошукові роботи?
Чому на Ваш сайт заходять по словам, які відсутні в тексті статей?
Наскільки просто роботам знайти на Вашій сторінці текст, що несе в собі суть самого тексту?

Wordpress vs Wordpress - чи насправді однакові сторінки при використанні різних тем?

Давно задався метою дослідити і відповісти на ці запитання.
Дещо, що може допомогти в розумінні тексту цієї статті можна почитати в моїй ідеалізації щодо створення вебсторінок, спробі аналізу видачі пошуковиками україномовних запитів, а також в деяких частинах великого дослідження відсутності насправді українських вебсайтів в уанеті.

Ідея статті виникла під час розмови між masterpiecer (aka Олександр Фурман) та Ярославом Федораком (aka jarofed ) під час обговорення майбутнього каталогу блогів і не тільки, а саме моменту щодо співвідношення текстової частини самої статті і загальної кількості тексту на сторінці, а також співвідношення текстової частини та загального розміру html коду сторінки. Крім того було підняте питання схожості коду, що генерується CMS, якщо ця система є одного типу.

Для яскравості прикладу я обрав кілька сторінок з блогів, відвідуваність яких найвища. Враховуючи те, що розмова стосувалась wordpress, його і буду гнобити 8). Хоча ні... Вордпрес тут точно ні при чому.

  • Спроба розповісти про себе від Letrodectus
    1. стаття/html - 2,23%
    2. стаття/текст - 4,67%
    3. стаття+коментарі/текст - 80,18%

    Виходячи з теорії ймовірності, із досить малою похибкою можна сказати, що входи з пошуковиків будуть на 5% відповідати тексту самої статті, в той час як після знайчної кількості коментарів і повторної переіндексації сторінки саме з коментарями пошуковики будуть на (80-5)=75% ототожнювати сторінку з текстом коментарів і тільки на 5% з текстом самої статті.

  • Стаття про найкращі записи від Електрика
    1. стаття/html - 2,9%
    2. стаття/текст - 15,25%
    3. стаття+коментарі/текст - 50,31%

    На старті аналогічно до попередного прикладу, але через значно більшу кількість паразитного тексту на сайті, кількість корисного тексту лише трошки більше 15 відсотків. Така буде і видача від пошуку.

  • Приклад статті із фотоблогу "Гучні Імена"
    1. стаття/html - 10,38%
    2. стаття/текст - 41,53%

    Для прикладу я взяв чи не найбільшу за кількістю тексту статтю з цього блогу, тому показник і виявився таким значним. Для фотоблогів дуже суттєвим показником, що покращує віддачу від пошукових систем - це наявність атрибутів alt та title для кожної фотографії, тоді тексти з цих атрибутів рахуються за корисний матеріал статті і примножують показники.

  • Баян від Механіка щодо історії виникнення електронної пошти
    1. стаття/html - 32,78%
    2. стаття/текст - 73,84%

    Це чи не найвищий показник в тесті. Ну воно й зрозуміло - стаття досить велика і реально на сайті відсутня велика кількість "лівого матеріалу".

  • Федорак розмірковує про статистику
    1. стаття/html - 10,37%
    2. стаття/текст - 25,80%
    3. стаття+коментарі/текст - 42,94%

    Досить яскравий приклад, бо в даному випадкі я обрав найпопулярнішу статтю з всього вебсайту. Враховуючи, що на даному блозі досить значна кількість коментарів і вони несуть в собі дійсно релевантну інформацію, - можна зробити висновок, що коментарі вносять собою в значиму частину сторінки рівно стільки, скільки є сам текст статті. Тому дуже важливим фактором є наявність великої кількості правильних коментарів.


    1. стаття/html - 26,44%
    2. стаття/текст - 63,76%
    3. стаття+коментарі/текст - 72,81%

    Це точно не ідеал! Працюю над переробкою теми і виводом всіх блоків засобами зовнішнього javascript, бо хочу наблизитись до показника в 90-95% тексту статті до тексту загалом.

  • Новина від M.P.C.R про вихід нової версії нестійкого вордпресу
    1. стаття/html - 2,19%
    2. стаття/текст - 10,13%
    3. стаття+коментарі/текст - 25,1%

    Дуже низький показник. Спасають коментарі. Погіршує показник наявність великої кількості різноманітних блоків.

    Що можна сказати з вищеприведеного і не тільки

  • Розмір статті самим прямим чином впливає на співвідношення корисного матеріалу до розміру сторінки
  • Наявність великої кількості різноманітних текстових блоків та інформерів знижує цей показник, погіршуючи "чистоту" Ваших сторінок та ускладнюючи роботу пошуковим роботам
  • Переведення блоків, що повторюються на всіх сторінках в javascript видачу дуже сильно покращує дане співвідношення
  • Застосування складної HTML верстки ваших статей із великою кількістю вбудованих стилів погіршує показник співвідношення тексту статті до ваги сторінки в цілому

Порівняння двох вордпресів.

Я спеціально не виділяв цю частину статті окремою статтею, бо не рахував за потрібне розводити демагогію.
Отже - M.P.C.R проти Української Блогосфери.
В розмові було закинуто клич, що пошуковики однаково впізнають вордпреси і дуже легко визначають що на сторінці є корисним матеріалом, а що - паразитним грузом.
Враховуючи те, що точної інформації про це я не зустрічав, буду робити аналіз згідно того, що є в коді сторінок цього вебсайту, наводячи приклади що є схожим, а що відмінним. Для цього я взяв дві різних сторінки із приблизно однаковою кількістю матеріалу (про співвідношення читайте на початку статті).

Структура сайту згідно HTML

    M.P.C.R - У.Б.

  • заголовки однотипні в обох - Назва Статті / Ім'я Вебсайту
  • Блок Мета інформації - генератор в обох Вордпрес(різниця в версіях, що несуттєво), але метаінформація різна, через різницю в конфігураціях вордпресу - в M.P.C.R відсутні теги rel щодо архіву, в той час як в У.Б. - наявність цілого блоку з 11 посилань на місячні архіви за останній рік
  • Далі йде блок-меню головних посилань вебсайтів - він в обох однаковий практично - посилання на інформацію про сайти, контакнту інформацію тощо
  • А далі починається блок матеріалу, який суттєво відмінний. Ну нічого дивного - шаблони ж різні, та й конфігурація блоків також різна.
    M.P.C.R - наявні блоки популярних записів, останніх записів, блок контактів. Вже в цих блоках присутні теги h1(назва сайту) h2(заголовки блоків), які можуть бути сприйняті як заголовки статей.
    У.Б. - Заголовок статті(h1) і далі текст статті.
    Це тільки людина, окинувши оком вебсайт, може зрозуміти, що тут текст статті, а тут - блок, який не має відношення до контексту матеріалу статті. Робот же читає HTML код, по якому дуже важко зрозуміти де саме той текст, по якому варто формувати стратегію майбутної видачі в пошукових системах.
  • M.P.C.R - h3 тег оголошує блоки коментарів, які виводяться в вигляді пронумерованого ( ol тег) списка ( li теги )
    У.Б. - h4 тег оголошує блоки коментарів, які виводяться в вигляді багаторівневих div блоків для кожного коментаря.

    Висновок: Різниця дуже суттєва, і беручи до уваги лише два сайти практично нереально визначити де ж саме в тексті всієї сторінки знаходяться коментарі.

  • M.P.C.R - h3 заголовок попереджає про форму додавання коментаря
    У.Б. - h6 заголовок попереджає про форму додавання коментаря
    Ідентифікатори форм в HTML розмітці різні і впізнати схожість досить складно.
  • M.P.C.R - блоки div із назвами та текстом всередині кожного з блоків ( Завантажити Український Вордпрес, Підписка, Хмарка Тегів, Рубрики, Календар, Архів, Останні коментарі, Найсвіжіше з українських Блогів, Мета, Блогролл )
    У.Б. - блоки div із зовсім іншою розміткою та ідентифікаторами ( Свіжі Коментарі, Найпопулярніші Статті, Останні Статті)
  • І покажіть мені будь-ласка фактори, які б заставили пошукові системи придавати хоч якесь значення тому, чи на вордпресі створений вебсайт, чи на друпалі, чи банально статичний сайт із динамічно формованими блоками з допомогою php якогось самописного двигунця?
    Запевняю, що на одному і тому ж самому Вебсайті лише двома різними шаблонами можна створити абсолютно несхожі сторінки як розміткою, так і наявністю різноманітних блоків, хай навіть із однаковим текстом статті.
    Або з іншого боку, можна на зовсім різних двигунцях створити абсолютно ідентичну розмітку і зовнішній вигляд.
    І пошукові алгоритми не будуть впізнавати ніколи систему, на якій працює вебсайт. Головне - це певні співвідношення, статичність того чи іншого матеріалу, релевантність, пов'язаність матеріалу всередині вебсайту, наявність коректної метаінформації, кількість беклінків і їхня якість тощо.

Trackback URL для цього допису

http://itua.name/uk/trackback/442

З новим 2009 роком!

Приєднуюсь до Всіх привітань, що отримав сьогодні як через рідер, так і по персональних месенджерах и всіх можливих інформаційних каналах.

Більш технічні результати роботи мого блоґу можете прочитати окремо, а тут я хочу зробити менш офіційне привіт...

Початок кінця.

Вітаю Шановні!

Захотілось дивного - ось і результат...

Якось важко було стримуватись, формуючи статті технічного характеру на моєму IT блозі.
Тому я і тут....

Share this

Параметри перегляду коментарів

Виберіть бажаний спосіб відображення коментарів і натисніть "Зберегти налаштування", щоб активувати ваші зміни.
Зображення користувача Lordie.

Чхати хотіли пошуковики - WP,

Чхати хотіли пошуковики - WP, а чи не WP.
Єдине, що помічав особисто - аніж складніший двигунець та більше усіляких "віджетів" (що ми - майже всі - так полюбляємо начіпляти їх на блоґи) - тим гірший результат релевантності сторінки її реальній тематиці для пошуковика та тим менш цільовий трафік ми отримуємо.
Що є паскудно.

Зображення користувача jin.

усе вірно, не варто

усе вірно, не варто захоплюватсь купую віджетів... чим простший код - тим краще. НМСД

Зображення користувача jarofed.

дякую за порівняння. Дійсно

дякую за порівняння. Дійсно відмінностей багато... але як думаєш, чи не може пошуковик визначити "що це вордпрес", базуючись на блоці "мета" де це доволі конкретно вказано? І якщо визначить - то чи матиме це якийсь вплив на роботу пошуковика?

P.S.: все-таки вирішив позакривати зовнішні посилання з тіла статті тегом nofollow?

Зображення користувача podarok.

nofollow - неспроста, бо

nofollow - неспроста, бо статті не мають відношення до тексту цієї. Ти ж в курсі - завжди експериментую 8)

ПОшуковик може визначити, але не бачу потреби це визначати, бо в реальності - це нічого не дасть

Зображення користувача lilumi.

розкажи як ти вимірював

розкажи як ти вимірював процентну ставку відношення контенту до коду та решту, хочу у себе поміряти.

Пошуковик визначає тип движку вордпресу, для того аби включити його до рейтингу яндексів, та до пошуку по блогам як яндексу так і гугля. Також в випадку виявлення движку вордпресу яндекс моніторить кількість дописувачів до рсс цього блогу.

Те що пошуковику корисно визначати тип движку це я впевнений, бо таким чином, наприклад, банять всі гавносайти та сателіти на цмсках: satelitePro та CMSimple.
Вордпрес визначається лекго, за допомогою meta-тегу, або якщо його нема (як в мене наприклад), то по посиланнях до малюнків та скриптів шаблону в яких фігурує wp-content.

А ще пошуковики засилають бота-павука, що спеціалізується по блогам, щодня на такі сайти, в той час, коли звичайний бот може і тижнями не заходити. А також отримує пінги від сервісу вордпресу та від власного пінг-сервісу, щоб проіндексувати щойно створену нову статтю, аби включити її до пошуку по блогам.

Зображення користувача podarok.

Покажи мені хоч один

Покажи мені хоч один офіційний документ з Планети земля, що може довести цю ілюзію.

Процентна ставка - або використай seochat.com - Code to Text Ratio, або банальним переведенням html в текст тим же джаваскріптом або броузером.

Зображення користувача lilumi.

покажи мені хоч один

покажи мені хоч один офіційний документ в якому йдеться мова яким чином сканує робот-павук, про те які в нього фільтри, та алгоритми оцінювання контенту. Покажи офіційний документ в якому розказується що відношення тексту до html якимось чином впливає на результати видачі в пошуковиках.

«Наявність великої кількості різноманітних текстових блоків та інформерів знижує цей показник, погіршуючи "чистоту" Ваших сторінок та ускладнюючи роботу пошуковим роботам» — де офіційний документ що підтверджує це?

Зображення користувача podarok.

Знаєш - в чомусь ти правий...

Знаєш - в чомусь ти правий... От тільки мій висновок щодо співвідношення тексту до коду базується не просто на спекуляції інформації, а на спробі стати на бік пошукового павука - простіше проаналізувати сторінку, на якій дане співвідношення вище. Чіткої цифри в тому немає.
А от щодо мета тегу хто саме згенерував код(Вордпрес чи ні) - тут питання однозначно спірне і факторів проти назвати можна дуже багато, на порядок більше чим за, але найголовніших два

  1. Критична відмінність в генерації коду різними версіями і різними темами
  2. Жодного доказу за - немає. Скажімо мій сайт не пише, що саме він за ядро і ніякої активності по названим тобою підпапкам для спроб визначення типу ядра дожен павук не робив...(Аналізую сторінку 404 постійно) Ну хіба ті павуки, що керуються людьми і пробують поламати невідому їм CMS

Ідеалу в оптимізації не існує, бо пошукові системи аналізують мільйони сайтів в табличному вигляді і дивляться лише на залежність між пошуком і кліками по лінкам результатів цього пошуку

Зображення користувача GrAndSE.

З документації Google

Є в Google search-engine-optimization-starter-guide написаний самими Google. Там є такі от слова:
"On a page containing a news story, we might put the name of our site into an h1 tag and the
topic of the story into an h2 tag
",
тобто назву сторінки кладемо в h1, назву теми (розділу та таке інше) в h2.

Якщо Google дають такий приклад, то мабуть пошукові машини самі на нього орієнтуються. Там є ще ряд рекомендацій, виходячи з яких можна зрозуміти, що Google полюбляє текст по темі з мінімумом усілякого мотлоху з бажано семантично вірною та максимально валідною розміткою. Хоча можливо, це в мене фантазія розгулялась.

Зображення користувача podarok.

Про Рекомендації Гугля

Насправді всі ми частково праві.

    В документації серед строк завжди можна знайти

  • відповіді на багато запитань,
  • крім того можна стати на місце розробника пошукової системи і вивести певні правила,
  • а також можна взяти доуваги певні статистичні дані і вичислити, що той чи інший двигунець має кращі або гірші показники в тій чи іншій пошуковій стистемі.

І якщо почитати тут всі коментарі - то можна побачити, що кожен з нас стоїть на певній стороні 8))

Зображення користувача GrAndSE.

Ну як мінімум - це обмін

Ну як мінімум - це обмін думками для розширення світогляду :)

Зображення користувача Друпал ajax_comments модуль - Український реліз | my.ukrweb..

Pingback

[...] аяксом після того, як сторінка завантажиться - тоді коментарі не впливали б на якість контенту вцілому і можна б було наплювати на будь-які nofollow та noindex. Крім [...]

Об'єднати вміст Об'єднати вміст

Propeople Expert

Партнери

Останні коментарі

експерименти

Rambler's Top100