Наскільки важливо співвідношення тексту на сторінці до розміру HTML коду?
Чому статті із великим розміром тексту найчастіше правильно обробляються пошуковиками?
Чому наявність великої кількості зовнішніх та внутрішніх посилань збиває з толку пошукові роботи?
Чому на Ваш сайт заходять по словам, які відсутні в тексті статей?
Наскільки просто роботам знайти на Вашій сторінці текст, що несе в собі суть самого тексту?
Wordpress vs Wordpress - чи насправді однакові сторінки при використанні різних тем?
Давно задався метою дослідити і відповісти на ці запитання.
Дещо, що може допомогти в розумінні тексту цієї статті можна почитати в моїй ідеалізації щодо створення вебсторінок, спробі аналізу видачі пошуковиками україномовних запитів, а також в деяких частинах великого дослідження відсутності насправді українських вебсайтів в уанеті.
Ідея статті виникла під час розмови між masterpiecer (aka Олександр Фурман) та Ярославом Федораком (aka jarofed ) під час обговорення майбутнього каталогу блогів і не тільки, а саме моменту щодо співвідношення текстової частини самої статті і загальної кількості тексту на сторінці, а також співвідношення текстової частини та загального розміру html коду сторінки. Крім того було підняте питання схожості коду, що генерується CMS, якщо ця система є одного типу.
Для яскравості прикладу я обрав кілька сторінок з блогів, відвідуваність яких найвища. Враховуючи те, що розмова стосувалась wordpress, його і буду гнобити 8). Хоча ні... Вордпрес тут точно ні при чому.
- Спроба розповісти про себе від Letrodectus
- стаття/html - 2,23%
- стаття/текст - 4,67%
- стаття+коментарі/текст - 80,18%
Виходячи з теорії ймовірності, із досить малою похибкою можна сказати, що входи з пошуковиків будуть на 5% відповідати тексту самої статті, в той час як після знайчної кількості коментарів і повторної переіндексації сторінки саме з коментарями пошуковики будуть на (80-5)=75% ототожнювати сторінку з текстом коментарів і тільки на 5% з текстом самої статті.
- Стаття про найкращі записи від Електрика
- стаття/html - 2,9%
- стаття/текст - 15,25%
- стаття+коментарі/текст - 50,31%
На старті аналогічно до попередного прикладу, але через значно більшу кількість паразитного тексту на сайті, кількість корисного тексту лише трошки більше 15 відсотків. Така буде і видача від пошуку.
- Приклад статті із фотоблогу "Гучні Імена"
- стаття/html - 10,38%
- стаття/текст - 41,53%
Для прикладу я взяв чи не найбільшу за кількістю тексту статтю з цього блогу, тому показник і виявився таким значним. Для фотоблогів дуже суттєвим показником, що покращує віддачу від пошукових систем - це наявність атрибутів alt та title для кожної фотографії, тоді тексти з цих атрибутів рахуються за корисний матеріал статті і примножують показники.
- Баян від Механіка щодо історії виникнення електронної пошти
- стаття/html - 32,78%
- стаття/текст - 73,84%
Це чи не найвищий показник в тесті. Ну воно й зрозуміло - стаття досить велика і реально на сайті відсутня велика кількість "лівого матеріалу".
- Федорак розмірковує про статистику
- стаття/html - 10,37%
- стаття/текст - 25,80%
- стаття+коментарі/текст - 42,94%
Досить яскравий приклад, бо в даному випадкі я обрав найпопулярнішу статтю з всього вебсайту. Враховуючи, що на даному блозі досить значна кількість коментарів і вони несуть в собі дійсно релевантну інформацію, - можна зробити висновок, що коментарі вносять собою в значиму частину сторінки рівно стільки, скільки є сам текст статті. Тому дуже важливим фактором є наявність великої кількості правильних коментарів.
- Найпопулярніша стаття на моєму блозі "про спам"
- стаття/html - 26,44%
- стаття/текст - 63,76%
- стаття+коментарі/текст - 72,81%
Це точно не ідеал! Працюю над переробкою теми і виводом всіх блоків засобами зовнішнього javascript, бо хочу наблизитись до показника в 90-95% тексту статті до тексту загалом.
- Новина від M.P.C.R про вихід нової версії нестійкого вордпресу
- стаття/html - 2,19%
- стаття/текст - 10,13%
- стаття+коментарі/текст - 25,1%
Дуже низький показник. Спасають коментарі. Погіршує показник наявність великої кількості різноманітних блоків.
- Що можна сказати з вищеприведеного і не тільки
- Розмір статті самим прямим чином впливає на співвідношення корисного матеріалу до розміру сторінки
- Наявність великої кількості різноманітних текстових блоків та інформерів знижує цей показник, погіршуючи "чистоту" Ваших сторінок та ускладнюючи роботу пошуковим роботам
- Переведення блоків, що повторюються на всіх сторінках в javascript видачу дуже сильно покращує дане співвідношення
- Застосування складної HTML верстки ваших статей із великою кількістю вбудованих стилів погіршує показник співвідношення тексту статті до ваги сторінки в цілому
Порівняння двох вордпресів.
Я спеціально не виділяв цю частину статті окремою статтею, бо не рахував за потрібне розводити демагогію.
Отже - M.P.C.R проти Української Блогосфери.
В розмові було закинуто клич, що пошуковики однаково впізнають вордпреси і дуже легко визначають що на сторінці є корисним матеріалом, а що - паразитним грузом.
Враховуючи те, що точної інформації про це я не зустрічав, буду робити аналіз згідно того, що є в коді сторінок цього вебсайту, наводячи приклади що є схожим, а що відмінним. Для цього я взяв дві різних сторінки із приблизно однаковою кількістю матеріалу (про співвідношення читайте на початку статті).
Структура сайту згідно HTML
- M.P.C.R - У.Б.
- заголовки однотипні в обох - Назва Статті / Ім'я Вебсайту
- Блок Мета інформації - генератор в обох Вордпрес(різниця в версіях, що несуттєво), але метаінформація різна, через різницю в конфігураціях вордпресу - в M.P.C.R відсутні теги rel щодо архіву, в той час як в У.Б. - наявність цілого блоку з 11 посилань на місячні архіви за останній рік
- Далі йде блок-меню головних посилань вебсайтів - він в обох однаковий практично - посилання на інформацію про сайти, контакнту інформацію тощо
- А далі починається блок матеріалу, який суттєво відмінний. Ну нічого дивного - шаблони ж різні, та й конфігурація блоків також різна.
M.P.C.R - наявні блоки популярних записів, останніх записів, блок контактів. Вже в цих блоках присутні теги h1(назва сайту) h2(заголовки блоків), які можуть бути сприйняті як заголовки статей.
У.Б. - Заголовок статті(h1) і далі текст статті.
Це тільки людина, окинувши оком вебсайт, може зрозуміти, що тут текст статті, а тут - блок, який не має відношення до контексту матеріалу статті. Робот же читає HTML код, по якому дуже важко зрозуміти де саме той текст, по якому варто формувати стратегію майбутної видачі в пошукових системах. -
M.P.C.R - h3 тег оголошує блоки коментарів, які виводяться в вигляді пронумерованого ( ol тег) списка ( li теги )
У.Б. - h4 тег оголошує блоки коментарів, які виводяться в вигляді багаторівневих div блоків для кожного коментаря.Висновок: Різниця дуже суттєва, і беручи до уваги лише два сайти практично нереально визначити де ж саме в тексті всієї сторінки знаходяться коментарі.
-
M.P.C.R - h3 заголовок попереджає про форму додавання коментаря
У.Б. - h6 заголовок попереджає про форму додавання коментаря
Ідентифікатори форм в HTML розмітці різні і впізнати схожість досить складно. -
M.P.C.R - блоки div із назвами та текстом всередині кожного з блоків ( Завантажити Український Вордпрес, Підписка, Хмарка Тегів, Рубрики, Календар, Архів, Останні коментарі, Найсвіжіше з українських Блогів, Мета, Блогролл )
У.Б. - блоки div із зовсім іншою розміткою та ідентифікаторами ( Свіжі Коментарі, Найпопулярніші Статті, Останні Статті)
І покажіть мені будь-ласка фактори, які б заставили пошукові системи придавати хоч якесь значення тому, чи на вордпресі створений вебсайт, чи на друпалі, чи банально статичний сайт із динамічно формованими блоками з допомогою php якогось самописного двигунця?
Запевняю, що на одному і тому ж самому Вебсайті лише двома різними шаблонами можна створити абсолютно несхожі сторінки як розміткою, так і наявністю різноманітних блоків, хай навіть із однаковим текстом статті.
Або з іншого боку, можна на зовсім різних двигунцях створити абсолютно ідентичну розмітку і зовнішній вигляд.
І пошукові алгоритми не будуть впізнавати ніколи систему, на якій працює вебсайт. Головне - це певні співвідношення, статичність того чи іншого матеріалу, релевантність, пов'язаність матеріалу всередині вебсайту, наявність коректної метаінформації, кількість беклінків і їхня якість тощо.
Trackback URL для цього допису
З новим 2009 роком!
від Персональна сторінка - podarok, відправлене Птн, 2009-01-02 00:39Приєднуюсь до Всіх привітань, що отримав сьогодні як через рідер, так і по персональних месенджерах и всіх можливих інформаційних каналах.
Більш технічні результати роботи мого блоґу можете прочитати окремо, а тут я хочу зробити менш офіційне привіт...
Початок кінця.
від Персональна сторінка - podarok, відправлене Чтв, 2008-12-18 00:39Вітаю Шановні!
Захотілось дивного - ось і результат...
Якось важко було стримуватись, формуючи статті технічного характеру на моєму IT блозі.
Тому я і тут....