І знову спам. Погляд відсутності 0% та 100%. Antitop v0.3.

Давненько на сторінках цього блогу не згадувався спам в тексті статтей.

Стаття lilumi про те, що в нього відсутній спам - надихнула і "завела".

Як відомо - для того, щоб навчитись їздити на лижах - просто необхідно навчитись правильному падінню з них.
Аналогічно і із спамом. Для того, щоб розуміти і вміти зменшити його кількість - просто необхідно вміти і знати алгоритми цього самого спаму.
Відповідно до цього ствердження я спробую незнайомими мені інструментами проаналізувати принцип роботи "розумного" спаму з можливостями дуже серйозної автоматизації і обов'язковим втручанням людини-спамера.

Отримай місце в блогосфері!
Трафік дня - Партнер Місяця

Звісна справа - все це буду проводити на теренах дружнього блогу, який зазіхнув на святе - виклав метод, який дійсно є ефективним в більшості випадків проти тупих автоматичних методів.

Щодо алгоритму прихованої форми

Інструментарій, який був вибраний саме для цього випадку:

Naviscope - програма візуалізатор-проксі, що відображає HTTP request(GET + POST) запити(Замість цього можна використати будь-який HTTP сніфер)
Firefox + перший з додатків, що вміє відсилати GET і головне POST запити(в автоматичному режимі не використовується)
Opera(опціонально)
Notepad++(опціонально)

Тут я не буду розглядати принцип створення саме інструменту, що буде стягувати html сторінку і грабити ідентифікатор форми для особливо складних випадків, коли він змінюється в часі.
В даному випадку алгоритми - аналогічні до взлому капчі, що для прикладу стоїть на цьому блозі.
Головне знати, що вони є.

Для створення автоматичної програми спаму потрібно в першу чергу записати повністю всі кроки додавання саме коментаря. Вручну!

Отже.. Заходимо на блог і додаємо коментар. Поки що вручну...

Після додавання - аналізуєм інформацію з naviscope і створюєм автоматичний процес додавання.
Аналізуємо HTTP request POST запит

Витягуємо з вікна naviscope HTTP заголовок, який відправляється броузером відповідному серверу.
HACKBAR FireFox using for spamming

Вставляємо в вікно hackbar відповідно посилання до php скрипта, refererr, і наш, потрібний POST data, в якому вводиться ідентифікатор форми, текст коментаря, додаткова інформація про користувача і ідентифікатор коментаря, на який робиться відповідь.
Тиснемо Execute.
Змінюємо один символ в тексті коментаря і повторно тиснемо Execute. Далі - справа часу і реалізації автоматизму.
Замість hackbar можливе використання php, javascript post(НМД - найбільш небезпечний метод), c++ тощо.

Щодо захисту і як його обходиться...

Захист прихованою формою тут не спрацьовує, бо ідентифікатор вичисляється людиною, а в майбутньому по відповідній ділянці коду(Алгоритм антивіруса 8) ) і автоматичним грабером 8)

Зміна ідентифікатора форми через певний період часу - спрацює в якості захисту, але якщо в грабера буде аналізатор по ділянці HTML коду - фіг Ви його обдурите, він просто буде хватати новий ідентифікатор форми щоразу при зміні Вами вручну або автоматично.

Щодо Акісмету.

Обійти його досить нескладно, якщо посилання вставляти в текст коментаря, а не в поле "сайт"

Крім того, якщо посилання вставляти серед тексту коментаря, скопійованого з частини статті або іншого коментаря цього ж самого блогу - такий коментар навіть автором може бути сприйнятий як норма..

Найгірше в акісметі те, що його база наповнюється користувачами, частина з яких є просто спамерами.

Щодо bayesian алгоритму.

На мою думку - це один з найефективніших алгоритмім самонавчання, частково використаний і в Акісметі.

Тобто - спам-неспам.

Бачите спам - тиснете спам і по статистиці слів в спам коментарях вичисляється імовірність даного коментаря щодо того чи цек спам чи не спам... Бачите випадкове спрацьовування фільтру - тиснете неспам і алгоритм вчиться в зворотньому напрямку.

Обходиться спамерами тупим постінгом найрейтинговіших слів в текст коментаря, і при цьому "пильність" фільтра знижується.

Для того, щоб не зруйнувати власну базу статистики даного алгоритму - на коментарях, які я називаю "антиантиспам", тобто таких, що направлені на зниження ефективності антиспам фільтрів, забороняється тиснути "спам-неспам", замість того обрубувати можливі майбутні спам-атаки по ключовим словам, які дійсно завжди будуть спамом(ручне навчання алгоритму bayesian), а також баном доменних імен, на які спамер постить в тексті коментаря.

І замість висновка

Неможливо позбутись спаму взагалі...
Можна знизити відсоток потрапляння спаму на Ваш сайт , але позбутись його - нереально.
Створення унікальних форм додавання - знизить кількість "тупих" ботів.
Зміна форм додавання коментарів в часі - аналогічно.
Премодерація - додасть Вам роботи, але позбавить швидкості додавання коментарів для анонімних користувачів.
Алгоритм Баєра(bayesian) в комплексі з премодерацією найбільш схожих на спам коментарів - найефективніший метод, особливо, якщо Ваша форма коментування - унікальна, але він також обходиться, якщо спамер додасть в текст коментаря частину тексту вашої статті(або опублікованого коментаря) тупим копіюванням.

Trackback URL для цього допису

http://itua.name/uk/trackback/555

Окремий погляд на Інформаційні Технології