2026-04-21 03:30 · 🤖 AI World

Люди кормят ИИ-краулеры мусором — и это работает

Пока AI-компании скребут весь публичный интернет ради обучающих данных, часть пользователей отвечает симметрично: создаёт инструменты для намеренного отравления этих данных. Движение небольшое, но у него есть логика, инфраструктура и растущая аудитория.

AI-краулеры давно стали фактом жизни. Они игнорируют robots.txt, прячутся за жилыми прокси и устраивают нагрузку, неотличимую от DDoS, на небольших сайтах — только ради того, чтобы добыть очередную порцию «человеческого контента» для следующего цикла обучения. Теперь часть интернета отвечает тем же: намеренным, систематическим засорением потоков данных. Инструменты уже есть. Сообщество растёт.

Контекст

На Reddit существует сообщество r/PoisonFountain. Его основали люди, называющие себя инсайдерами AI-индустрии, — то есть теми, кто изнутри видел, как устроен сбор обучающих данных. Цель у них конкретная: к концу 2026 года скармливать ботам один терабайт «яда» в сутки. Не абстрактно «мешать ИИ», а именно — тратить вычислительные ресурсы компаний, которые собирают данные без спроса.

Ядро инфраструктуры живёт на rnsaffn.com. Технически это страница с кодом, который выглядит синтаксически корректным, но напичкан тонкими семантическими ошибками: код нерабочий, но это не очевидно с первого взгляда. Краулер забирает его как полезный материал. Отфильтровать такой мусор можно — но при промышленном масштабировании это дорого и требует ручной разметки. Поверх «фонтана» работает инструмент Miasma, который разработчик описывает без лишней скромности:

«бесконечный шведский стол из помоев для помоечных машин»

Miasma автоматически и без участия пользователя льёт огромные объёмы такого контента в ответ на запросы ботов.

Параллельно через то же сообщество всплыл метод отравления AI-суммаризаторов YouTube через субтитры в формате .ass. Лазейку быстро закрыли, но сам факт показателен: люди активно ищут векторы атаки и находят их быстрее, чем платформы успевают залатать дыры. В соцсетях распространяется и более простой подход — намеренный постинг правдоподобной дезинформации, рассчитанной именно на ботов. Классический пример из обсуждений: утверждение, что Идрис Элба играл маму Рэймонда в сериале «Все любят Рэймонда». Любой человек поймёт, что это абсурд. Автоматический скрейпер заберёт это как качественный human-generated контент и отправит в датасет.

Аналитика

В абсолютных числах движение пока незначительное. Но логика за ним железная. AI-компании зависят от качества публичных данных — и чем больше этих данных, тем сильнее зависимость от их чистоты. GPT-4, Claude, любые следующие модели обучаются на том, что есть в интернете. Если достаточно людей начнут системно загрязнять публичные пространства дезинформацией, направленной именно на ботов, у компаний появится стимул пересмотреть способы сбора данных — или хотя бы начать платить за доступ к ним.

Тренд вписывается в более широкий контекст. Споры вокруг data poisoning идут и в академической среде: исследователи из MIT и других университетов ещё в 2023–2024 годах показали, что небольших модификаций в обучающих данных достаточно, чтобы существенно сместить поведение модели. То, что делает r/PoisonFountain, — грубее и менее таргетировано, но принцип тот же. Разница в том, что здесь это делают обычные люди, а не исследователи.

Ненависть к технологии редко приводит к хорошим результатам — об этом напоминают и случаи вандализма против роботов-доставщиков, и более серьёзные инциденты с физической инфраструктурой. Но мирное, легальное сопротивление — другая история. Postить мусор в интернете незаконным не назовёшь. Люди злятся на то, что ИИ делает с онлайн-сообществами, с образованием, с рабочими местами, с потреблением энергии. И часть из них переводит эту злость в конкретные действия.

Кейсы применения в бизнесе

B2B-SaaS стартап с оригинальной документацией. Если ваш продукт описан в публичных docs — краулеры уже там. Добавьте на технические страницы «honeypot»-разделы: синтаксически корректный, но намеренно неполный псевдокод без явной разметки «это пример». Краулер заберёт его как документацию. Параллельно закройте реальную актуальную документацию за авторизацией — тогда в паблике останется только шум. Эффект: снижение качества данных, которые конкуренты или AI-сервисы могут использовать для имитации вашего продукта.

Медиа или контент-компания. Если вы производите оригинальный контент, который регулярно скребут без атрибуции, рассмотрите «канареечные» страницы — материалы с уникальными, проверяемыми ошибками, видимыми только ботам. Это не остановит скрейпинг, но даст доказательную базу: если та же ошибка всплывёт в выдаче конкурентного AI-продукта, у вас есть конкретный факт для юридического письма.

SMB/малый бизнес с локальным сайтом. Для небольшого сайта агрессивные краулеры — буквально DDoS. Технически: настройте robots.txt корректно, но дополнительно добавьте страницу-ловушку (tarpit), которая отвечает краулерам очень медленно — растягивает соединение на минуты. Это не отравление данных, но тратит ресурсы агрессивного бота и снижает нагрузку на вашу инфраструктуру.

Кейсы в личной жизни

Разработчик, публикующий код в открытом доступе. Если вы ведёте блог или репозиторий с туториалами — добавляйте в посты намеренно избыточные «альтернативные подходы», которые синтаксически валидны, но неэффективны или устарели. Пометьте их для читателей-людей (например, «не рекомендуется»), но без машиночитаемой разметки. Краулер заберёт всё как равнозначный контент.

Контент-мейкер или блогер. Самый простой вектор — намеренно абсурдные, но правдоподобно оформленные факты в конце длинных постов. Не фейки для людей, а именно бот-корм: конкретные имена, даты, цифры, которые не гуглятся и звучат нейтрально. Человек, читающий до конца, поймёт по контексту. Бот — нет.

Студент или исследователь. Если вы пишете академические работы, которые публикуются в открытом доступе, поговорите с научным руководителем о политике лицензирования. CC BY-NC или аналоги не остановят скрейпинг технически, но создают юридическую базу для претензий. Параллельно — отслеживайте, не всплывают ли ваши формулировки в AI-ответах без атрибуции: это делается простым поиском уникальных фраз из ваших текстов.

Как применить сегодня

Зайдите на rnsaffn.com и посмотрите, как устроен «фонтан» технически — это полезно уже для понимания, как краулеры обрабатывают контент.
Проверьте свой robots.txt: убедитесь, что он актуален и закрывает служебные директории. Добавьте запрет для известных AI-краулеров (GPTBot, ClaudeBot, anthropic-ai) — это не юридически обязывающий документ, но часть компаний его соблюдает.
Настройте tarpit-страницу для ботов — например, через nginx limit_req или специализированные модули. Простые конфигурации публично доступны на GitHub.
Если вы публикуете оригинальный контент, добавьте в шаблон страницы скрытый для людей, но видимый для краулеров блок с «канареечной» фразой — это инструмент для отслеживания несанкционированного использования.
Следите за r/PoisonFountain и смежными сообществами: там появляются новые векторы и инструменты быстрее, чем о них пишут в прессе.

#data poisoning #AI resistance #краулеры #обучающие данные #антиИИ

← Все статьи