Разработчики вынуждены отбиваться от ИИ-парсеров

AppTractor

1 неделя назад

ИИ-краулеры — это тараканы интернета, считают многие разработчики программного обеспечения. Некоторые разработчики начали давать им отпор, используя оригинальные, часто забавные способы.

Хотя любой сайт может стать мишенью для веб-краулеров, что иногда может привести к его падению из-за нагрузки, разработчики открытого кода страдают «непропорционально», пишет Никколо Венеранди, разработчик Plasma и автор блога LibreNews.

По своей природе сайты, на которых размещаются проекты с бесплатным и открытым исходным кодом (FOSS), в большей степени делятся своей инфраструктурой, а также, как правило, имеют меньше ресурсов, чем коммерческие продукты.

Проблема в том, что многие ИИ-боты не соблюдают Robots Exclusion Protocol и robot.txt — файл, указывающий ботам, куда не следует заходить, изначально созданный для ботов поисковых систем.

В январе разработчик FOSS описал, как AmazonBot без устали парсил Git-сервер, вызывая DDoS. На Git-серверах размещаются проекты FOSS, чтобы любой желающий мог скачать код или внести в него свой вклад.

Но этот бот игнорировал robot.txt, скрывался под разными IP-адресами и выдавал себя за других пользователей, говорит разработчик.

«Блокировать ИИ-краулеров бесполезно, потому что они лгут, меняют свой user agent, используют живые IP-адреса в качестве прокси и т.д.», — говорит автор.

«Они будут парсить ваш сайт, пока он не упадет, а потом будут обращаться к нему снова и снова. Они будут переходить по всем ссылкам, просматривая одни и те же страницы снова и снова, снова и снова. Некоторые из них даже будут кликать по одной и той же ссылке несколько раз в секунду», — пишет разработчик.

В ответ на это создали инструмент под названием Anubis.

Anubis — это обратный прокси-сервер, который надо пройти, прежде чем запросы попадут на Git-сервер. Он блокирует ботов, но пропускает браузеры, управляемые людьми.

Самое интересное: Анубис — это имя бога в египетской мифологии, который ведет мертвых на суд.

Если веб-запрос проходит испытание и определяется как человеческий, об успехе сообщает милая аниме-картинка. Рисунок — это «моя попытка антропоморфировать Анубиса», — говорит разработчик. Если это бот, запрос отклоняется.

Проект с язвительным названием распространился среди сообщества FOSS как ветер. Его опубликовали на GitHub 19 марта, и всего за несколько дней он собрал 2 000 звезд, 20 соавторов и 39 форков.

Мгновенная популярность Anubis показывает, что такая боль не уникальна. На самом деле, Венеранди делится одной историей за другой:

Основатель SourceHut Дрю ДеВолт рассказал, что «в течение недели тратит от 20 до 100% своего времени на борьбу с гипер-агрессивными LLM-краулерами» и «испытывает десятки кратковременных сбоев в неделю».
Джонатан Корбет, известный разработчик FOSS, управляющий новостным сайтом LWN, посвященным индустрии Linux, предупредил, что его сайт тормозится из-за DDoS-трафика «со стороны ботов AI».
Кевин Фензи, системный администратор огромного проекта Linux Fedora, сообщил, что ИИ-боты стали настолько агрессивными, что ему пришлось заблокировать доступ от всей Бразилии.

Венеранди сообщил, что ему известно о нескольких других проектах, испытывающих те же проблемы. Одному из них «пришлось временно запретить все китайские IP-адреса».

Пусть это на мгновение впитается в сознание — по словам Венеранди, разработчикам «даже приходится прибегать к запрету целых стран», чтобы отбиться от ИИ-ботов, игнорирующих файлы robot.txt.

Другие разработчики считают, что лучшей защитой является месть, а не взвешивание души у веб-запроса.

Несколько дней назад на Hacker News пользователь xyzal предложил размещать на запрещенных robot.txt страницах «массу статей о пользе питья отбеливателя» или «статьями о положительном влиянии заражения корью на активность в постели».

«Думаю, нам нужно стремиться к тому, чтобы боты получали _отрицательную_ полезность от посещения наших ловушек, а не просто нулевую», — пояснил xyzal.

Так получилось, что в январе анонимный автор под ником Aaron выпустил инструмент под названием Nepenthes, который нацелен именно на это. Он заманивает краулеров в бесконечный лабиринт поддельного контента — цель, которую, по признанию разработчика, можно назвать агрессивной, если не откровенно вредоносной. Инструмент назван в честь плотоядного растения.

А компания Cloudflare, возможно, крупнейший коммерческий игрок, предлагающий несколько инструментов для борьбы с ИИ-краулерами, на прошлой неделе выпустила аналогичный инструмент под названием AI Labyrinth.

Он предназначен для того, чтобы “замедлять, запутывать и тратить впустую ресурсы AI краулеров и других ботов, которые не соблюдают директивы”, — говорится в сообщении Cloudflare в блоге. Cloudflare заявил, что он кормит недобросовестные ИИ-краулеры «нерелевантным контентом, что не дает возможности извлекает данные вашего сайта».

ДеВолт из SourceHut сказал, что «в Nepenthes есть чувство справедливости, поскольку он кормит гусениц бессмыслицей и отравляет их колодцы, но в конечном итоге Anubis — это решение, которое сработало» для его сайта.

Но ДеВолт также публично обратился с искренней мольбой о более прямом решении проблемы: «Пожалуйста, прекратите легитимизировать LLM, или ИИ-генераторы изображений, или GitHub Copilot, или любой другой мусор. Я умоляю вас перестать их использовать, перестать говорить о них, перестать создавать новые, просто перестать».

Поскольку вероятность этого ничтожно мала, разработчики, особенно в FOSS, отбиваются с помощью смекалки и юмора.