Новости
Разработчики вынуждены отбиваться от ИИ-парсеров
Пусть это на мгновение впитается в сознание — по словам Венеранди, разработчикам «даже приходится прибегать к запрету целых стран», чтобы отбиться от ИИ-ботов, игнорирующих файлы robot.txt.
ИИ-краулеры — это тараканы интернета, считают многие разработчики программного обеспечения. Некоторые разработчики начали давать им отпор, используя оригинальные, часто забавные способы.
Хотя любой сайт может стать мишенью для веб-краулеров, что иногда может привести к его падению из-за нагрузки, разработчики открытого кода страдают «непропорционально», пишет Никколо Венеранди, разработчик Plasma и автор блога LibreNews.
По своей природе сайты, на которых размещаются проекты с бесплатным и открытым исходным кодом (FOSS), в большей степени делятся своей инфраструктурой, а также, как правило, имеют меньше ресурсов, чем коммерческие продукты.
Проблема в том, что многие ИИ-боты не соблюдают Robots Exclusion Protocol и robot.txt — файл, указывающий ботам, куда не следует заходить, изначально созданный для ботов поисковых систем.
В январе разработчик FOSS описал, как AmazonBot без устали парсил Git-сервер, вызывая DDoS. На Git-серверах размещаются проекты FOSS, чтобы любой желающий мог скачать код или внести в него свой вклад.
Но этот бот игнорировал robot.txt, скрывался под разными IP-адресами и выдавал себя за других пользователей, говорит разработчик.
«Блокировать ИИ-краулеров бесполезно, потому что они лгут, меняют свой user agent, используют живые IP-адреса в качестве прокси и т.д.», — говорит автор.
«Они будут парсить ваш сайт, пока он не упадет, а потом будут обращаться к нему снова и снова. Они будут переходить по всем ссылкам, просматривая одни и те же страницы снова и снова, снова и снова. Некоторые из них даже будут кликать по одной и той же ссылке несколько раз в секунду», — пишет разработчик.
В ответ на это создали инструмент под названием Anubis.
Anubis — это обратный прокси-сервер, который надо пройти, прежде чем запросы попадут на Git-сервер. Он блокирует ботов, но пропускает браузеры, управляемые людьми.
Самое интересное: Анубис — это имя бога в египетской мифологии, который ведет мертвых на суд.
Если веб-запрос проходит испытание и определяется как человеческий, об успехе сообщает милая аниме-картинка. Рисунок — это «моя попытка антропоморфировать Анубиса», — говорит разработчик. Если это бот, запрос отклоняется.
Проект с язвительным названием распространился среди сообщества FOSS как ветер. Его опубликовали на GitHub 19 марта, и всего за несколько дней он собрал 2 000 звезд, 20 соавторов и 39 форков.
Мгновенная популярность Anubis показывает, что такая боль не уникальна. На самом деле, Венеранди делится одной историей за другой:
- Основатель SourceHut Дрю ДеВолт рассказал, что «в течение недели тратит от 20 до 100% своего времени на борьбу с гипер-агрессивными LLM-краулерами» и «испытывает десятки кратковременных сбоев в неделю».
- Джонатан Корбет, известный разработчик FOSS, управляющий новостным сайтом LWN, посвященным индустрии Linux, предупредил, что его сайт тормозится из-за DDoS-трафика «со стороны ботов AI».
- Кевин Фензи, системный администратор огромного проекта Linux Fedora, сообщил, что ИИ-боты стали настолько агрессивными, что ему пришлось заблокировать доступ от всей Бразилии.
Венеранди сообщил, что ему известно о нескольких других проектах, испытывающих те же проблемы. Одному из них «пришлось временно запретить все китайские IP-адреса».
Пусть это на мгновение впитается в сознание — по словам Венеранди, разработчикам «даже приходится прибегать к запрету целых стран», чтобы отбиться от ИИ-ботов, игнорирующих файлы robot.txt.
Другие разработчики считают, что лучшей защитой является месть, а не взвешивание души у веб-запроса.
Несколько дней назад на Hacker News пользователь xyzal предложил размещать на запрещенных robot.txt страницах «массу статей о пользе питья отбеливателя» или «статьями о положительном влиянии заражения корью на активность в постели».
«Думаю, нам нужно стремиться к тому, чтобы боты получали _отрицательную_ полезность от посещения наших ловушек, а не просто нулевую», — пояснил xyzal.
Так получилось, что в январе анонимный автор под ником Aaron выпустил инструмент под названием Nepenthes, который нацелен именно на это. Он заманивает краулеров в бесконечный лабиринт поддельного контента — цель, которую, по признанию разработчика, можно назвать агрессивной, если не откровенно вредоносной. Инструмент назван в честь плотоядного растения.
А компания Cloudflare, возможно, крупнейший коммерческий игрок, предлагающий несколько инструментов для борьбы с ИИ-краулерами, на прошлой неделе выпустила аналогичный инструмент под названием AI Labyrinth.
Он предназначен для того, чтобы “замедлять, запутывать и тратить впустую ресурсы AI краулеров и других ботов, которые не соблюдают директивы”, — говорится в сообщении Cloudflare в блоге. Cloudflare заявил, что он кормит недобросовестные ИИ-краулеры «нерелевантным контентом, что не дает возможности извлекает данные вашего сайта».
ДеВолт из SourceHut сказал, что «в Nepenthes есть чувство справедливости, поскольку он кормит гусениц бессмыслицей и отравляет их колодцы, но в конечном итоге Anubis — это решение, которое сработало» для его сайта.
Но ДеВолт также публично обратился с искренней мольбой о более прямом решении проблемы: «Пожалуйста, прекратите легитимизировать LLM, или ИИ-генераторы изображений, или GitHub Copilot, или любой другой мусор. Я умоляю вас перестать их использовать, перестать говорить о них, перестать создавать новые, просто перестать».
Поскольку вероятность этого ничтожно мала, разработчики, особенно в FOSS, отбиваются с помощью смекалки и юмора.
-
Видео и подкасты для разработчиков4 недели назад
Как устроена мобильная архитектура. Интервью с тех. лидером юнита «Mobile Architecture» из AvitoTech
-
Новости4 недели назад
Видео и подкасты о мобильной разработке 2025.10
-
Новости3 недели назад
Видео и подкасты о мобильной разработке 2025.11
-
Видео и подкасты для разработчиков2 недели назад
Javascript для бэкенда – отличная идея: Node.js, NPM, Typescript