Cloudflare ужесточает меры в отношении пожирающих сайты ИИ-ботов

Важные новости

Cloudflare ужесточает меры в отношении пожирающих сайты ИИ-ботов

В понедельник Cloudflare расширила свою защиту от темного искусства веб-скрейперов ИИ, предоставив клиентам немного больше возможностей для отслеживания и контроля нежелательных рейдов контента.

Ранее в этом году сетевой бизнес развернул защиту от ботов с помощью ИИ одним щелчком мыши, чтобы улучшить не очень эффективный механизм robots.txt, способ, с помощью которого веб-сайты могут просить, но не требовать от ботов вести себя.

Cloudflare теперь обновляет свой арсенал с помощью панели управления аудитом ИИ.

Идея состоит в том, чтобы предоставлять клиентам аналитические данные о краулерах, которые собирают данные для обучения и вывода ИИ, чтобы можно было принимать более обоснованные решения о том, следует ли использовать ботов или нет.

«Некоторые клиенты уже приняли решение вести переговоры о сделках напрямую с компаниями, занимающимися ИИ», — пояснил Сэм Ри, член команды Cloudflare по новым технологиям и инкубации. «Многие из этих контрактов включают условия о частоте сканирования и типе контента, к которому можно получить доступ. Мы хотим, чтобы у этих издателей были инструменты для измерения реализации этих сделок».

В рамках связанной инициативы Cloudflare усовершенствовала свой сервис Turnstile, альтернативу CAPTCHA, которая работает без необходимости заставлять посетителей решать головоломки, с помощью механизма Ephemeral ID.

Инструмент обнаружения мошенничества связывает поведение с сетевым клиентом вместо IP-адреса. Turnstile прикрепляет эфемерные идентификаторы к клиентским сигналам без использования файлов cookie или другого клиентского хранилища. Cloudflare утверждает, что эти уникальные, кратковременные идентификаторы обеспечивают лучшее обнаружение мошенничества без ущерба для конфиденциальности.

Риа говорит, что проблема в том, что появление ботов на основе ИИ усложнило определение того, является ли программный доступ к веб-сайту полезным или злоупотребляющим. Хотя они не проводят атаку типа «отказ в обслуживании», боты, которые собирают данные сайта для обучения моделей ИИ или обслуживания результатов поиска ИИ, все равно могут представлять угрозу для бизнеса.

«Боты AI Data Scraper сканируют контент на вашем сайте для обучения новых LLM», — говорит Риа. «Затем ваш материал помещается в своего рода блендер, смешивается с другим контентом и используется для ответа на вопросы пользователей без указания источника или необходимости посещения вами вашего сайта».

Как описал это разработчик программного обеспечения Саймон Уиллисон, обучение ИИ сродни «отмыванию денег за данные, защищенные авторским правом». Поскольку такие компании, как OpenAI и Anthropic, не раскрывают данные обучения, используемые для создания своих моделей, ИИ по сути является отмыванием контента. Это похоже на криптомикшер — процесс, призванный скрыть происхождение криптовалюты.

Затем есть боты AI Search Crawler, которые сканируют контент и цитируют его в ответ на поисковые запросы. «Недостатком является то, что эти пользователи могут просто оставаться внутри этого интерфейса, а не посещать ваш сайт, потому что ответ собран на странице перед ними», — сказал Риа.

То есть поиск на основе ИИ может не привлекать трафик на исходные сайты и, таким образом, не обеспечивать доход от рекламы. Проблема возникла летом, когда генеральный директор iFixit Кайл Винс возразил против сбора данных краулерами Anthropic, и с тех пор эта фирма, занимающаяся ИИ, занялась этой проблемой.

Реа утверждает, что разрешение ботам ИИ бесконтрольно работать угрожает открытому Интернету.

«Без возможности контролировать сканирование и реализовывать ценность владельцы сайтов будут разочарованы запуском или поддержкой интернет-ресурсов», — сказал он. «Создатели будут прятать больше своего контента за платными подписками, а крупнейшие издатели будут заключать прямые сделки. Поставщики моделей ИИ, в свою очередь, будут испытывать трудности с поиском и доступом к длинному хвосту высококачественного контента на небольших сайтах».

Войдите в панель управления аудитом ИИ от Cloudflare. Сетевой бизнес полагает, что компании могут использовать предоставленную аналитику ботов для мониторинга сделок по доступу к контенту с фирмами, занимающимися ИИ, которые, по их словам, становятся все более распространенными, и обеспечивать соблюдение политик, а не доверять сканерам выполнение директив robots.txt. ®

Новости сегодня

Последние новости