ИИ-браузеры обходят пэйволл. Как?
Хах, "агентские" ИИ-браузеры Atlas от OpenAI или Comet от Perplexity частенько обходят пэйволльные ограничения и суммаризирует платный закрытый контент. Вот тут отметили, что Altas и Comet смогли сделать выжимку из большой платной статьи MIT Tech Review, но есть и куча других примеров.
Любопытный момент: так могут делать именно ИИ-БРАУЗЕРЫ. А вот "обычные" ИИ-чатботы - нет. И вот почему:
Когда мы нажимаем на ссылку в интернете, браузер отправляет запрос к серверу сайта. А-ля "Дай мне инфу по этой ссылке". Сервер сайта говорит "окей, держи" и кидает браузеру штуку под названием HTML-файл. HTML - это, по сути, весь сайт, но в виде текста в определённой разметке. Дальше браузер берёт текст из HTML и делает из него Document Object Model (DOM). Это уже структура, дерево, по которому можно прыгать, открывать вкладки и т.д. Также браузер подтягивает Cascading Style Sheets (CSS) - грубо говоря, стили и визуал сайта, дезигн. Плюс, ещё всякие другие штуки, в которые мы залезать не будем. И в итоге нашему глазу открывается сайт - со всем контентом, с ссылками и вкладками, красивый, модный... Всё как мы привыкли.
Большинство платных сайтов используют "мягкий пейволл". Это когда сервер сайта скидывает браузеру всю инфу, а пейволльный ограничитель (вот этот бесячий оверлей поверх текста) вшивается где-то на уровне CSS. Кстати, именно поэтому мы частенько загружаем какой-нибудь Business Insider, на мгновение видим весь текст, а через секунду хренак - и вылезает проклятый пэйволл. Просто CSS слегка "опоздал".
Так вот. Когда вы просите ChatGPT "суммаризировать статью по ссылке", то он:
1. Либо достаёт её из своего датасета - если его на ней обучили, и она там есть.
2. Либо обращается к источнику через официальный API (тут через пейволл не пустят, само собой).
3. Либо просто запускает бота-скрейпера на сайт, тот сканирует заголовок и подзаголовок, а потом упирается в надпись "оформите подписку". И уходит ни с чем. Ну либо его вообще отстреливают антироботом.
Главное - ни в одном варианте чатбот не получает HTML-файл.
А агент ИИ-браузера - получает. Он мимикрирует под обычный браузер, будто это юзер Вася на кнопки тыкает. Он запрашивает весь HTML, получает его от сервера... и суммаризирует. 👍 Не страничку, которую Вася видит глазом, а HTML-файл сайта! А в HTML, как вы помните, пейволл-ограничения нет, оно вшито в другом месте.
Ни в коем случае не призываю вас этим пользоваться, даже не думайте. Если что - я предупреждал 🤔
Кстати, теперь понятно, почему Comet предлагает новым пользователям бесплатный просмотр пейволльных статей. А ловко они это придумали, я даже в начале не понял.
Дизраптор
❤
92
😁
29
👍
15
🔥
14
🍾
2
👀
2
🤔
1