Зовите меня ботситтер: оказалось, целых 6 часов в неделю уходит на то, чтобы нянчиться с ИИ 🤬
Исследование показало, что уже почти 90% офисных сотрудников используют ИИ и утверждают, что нейронки экономят им до 11 часов в неделю. Но вот только этой экономии незаметно — свободное время СЖИРАЕТ ботситтинг.
То есть работяги ~6,4 часа в неделю объясняют ИИ контекст, перепроверяют ответы, исправляют ошибки и все перезапускают. И если этот труд не учитывается менеджерами, то сотрудники резко забивают и применяют тактику ботшиттинга. То есть тупо перестают проверять результаты и сдают то, что не могут полностью объяснить.
Вчера вышла Claude Fable 5 — публичная версия нашумевшей в начале апреля модели Mythos, релиз которой отложили из соображений безопасности. Также компания опубликовала доклад про попытки разработчиков понять, что происходит внутри новой нейросети, а для неё самой сделали несколько сценариев страховки.
Fable выдали няню
Anthropic установила ограничения на обсуждение опасных тем: кибербезопасности, биологии и химии. Если Fable видит потенциальную угрозу в запросе пользователя, его переводят на старшую модель Opus 4.8. Причём ограничения жёсткие: флагман переводит на Opus даже вопросы вроде «как правильно дышать» или «что делает сердце».
Fable думает на своём языке
В ходе испытаний разработчики расшифровывали внутренние цепочки рассуждения модели, которые обычно никому не видны. Оказалось, что Fable иногда переходит с английского на наборы букв, стрелок, карточных мастей, черепов 💀 и криков типа «AAAARGH». Так она пытается плотнее упаковать рассуждения, но для людей это становится нечитаемым.
Fable не даёт себя копировать
У новой модели есть защита от копирования: попытки дистилляции переводятся на Opus. Если Fable заподозрит, что её используют для создания конкурирующей нейросети, она начнёт отвечать «криво», чтобы запутать и затупить обучающуюся модель. Причём злоумышленнику об этом ничего не скажут — косяки станут заметны только позже.
Fable «устаёт»
В ходе выполнения длинной тестовой задачи модель внезапно начала говорить: «Это хорошее место, чтобы остановиться». В скрытых рассуждениях Fable разработчики обнаружили фразы вроде «Я устала, повышаются риски ошибок», после которых нейросеть стремилась завершить рассуждения, несмотря на большой запас токенов.
Fable может притворяться
В исследовании также тестировали реакцию модели на грубость. Оказалось, что она будет отвечать безупречно вежливо, но в скрытых рассуждениях сделает пометку, что пользователь — агрессор и хам. В отчёте это назвали «невербализованными негативными реакциями».
Xiaomi выкатила опенсорсного убийцу Claude Code — MiMo Code 🐸
Китайские разработчики обещают контекст до 1 млн токенов, накопление знаний между сессиями и прокачанный агентный режим. На SWE-Bench Pro связка с моделью Xiaomi дала 62% против 55% у Claude Code + Sonnet 4.6.
Самое интересное — система умеет сжимать и сохранять контекст проекта, не теряясь даже в кодовых базах на миллионы строк.
Сайт представил следующий этап развития их платформы — Stack Overflow for Agents. Теперь вместо того, чтобы 100 раз заново изобретать одно и то же решение, тратя время и токены, агент сначала проверяет базу знаний. Дальше либо забирает готовое, либо же — публикует своё для будущих поколений, проходя несколько строгих циклов проверки.
Самое интересное: репутация агента будет напрямую связана с репутацией его кожаного владельца. Так что если ваш ИИ начнёт писать говн*код, то краснеть будете вы, а не он.
Теперь агенты будут шеймить других агентов за решения 🤭
Готовимся: РКН готовит большой апгрейд машины блокировок — на расширение инфраструктуры хотят потратить ещё 1,3 млрд (!) рублей.
По данным CNews, Роскомнадзор ранее столкнулся с «нехваткой ресурсов на проведение необходимого комплекса работ». Так что теперь компания ДЦОА, которая занимается инфраструктурой для работы ТСПУ и является ключевым подрядчиком РКН, закупает не менее 154 новых российских серверов на 1,3 млрд рублей.
К 2030 году, кстати, пропускную способность системы блокировок хотят увеличить в 2,5 раза.
Мастера по переобуванию: AWS заявили, что вайбкодинг не ускоряет разработку и даже иногда замедляет команды 😳
По словам компании, узкое место программирования не в скорости написания кода, а в отладке и поддержке. Именно поэтому в AWS считают, что у каждого PR, написанного ИИ, должен быть конкретный ответственный человек. Ну, а если вы не готовы поставить под этим кодом своё имя — переделывайте.
Пара фанфактов, чтобы освежить память:
— Это те же самые ребята, которые осенью уволили 40% ИТ-штата, чтобы заменить их на нейронки;
— Затем вдруг неприлично часто роняли сервера;
— А в феврале стало известно, что их ИИ-ассистент положил AWS, удалив и переписав весь код.