Anthropic выложил разбор того, как они делали своего агента - исследователя для Claude. Не то чтобы я не сталкивался раньше с проблемами оркестрации и оценки сложных агентов - но тут столько интересных деталей, что нельзя не написать.
Кратко, что важно:
- В системе ведущий агент анализирует запрос и создает подагентов, которые параллельно ищут информацию каждый по своему направлению. Это совсем другая логика работы с задачами, где заранее непонятно, какие шаги потребуются.
- Внутренние тесты: мультиагентная система на 90,2% эффективнее одно-агентной при сложных поисковых запросах.
- Расход токенов растет лавинообразно: мультиагентная архитектура требует в 15 раз больше токенов, чем обычный чат. Поэтому использовать её есть смысл только для действительно ценных и сложных задач.
- Архитектура построена по схеме “оркестратор-воркер”: ведущий планирует и делит задачи, подагенты ищут и фильтруют, дальше всё собирается и проходит через агент-цитировщик.
- В промптах важно: симулировать работу агентов для поиска багов, чётко описывать задачи подагентам, масштабировать ресурсы под сложность запроса, прорабатывать интерфейсы инструментов, запускать самообучение агентов, начинать с широких, потом сужать фокус, использовать “видимое мышление” и планирование, а не только инструкции.
- Параллелизация ускоряет исследования в разы: ввод нескольких подагентов и параллельных инструментов сокращает время до 90%.
- Оценка результатов: маленькие ручные выборки для быстрой обратной связи, LLM-судья для проверки полноты и корректности, плюс живое тестирование для ловли неочевидных проблем.
- В продакшене - отдельная боль: ошибки могут “размножаться”, нужно хранить состояние, поддерживать резюмирование после сбоев, делать трассировку и релизы выкатывать по “радуге”, чтобы не грохнуть всё сразу.
- Синхронность упрощает, но мешает скорости: переход к асинхронности обещает прибавку к производительности, но увеличит сложность координации и обработки ошибок.
Тоже пытаюсь строить такие системы. Понимаю что они действительно помогают находить неочевидные инсайты и экономить кучу времени - особенно если задача не про “ответить на факт”, а про навигацию в сложном инфопространстве.
Сергей Булаев AI 🤖 - об AI и не только