Еще в бытийность свою исследователем, я довольно активно пользовался sci-hub. Sci-hub это такая платформа, на которй Саша Элбакян раздает доступ к научному знания (зачастую спрятанному за paywall).
Недавно, она сделал из этой платформы ИИ-агента и это очень круто! Это как deep research - но только по научным статьям (к которым у других агентов доступа в основном нет). Оплата за токены - платить криптой. Мне 2$ хватило на довольно глубокий анализ Лунной миссии Appolo 17.
Пока все нравится, не хватает только api (но Codex вполне себе справился пользоваться сайтом через Chrome).
Сегодня был на HSBC Office of the CFO & Fintech Innovation Day.
Вот о чем думают CFO крупнейших компаний: можно ли безопасно пустить AI в настоящий workflow, где есть деньги, контроль, комплаенс, ответственность и риск публичного факапа.
A16Z почти прямым текстом говорят, что finance-команды в AI-native компаниях теперь гораздо меньше и появляются позже. Раньше первый finance hire часто нанимали на $10-20M ARR. Сейчас некоторые компании тянут намного дольше, потому что один сильный оператор с AI-инструментами может закрывать больше, чем раньше закрывала маленькая команда.
Но это не история про «людей заменят агенты».
Скорее наоборот: люди остаются, но меняется их роль. Хороший CFO становится ближе к продукту и операциям. Он не просто выбирает SaaS и делегирует внедрение, а сам тестирует инструменты, собирает workflows, смотрит на cost controls, спрашивает «зачем нам вообще Salesforce/NetSuite/очередная система, если можно собрать процесс иначе?»
AI spend супер на повестке дня. Tokens, model usage, retries, agent runs - это уже не инженерная мелочь, а серьезная строка COGS и governance surface.
Кажется, что в regulated finance «probably correct» не работает.
Сейчас спрос на слой контролируемого исполнения:
— какие данные использовались
— какая политика применялась
— кто смотрел рекомендацию
— что AI предложил
— что человек исправил
— что ушло в систему
— можно ли потом доказать, почему решение было принято
Первая волна AI в enterprise была про demos.
Вторая будет про trust.
Третья — про workflows, которые постепенно получают автономию, но только после того, как заслужили ее.
Вот такая вот, сейчас ситуация в AI-native finance.
В Нью-Йорке проходит абсолютно безумная Tech Week, в рамках которой Hyperagents (версия клешни с человеческим UI от Airtable) устроили хакатон. Кто за час навайбкодит самый убедительный outreach. В качестве цели каждому был выбран рандомный другой фаундер в комнате. Моя идея победила!
Я взял наш с Антоном https://funnel.fyi и прогнал через нее сайт, Funnel мгновенно нашел что можно поправить на лендинге, а Hyperagents собрали симпатично выглядящий видос и презентацию.
К чести Hyperagents - пока я расспрашивал этого фаундера что у него болит, он честно и автономно трудился.
Заставил AI бесконечно улучшать свою работу - и запретил ему верить самому себе на слово.
Так появился новый скилл для Claude - auto-improve.
Auto-improve позволяет улучшить любой артифакт, который совместим с git:
• AI предлагает маленькое улучшение.
• Другой AI проверяет результат по понятным критериям.
• Если стало лучше - изменение сохраняется.
• Если нет - автоматически откатывается.
Благодаря git каждая версия сохранена, каждую можно сравнить, каждую можно вернуть. И так по кругу, пока результат перестает улучшаться.
Auto-improve можно применять почти ко всему:
• тексты
• письма
• лендинги
• README
• инструкции
• промпты
• код
• договоры
Вообще ко всему, где можно описать, что значит «хорошо».
Самое интересное: критерии тоже можно улучшать.
Например, можно взять книгу, статью, гайделайн или внутренний стандарт компании.
Превратить это в список требований.
И дальше AI будет улучшать работу уже не «на вкус», а по этим требованиям.
Технически это похоже на GAN для текста: один агент генерирует, другой проверяет. Или на маленький локальный RLAIF-loop: улучшение → оценка → принятие или откат.
Вчера, Anthropic выпустил режим, в котором Claude сам разбивает большую задачу на подзадачи, запускает parallel subagents, проверяет результаты и собирает финальный ответ. В announcement они приводят примеры вроде bug hunt по всей кодовой базе, большие миграции и тп.
Мое первое ощущение: /Workflows одна из первых «agent swarm» фичей, которая выглядит как реальный рабочий инструмент.
Ты даешь задачу - Claude уходит на 30–50 минут, пишет код, правит ошибки, проверяет себя и продолжает.
На мой взгляд, самая вишенка не в том что много параллельных агентов жрут токены, а в цикле generator → validator. Одна часть системы делает изменения: код, refactor, tests. Другая пытается это проверить: смотрит diff, ищет ошибки, думает про edge cases.
Это немного похоже на GAN, только для engineering workflow. Сгенерировал → проверил → нашел проблему → исправил.
Тесты пока не всегда понятно насколько хорошие, но свои ошибки оно уже реально ловит.
Чего мне не хватает - прозрачного этапа планирования. Сейчас ощущение такое: «вот задача, иди делай».
А идеальный flow был бы:
1) сначала Claude предлагает план;
2) ты его правишь;
3) добавляешь constraints, success criteria, важные файлы и проверки;
4) и только потом запускаешь workflow.
Мой вывод: направление очень сильное!
Блог-пост
Поделитесь с коллегами, если тоже следите за тем, как coding agents становятся рабочим процессом.
После релиза всё может выглядеть нормально: сайт открывается, серверы живы, логи чистые. Но заявки почему-то не приходят.
Причина может быть не в продукте, а в мелком недочете по пути:
- форма молча падает,
- checkout/signup застрял,
- CTA ведёт не туда,
- оффер непонятен,
- и тп
Вы можете продолжать лить трафик и думать, что “продукт не зашёл”, хотя на самом деле сломался один шаг в воронке.
Для решения этой проблемы мы с другом сделали Funnel.fyi: кидаешь URL - агент проходит сайт как пользователь, находит где теряются люди, показывает evidence и пишет fix prompt для Cursor / Claude / Codex.
Попробуйте 👇:
https://www.funnel.fyi
В комменты кидайте, что сканировали и где агент был прав / тупил - это поможет нам докрутить продукт.