В новую эпоху GenAI и LLM данные стали еще более ценным и важным ресурсом от которого зависит качество работы агентов.
Разница лишь в том, что раньше экспертиза и участие в процессе человека компенсировала недостаток качества данных, а ИИ, наоборот, каждую ошибку в данных может усилить и экстраполировать не задавая вопросов и не испытывая сомнений.
Раньше между сырой таблицей и бизнес-решением всегда стоял аналитик. Он знал, что в этой таблице выручка считается без возвратов, а в той - с возвратами. Помнил, что финансовый квартал кончается 28-го, а не 30-го. Умел сказать «это число выглядит странно, давайте перепроверим». Его экспертиза компенсировала кривизну данных.
LLM-агент таким фильтром не является и не будет. Он не сомневается, не спрашивает коллегу, не перепроверяет. Берёт первую правдоподобную таблицу с похожим названием, пишет правдоподобный SQL, возвращает уверенный ответ. С отличным форматированием и без единого вопроса.
В этом разборе Modern Data 101 хорошо показаны пять точек отказа на тривиальном вопросе «какой был рост выручки в прошлом квартале»: определение выручки, определение квартала, выбор источника среди трёх таблиц с одинаковым именем, актуальность данных, аудируемость ответа. Аналитик прошёл бы через эту же мину и заметил все пять. Агент проедет, не моргнув.
Автор статьи, конечно, ведёт к своему продукту - он сооснователь компании, делающей платформу для тех самых дата-продуктов, которые он рекомендует строить. Понятный интерес. Но диагноз эпохи от этого интереса не зависит: проблема enterprise AI - это не проблема моделей. Модели за прошлый год выросли драматически, и проблема не ушла. Слой компенсации между данными и решением исчез, а слой источника никто не починил. Раньше можно было держать данные в относительно сыром состоянии, потому что между ними и реальностью была человеческая экспертиза. Теперь так нельзя.
Хороший повод вернуться к скучным разговорам про data quality, контракты, lineage и семантический слой. Не потому что это модно, а потому что без этого автоматизация превращается в автоматизацию ошибок.
📰 AI in Manufacturing 2026: Solutions, Benefits, Challenges *(по метаданным)*
🔗 https://dzone.com/articles/ai-in-manufacturing-2026-solutions-benefits-challe
💡 Обзорная статья DZone по AI-сценариям в производстве на 2026 год.
Вывод: Публичные кейсы AI в производстве упираются в одно: сенсорные данные есть, контекст процесса нет, ROI считается на пилоте, на проде не подтверждается. Для CDO/CTO вопрос не "что внедрить", а как закрыть data foundation — без него любой AI-проект превращается в дорогой PoC.
📰 Почему Big Data стек небезопасен по своей природе
🔗 https://habr.com/ru/articles/1030842/
💡 Разбор доклада Sheila A. Berta (Black Hat 2021): основные уязвимости Big Data-инфраструктур живут не внутри компонентов, а на стыках. HDFS, Spark, ZooKeeper, ClickHouse — каждый строился под "доверенную среду", и атака превращается в навигацию: ZooKeeper отдаёт карту кластера, Spark/YARN дают исполнение кода, дальше — данные.
Вывод: Attack surface растёт быстрее архитектуры; безопасность отдельных сервисов не работает без единой модели доверия между слоями и регулярной чистки "цифрового мусора" (старые пайплайны, реплики, забытые доступы) — иначе в какой-то момент данных становится больше, чем контроля.
📰 Почему 70% BI-систем не окупаются: 5 фатальных ошибок
🔗 https://habr.com/ru/articles/1027986/
💡 Пять типичных провалов: ожидание "магической кнопки", культ красивых графиков, отсутствие data quality, слепое исполнение запросов вместо диалога с заказчиком, отсутствие версионирования дашбордов.
Вывод: BI — зеркало бизнеса, а не его хирург; окупаемость появляется только при чистых данных, простых дашбордах под конкретный бизнес-вопрос и регламенте на каждый отчёт (владелец, версии, аудит). Без этого получаешь 200 дашбордов "Отчёт_новый_финальный_v15" с расхождениями 20% по одному и тому же KPI.
📰 Управление данными в ERP-проектах на основе DAMA-DMBoK
🔗 https://habr.com/ru/articles/1028864/
💡 Обзор: 11 областей знаний DAMA-DMBoK (от моделирования и качества до руководства и метаданных) ложатся на пирамиду Питера Айкена и фазы ERP-внедрения. Управление данными — отдельный бизнес-процесс уровня закупок и финансов, не разовая активность.
Вывод: DMBoK — рабочая карта для ERP-проектов, но порядок применения важнее охвата: фундамент (моделирование, хранение, качество) → метаданные и архитектура → governance. Попытка начать с governance без чистого слоя 1–2 даёт красивые регламенты на грязных данных.
📰 A "meshy" approach to Data: Enabling 100+ teams to build Data Models (Monzo)
🔗 https://monzo.com/blog/a-meshy-approach-to-data
💡 Monzo перестроил dbt-warehouse (12 000+ моделей, 100+ команд) на трёх принципах: opinionated стандарты, формализованные interfaces между командами, автоматизация в CI вместо ручного gatekeeping. Слои landing → normalised → logical → presentation, межкомандный обмен — только через явно объявленные контракты. Первые результаты — ~40% снижение стоимости warehouse и ~25% ускорение поставки данных в ряде доменов.
Вывод: При масштабе data mesh централизованное владение не работает, но и анархия тоже — выход в том, чтобы перенести "правильность" в инструменты (model-gen из YAML, CI-проверки на unique key, freshness, инкрементальность). Это самый трезвый кейс по data mesh за последний год: не манифест, а архитектура.
📰 DuckLake 1.0: Data Lake Format with SQL Catalog Metadata
🔗 https://www.infoq.com/news/2026/05/ducklake-sql-catalog/
💡 DuckDB Labs выпустили production-ready формат лейкхауса, хранящий метаданные таблиц в SQL-базе, а не россыпью файлов в object storage (как Iceberg/Delta/Hudi). Главные фичи — data inlining (мелкие insert/update/delete пишутся прямо в каталог, без small files), сортировка, bucket-партиционирование, deletion vectors совместимые с Iceberg.
Вывод: Серьёзный challenger Iceberg для команд, которым критичны быстрые мелкие записи и простая операционка; компромисс — SQL-каталог это и сила (скорость), и новая точка отказа (ещё одна БД в архитектуре). Для on-prem и средних объёмов "лейкхаус из коробки" может оказаться дешевле и быстрее всей экосистемы вокруг Iceberg.
В 1988 году робототехник Ханс Моравец в книге Mind Children сформулировал наблюдение, которое сегодня объясняет рынок труда лучше многих экономистов.
Тезис простой: дать компьютеру уровень взрослого в IQ-тесте или в шашках - сравнительно легко. Дать ему навыки годовалого ребёнка в восприятии и движении - трудно или невозможно. То, что человек делает мгновенно - узнать лицо, удержать чашку, обойти препятствие - почти не программируется. То, что делает медленно и осознанно - математика, логика, шахматы - формализуется на ура.
Марвин Минский в Society of Mind (1986) добавил важную деталь: мы хуже всего осознаём то, что наш мозг делает лучше всего. Сенсомоторика - это глубоко оптимизированный легаси из сотен миллионов лет эволюции, его не видно изнутри. Абстрактное мышление - недавняя надстройка, она ощущается как труд и поэтому хорошо формализуется.
Самое интересное случилось не с парадоксом, а с его границей. К 2026 году распознавание лиц, речи и текста - закрыто. Шахматы и Go - даже не предмет разговора. LLM пишут код, юридические заключения и медицинские саммари. А лучший гуманоидный робот до сих пор проигрывает трёхлетке в сборке конструктора и складывании белья.
Граница сместилась внутри парадокса, но сам парадокс остался. И превратился в карту того, какие профессии дешевеют первыми.
Премия за абстрактный когнитивный труд - то, что веками считалось элитным - схлопывается. Аналитика, отчёты, базовое программирование, перевод, бухгалтерия, юридический ресёрч - это и есть «лёгкая часть» по Моравцу. Профессии, которые казались привилегированными, сидят ровно на той полке, которую машины разбирают в первую очередь.
Премия за физический и сенсорный труд в неструктурированной среде - сантехник, электрик, медсестра, повар - наоборот, держится. Это и есть «трудная часть»: ловкая манипуляция в шуме реального мира, без чёткой спецификации.
Арвинд Нараянан недавно подсветил честную деталь: парадокс Моравца - не закон природы, а описание того, над чем AI-сообщество решило работать. Мы придумали формализации, чтобы упростить мир, и построили компьютеры под эти формализации. То, что они сильны в наших же абстракциях, - не парадокс, а петля обратной связи.
Для рынка труда эта петля работает одинаково: проще автоматизировать то, что и так было записано в инструкциях.
Ирония в том, что предыдущие тридцать лет родители уговаривали детей идти в офис, потому что «руками работать тяжело». Машины с этим тезисом категорически не согласны.
Дочитал The Infinity Machine Себастиана Маллаби. ИМХО одна из лучших книг о современном ИИ, которую я держал в руках. Крайне рекомендую.
Книга не про технологии, а про людей, которые эту технологию создали - изнутри.
Про соперничество между научным и инженерным подходом. И о том, как LLM стали побочным явлением большой истории поиска AGI.
DeepMind верит в науку, публикации в Nature, нейронауку и обучение с подкреплением. OpenAI верит в инженерию, масштаб и скорость. Один говорит “не будь слишком умным, просто делай.” Другой говорит “мы не будем имитировать людей, мы будем их превосходить.” Оба оказались правы - и оба заплатили за свою правоту.
Тот продукт, который перевернул мир - ChatGPT, языковые модели, всё, чем мы пользуемся каждый день — это побочный эффект. Побочный продукт научного исследования, целью которого был общий искусственный интеллект. Хассабис годами строил системы, которые играют в Go, складывают белки и рассуждают через поиск. Сутскевер годами верил, что предсказание следующего слова приведёт к пониманию мира. Трансформер родился в Google как инструмент для перевода. GPT появился, потому что один исследователь прочитал статью и крикнул коллеге “бросай всё.”
Никто не планировал ChatGPT. Все планировали AGI. ChatGPT случился по дороге.