Дайджест статей
📰 Как аналитики данных используют ИИ для решения своих задач
🔗 https://habr.com/ru/companies/yandex_praktikum/articles/1004550/
💡 Вывод: ИИ меняет роль аналитика не в сторону «нажми кнопку — получи инсайт», а в сторону переквалификации: нужно уметь формулировать задачи для агентов и верифицировать их результат. Ключевая компетенция — не SQL, а способность задать правильный вопрос. (по метаданным)
📰 asapBI: архитектура ETL процессов – Trino, Spark, Airflow и прочий зоопарк
🔗 https://habr.com/ru/articles/1011510/
💡 Вывод: Платформа asapBI — попытка решить вечную проблему ETL: 90% трансформаций тривиальны (маппинг полей), но их всё равно пишут руками на SQL. Подход «графический интерфейс для простого, код для сложного» с единой точкой мониторинга и автогенерацией дагов Airflow. Критично: система не создаёт vendor lock — все артефакты работают без неё. Правильный вопрос на фоне прогресса ИИ: а нужны ли вообще моделированные DWH, если можно дать ИИ доступ к Lakehouse напрямую?
📰 Манипулирование данными или как не дать графикам себя обмануть
🔗 https://habr.com/ru/articles/1012236/
💡 Вывод: Каталог из 8 типичных приёмов визуальных манипуляций — от обрезанных осей до выборочного периода. Полезно как чеклист при ревью любого дашборда или отчёта. Ключевой навык для CDO-команды: не только строить визуализации, но и уметь защитить их от манипулятивного использования другими.
📰 Три задачи требований к данным
🔗 https://habr.com/ru/articles/1012406/
💡 Вывод: Автор выделяет три типа требований к данным: изменения в таблицах + маппинг, миграции существующих данных, enum’ы в коде. Главный инсайт: без документированной базы данных в вики (концептуальная схема + бизнес-логика на каждую таблицу) требования неизбежно превращаются в дублирование и устаревание. Физическая модель — не замена концептуальному описанию.
📰 Reference Data Management по-русски: что мы называем НСИ и почему это не всегда RDM
🔗 https://habr.com/ru/companies/datasapience/articles/1012404/
💡 Вывод: В российской практике «НСИ» стало зонтиком для RDM + MDM + DQ, хотя международный стандарт (DAMA DMBOK) чётко разделяет эти дисциплины. Ожидание «одна система на всё» — классическая ловушка: чем больше функций, тем выше риск получить продукт, который умеет всё, но плохо. При выборе инструмента важно разделить задачи: ведение справочников ≠ дедубликация ≠ гармонизация форматов.
📰 Data Mesh vs Data Fabric: The Ultimate 2025 Comparison for Enterprise Architects
🔗 https://medium.com/analysts-corner/data-mesh-vs-data-fabric-key-differences-architecture-future-trends-2025-c69287b1ef07
💡 Вывод: Сравнение двух архитектурных подходов к масштабированию работы с данными. Data Mesh — про организационную децентрализацию (domain ownership), Data Fabric — про технологическую унификацию (metadata-driven automation). (по метаданным)
📰 How did Meta modernize their lakehouse?
🔗 https://blog.dataengineerthings.org/how-did-meta-modernize-their-lakehouse-f2fec45af2f4
💡 Вывод: Meta переархитектурила свой Lakehouse, стартовавший с Hive в 2010 году. Статья фокусируется не на компонентах, а на организационных проблемах, которые возникают при масштабировании data-инфраструктуры на 20+ лет. (за пейволом, по метаданным)
📰 Hands-on with an MCP for data quality
🔗 https://medium.com/@mikldd/hands-on-with-an-mcp-for-data-quality-6fe4b9ed52a8
💡 Вывод: MCP (Model Context Protocol) в связке с метаданными о пайплайне (lineage, владельцы, мониторы) даёт AI-агенту возможность: оценить downstream-impact изменения колонки с взвешенным risk assessment, провести root cause analysis инцидента по шагам (lineage → upstream checks → code changes), найти таблицы с недостаточным покрытием тестами и сгенерировать еженедельный DQ-отчёт. Ключевой инсайт: MCP полезен ровно настолько, насколько богаты ваши метаданные.
📰 The Three-Body Problem of Data: Why Analytics, Decisions, & Ops Never Align
🔗 https://medium.com/@community_md101/the-three-body-problem-of-data-why-analytics-decisions-ops-never-align-5b428763b33c