Созвон про проблемы адаптации технологий конфиденциальных вычислений и PET
Яндекс Телемост->
Технологии конфиденциальных вычислений (и в более широком смысле PET, Privacy-Enhancing Technologies) и потенциальные бизнес-кейсы их применения в контексте задач данных и аналитики мы обсуждаем уже давно.
В этот раз решили поговорить подробнее о вызовах на пути их массового внедрения. Ключевые барьеры сейчас лежат не в технологической, а в организационной и методологической плоскости.
Коллеги из Ассоциации больших данных поделятся своим видением проблем и подходами к их решению:
• Как считать риски при использовании PET?
• Кто берёт эти риски на себя: бизнес, регулятор, оператор данных, вендор технологии?
• Как выглядит пайплайн митигации рисков и что нужно, чтобы ввести его в правовое поле?
Далее проведём широкое обсуждение указанных и смежных вопросов с участием других экспертов данной области.
Сохраняйте ссылку в свои календари и пересылайте коллегам, которым релевантно!
📰 Согласованные факты и измерения по Кимбаллу
🔗 https://habr.com/ru/articles/1052842/
💡 Вся методология сводится к одному: одна выручка - одно имя, один клиент - один id во всех витринах. Не про SQL, про дисциплину именования. Скучно ровно до момента, когда три отдела приносят три разные цифры выручки.
📰 LLM в компаниях: единое семантическое ядро
🔗 https://habr.com/ru/articles/1051768/
💡 Та же проблема Кимбалла, но для LLM: без зафиксированного ядра терминов каждый чат достраивает свою версию смысла, и модель уверенно угадывает. Поправка: автор в финале продаёт свою книгу.
AI поверх данных: где работает, где ломается
📰 Рекомендалка для игр: почему простое бьёт сложное
🔗 https://habr.com/ru/companies/alfa/articles/1048308/
💡 Лучшая в пачке. Альфа убила two-tower, multiclass, bandits - все добавляли сложность раньше пользы. Победила отдельная бинарная модель на каждое задание. Чистый идиотский индекс.
📰 Внешняя память для LLM: RAG
🔗 https://habr.com/ru/companies/magnus-tech/articles/1046702/
💡 Ценность в финале: RAG - инструмент, не панацея. JSON - промптинг, тон - файнтюнинг, гигабайты со ссылкой на источник - RAG. Не строй векторную базу там, где хватит инструкции.
📰 AI-агент в BI-системе
🔗 https://habr.com/ru/companies/dalee_group/articles/1051832/
💡 Главное решение - осознанно не дать модели генерить SQL и не доверять ей RLS. Семантический слой несёт 90%, модель - обёртка. Поправка: продают свой продукт Subquery.
Архитектура потоков и хранилищ
📰 От ETL к CDC: PostgreSQL, Kafka, ClickHouse
🔗 https://habr.com/ru/articles/1051760/
💡 Честно показывают тупики. Узкое место было не в доставке, а в строчном приёмнике. Вывод: Debezium читает WAL не трогая прод, конечная точка - ClickHouse, не второй Postgres.
📰 Postgres Pro AXE: OLTP плюс аналитика
🔗 https://habr.com/ru/companies/postgrespro/articles/1049148/
💡 HTAP поверх Postgres: векторный движок и Parquet, аналитика на реплике без отдельного DWH. Идея здравая, но «до 30x быстрее» — вендорский замер. Брать как гипотезу для пилота.
📰 Centralized Alerting Framework (Snowflake)
🔗 https://medium.com/helpshift-engineering/building-a-centralized-alerting-framework-for-data-quality-monitoring-and-incident-management-2f90d93a65b5
💡 Переиспользуемо и без Snowflake: детект, нотификация, эскалация - три слабо связанных слоя. Контекстный алерт в разы полезнее «Check Failed». MTTR падает от контекста, не от числа уведомлений.
📰 Переделали BI в систему раннего предупреждения
🔗 https://habr.com/ru/articles/1050750/
💡 Большинство метрик запаздывающие: к отчёту Бобик уже сдох. Ценность в опережающих сигналах. Дашборд начинается с процесса, не с графика, и норму задаёт владелец процесса, а не аналитик.
Рынок СУБД
📰 Исследование ЛАНИТ по рынку СУБД
🔗 https://habr.com/ru/companies/diasoft_company/articles/1051956/
💡 Тезис верный: рейтинг по выручке оторвался от технологий. Но это Диасофт хвалит исследование, высоко оценившее их же продукт. Аккуратно читаем 🙂
кто определит что пыталась сделать "некоторая" компания с помощью всех этих специалистов?
Компания позвала математиков — лучших, экспертов по гидродинамике, фазовым переходам, физике высокого давления. Сайед называет их «intelligent designers» — это те, к кому мы инстинктивно идём за решением: возьми правильных людей с правильной подготовкой, пусть выведут оптимальный план. Они копали глубже в физику, выводили сложные уравнения, проводили семинары. Выдали новый дизайн. Он не сработал. Так же забивался, так же давал неравномерное зерно.
В отчаянии компания обратилась к биологам. Те ничего не понимали в гидродинамике — фазовый переход не узнали бы, даже если бы он их укусил. Но у них было нечто ценнее: глубокое понимание связи провала и успеха. Они взяли 10 копий изделия, внесли в каждую мелкие случайные изменения (одна длиннее, другая короче, у одной отверстие больше, у другой — бороздки внутри) и протестировали на провал. Одна оказалась на 1–2% лучше оригинала. Взяли победителя, сделали 10 слегка изменённых копий, повторили. И снова. И снова.
Прогресс пришёл не через красиво построенный мастер-план (плана не было вообще) — а через быстрое взаимодействие с миром. Итоговое изделение родилось как следствие тестирования и отбраковки 449 провалов. Вот парадокс в названии: люди, понимавшие физику, проиграли людям, понимавшим провал.