Телеграм канал 'NoML Digest'

NoML Digest


277 подписчиков
256 просмотров на пост

NoML (Not Only ML) - Сообщество профессионалов DS/ML решающих прикладные задачи бизнеса

Детальная рекламная статистика будет доступна после прохождения простой процедуры регистрации


Что это дает?
  • Детальная аналитика 250'320 каналов
  • Доступ к 109'919'470 рекламных постов
  • Поиск по 433'036'129 постам
  • Отдача с каждой купленной рекламы
  • Графики динамики изменения показателей канала
  • Где и как размещался канал
  • Детальная статистика по подпискам и отпискам
Telemetr.me

Telemetr.me Подписаться

Аналитика телеграм-каналов - обновления инструмента, новости рынка.

Найдено 12 постов

В этот четверг продолжим обсуждать тему управления данными, но в более узком смысле, а именно, поговорим про платформы данных непосредственно для ML/DS и такую тему как Feature Store.

В повестке обсуждения следующие вопросы
❓ Feature Store определяют как интерфейс между моделями и данными. Почему бурный рост интереса к теме наблюдается именно сейчас?
❓ Почему Feature Store - необходимая часть современной ML/MLOps платформы, и как технологии и подходы Feature Store позволяют ускорить продуктивизацию ML/AI решений?
❓ Каталогизация переменных, управление производными переменными, консистентность данных разработки и применения, версионирование датасетов и переменных, операционализация переменных… Какие еще задачи должен решать идеальный Feature Store?
❓ Как выглядит типовая архитектура Feature Store и его место в ML & Data платформе?
❓ Снова про качество данных, как организовать мониторинг переменных и пайплайнов данных для ML?
❓ Рынок решений Feature Store 2021: какие есть инструменты от вендоров и с открытым исходным кодом?

Участники дискуссии:
Команда GlowByte Advanced Analytics
😎 Сергей Абрамов
😎 Михаил Зайцев
😎 Павел Снурницын
И все, кто захочет присоединиться
🧐🧐🧐

Встречаемся 29 июля в 21:00 МСК в голосовом чате сообщества.
В прошлый четверг в экспертной комнате упоминали про Data Mesh в Леруа Мерлен. Небольшая подборка по этой теме.

Про опыт построения Data платформы и путь к Data Mesh - интервью с CDO Леруа Мерлен Дмитрием Шостко:
📌 Data Mesh в «Леруа Мерлен»: DIY в работе с данными

Доклад Дмитрия Шостко на Data Fest 2020:
📺 Как построить Data Mesh в организации

Про архитектурный стек платформы данных в Леруа Мерлен:
1️⃣ Платформа данных в Леруа Мерлен – 2 года, сотни источников и более 2.000 пользователей
2️⃣ Платформа данных в Леруа Мерлен. Part 2. Обновления 2021 года: Flink и Superset



P.S.: А еще про путь к Data Mesh в Dodo Pizza:
🍕 Data Mesh: как работать с данными без монолита
Голосовое сообщение, 6011 сек.
И еще немного про Data Mesh

Немного мыслей тут родилось про Data Mesh. Тема популярная, все начинают вокруг говорить о том, что они применяют этот подход, реализуют проекты и тд. Тем не менее все время не могу уловить какую “суть” этого подхода, какую то формулировку, которая в простой форме объяснит основное отличие от предыдущих концепций, типа Data Lake и тп. Читаешь статьи, вроде много букв везде, а вот понимание не складывается. И вот проштудировал еще раз основной источник на сайте Мартина Фаулера (см ниже) и вот родилось такое понимание:

Data Mesh в первую очередь это организационная концепция, а не техническая. Она говорит о том, что мы децентрализуем ОТВЕТСТВЕННОСТЬ за данные между разными командами, обеспечивая их нужным (даже централизованным) техническим инструментарием, для того, что бы они эту ответственность могли осуществлять.

Вот в чем суть - основные проблемы во всех больших проектах DHW/DL это больше организационные проблемы взаимодействия разных команд, а не техническое проблемы обработки данных, и Data Mesh предлагает нам концепцию, по которой каждая команда, которая производит данные, должна быть ответственной за переиспользование этих данных другими командами, что бы катализировать использования данных в организации.

Реализации этой концепции требует:
⁃ В первую очередь организации изменения - изменения культуры, формирования новых KPI, поддержки со стороны руководства и тд.
⁃ Во вторую очередь процессные изменения - процессы Data Goverence, обеспечивающие “правила игры” общие для всех команд
⁃ В третью очередь технические изменения - нужно эти команды обеспечить технической возможностью выполнять новую функцию (хранить данные обрабатывать), а так же поддержать технически функции типа Data Discovery и прочие из пункта 2. И это очень важно сделать при реализации данного подхода.

И еще раз подчеркну, что технические решения из третьего пункта могут быть вполне себе централизованными Data Lake, если это экономически и технически обосновано.

Вот такие у меня сложились персональные выводы на текущий момент.

https://martinfowler.com/articles/data-monolith-to-mesh.html
Web-страница:
How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh
There are problems with the centralized data lake. A future data mesh needs domains, self-service platforms, and product thinking.
Подборка статей из блога GlowByte от команд практики Data Management

📌 Про кейс DWH в Газпромбанке: Как построить современное аналитическое хранилище данных на базе Cloudera Hadoop
📌 Про гибкие хранилища, а именно, про подходы Data Vault и Anchor Model: Обзор гибких методологий проектирования DWH
📌 Про стриминг на Kafka: Почему стриминг на KSQL и Kafka Streams - это непросто
небольшая обхорная статья по теме Federated Learning, не менее популярная сейчас тема чем Data Mesh

https://towardsdatascience.com/federated-learning-a-new-ai-business-model-ec6b4141b1bf
Web-страница:
Federated Learning: A New AI Business Model
Federated learning is not only a promising technology but also a possible brand new AI business model. Indeed, as a consultant, I have…
Data Warehouse, Data Lake, Data Vault, Data Lakehouse, Data Fabric, Data Mesh, Data Lab, Data Hub, DataOps, Data Governance ... ну и конечно же Big Data=)

В следующий четверг, 22 июля в 21:00 МСК совместно с авторами канала Клуб CDO будем разбираться, что означают все эти слова, и как заложить крепкий фундамент для успешных ML/DS проектов в виде современной Data Management платформы. В повестке встречи следующее:
📌 Эволюция подходов в технологиях построения Data Management систем и методологиях Data Governance.
📌 Плюсы и минус централизации и децентрализации управления корпоративными данными, как обычно будем искать истину где-то посередине)
📌 Технологические аспекты и грани децентрализованной обработки и хранения данных, вспомним про Data Federation и обсудим новомодный Data Fabric.
📌 Как Ops добрался до данных и аналитики: процессы, роли и инструменты DataOps.
📌 Без качественных данных качественную ML модель не построить. Как решается задачи Data Quality с точки зрения современных технологий и методологий.

Наши эксперты-спикеры:
😎 Денис Афанасьев, Head of TechPlatforms в SberDevices, основатель CleverDATA
😎 Дмитрий Инокентьев, Архитектор Data платформ, GlowByte Consulting
😎 Сергей Абрамов, Head of Feature&ML Engineering, GlowByte Advanced Analytics
😎 Дмитрий Бутаков, Архитектор Data&ML платформ GlowByte Advanced Analytics

Встречаемся как всегда в голосовом чате нашего сообщества.
Голосовое сообщение, 3288 сек.
Продублирую статью от Ирины в канал
Совмещение R и Python: зачем, когда и как?
Web-страница:
Совмещение R и Python: зачем, когда и как?
Наверное, многие из тех, кто занимается анализом данных, когда-нибудь думали о том, возможно ли использовать в работе одновременно R и Python. И если да, то за...
В этот четверг, 15 июля, в 21:00 МСК нас ждет эпичная битва за Царство ML/DS: R vs. Python💥

В повестке встречи:
🔥 Стоит ли изучать R для DS/ML в 2021?
🔥 Известен такой тезис: “Если ML и AI то Python, если статистика и анализ данных то R”. Попробуем разобраться поподробнее что лучше в каких задачах.
🔥 Действительно ли вопрос стоит как R vs. Python? Или оптимальным вариантом является построение гетерогенной среды, в которой для решения одной задачи используется и Python, и R и даже Julia?
🔥 Какие организационные и технические вызовы возникают в связи с предыдущим пунктом? Как достичь воспроизводимости результатов внутри команды DS и выстроить унифицированные MLOps процессы совместно с IT в условиях такой гетерогенной среды моделирования?

Учатсники дискуссии:
🥷Андрей Макеев, бизнес-архитектор по аналитике, Комус;
🥷Максим Гончаров, руководитель направления прогнозной и оптимизационной аналитики, GlowByte Advanced Analytics;
🥷🥷🥷А также все желающие

Встречаемся, как обычно, здесь в голосовом чате.
Изображение
Голосовое сообщение, 4080 сек.

Найдено 12 постов