Телеграм канал 'Клуб CDO'

Клуб CDO


2'655 подписчиков
509 просмотров на пост

Сообщество профессионалов в области работы с данными и искуственным интеллектом

Детальная рекламная статистика будет доступна после прохождения простой процедуры регистрации


Что это дает?
  • Детальная аналитика 5'683'911 каналов
  • Доступ к 1'533'798'153 рекламных постов
  • Поиск по 5'986'200'081 постам
  • Отдача с каждой купленной рекламы
  • Графики динамики изменения показателей канала
  • Где и как размещался канал
  • Детальная статистика по подпискам и отпискам
Telemetr.me

Telemetr.me Подписаться

Аналитика телеграм-каналов - обновления инструмента, новости рынка.

Найдено 1651 пост

Про цели OpenAI и GAI:

Для реального прорыва в области ИИ модели должны иметь возможность быть агентами. Для достижения человеческого уровня необходимо понимание социально-экономических структур мира и применения этих знаний в неопределённых ситуациях с множеством вариантных деталей. Такая прикладная способность к обобщению выходит за рамки того, что можно описать в любом тексте. Нужно понимание негласных знаний (ноу-хау), которому можно научиться только на практике и непосредственно у тех, кто уже знает, как это делается. Ни один ИИ не может быть полезным агентом и достигать целей в мире без способности приобретать ноу-хау/тактильные знания, каким бы великим он ни был в чистом рассуждении.
Чтобы приобрести ноу-хау, люди “делают вещи” - живут и получают опыт. Поэтому ИИ должен стать полноценным “агентом” - должен иметь возможность планировать и выполнять действия и использовать это для обучения.

Но надо отметить, что основные исследователи в OpenAI продолжают верить в то, что TPA сможет обладать эмерджентными свойствами для дедукции “негласных знаний” из текста.

Когда выйдет модель:

⁃ С учетом всех слухов и намеков автор предполагает очень 24 года (октябрь-ноябрь).
⁃ При этом автор считает, что сама модель уже готова, и обучение было завершено в ноябре прошлого года, и сейчас идет “упаковка, тюнинг и написание обвязки”.

https://www.thealgorithmicbridge.com/p/gpt-5-everything-you-need-to-know

👍 5
❤ 1

Немного про ChatGTP-5

Если вы интересуетесь перспективами ChatGPT, но у вас нет времени изучать всё, что появляется в информационном пространстве по поводу грядущей версии ChatGPT-5 - вот статья для вас на выходные, где автор собрал и проанализировал всё, что так или иначе касается перспектив и информации по этой версии LLM.

Статья интересная, но супердлинная - её объем составляет 14 000 слов. Поэтому я сделал анализ анализа и ниже привожу краткое изложение некоторых моментов, которые показались интересными мне. В комментариях в посту я размещу её текст с моими пометками - потому что сама статья закрыта за paywall - не считайте это нарушением авторских прав, автору большой респект, работа проделана колоссальная, поэтому давайте считать, что делюсь только с узкой аудиторией этого канала.

Самые важные выводы из материала:

⁃ Разработка лучших в своем классе больших языковых моделей (LLM) уровня ChatGPT 4 - решенная на данный момент индустрией проблема.
⁃ ChatGPT-5 скорее будет коллаборацией GPT и Q* архитектур, нежели их слиянием, плюс мощный MoE.
⁃ Не ожидается, что ChatGPT-5 будет иметь возможности агента, но тем не менее будет иметь мощные возможности для рассуждения.

Об общем положении OpenAI сейчас:

⁃ Они находятся под сильным давлением, и на рынке очень высокие ожидания от ChatGPT-5.
⁃ OpenAI в своё время обогнала индустрию минимум на 1-2 года, но несмотря на год преимущества в работе над моделью по сравнению с конкурентами, простыми методами увеличения размера и объёма данных сейчас уже не обойтись, нужны новые архитектуры сети. Такие архитектуры уже сейчас появляются в конкурирующих моделях, в частности Q*, перспективы которой лежат не столько в области решения математических задач, что является демонстрацией от Meta, сколько в способности имитировать рассуждения и делать логические выводы.
⁃ Также надо отметить, что скорость, с которой конкуренты получают модели, близкие к ChatGPT-4, все возрастает и возрастает.
⁃ При этом ещё важно понимать, что OpenAI - коммерческая компания, и от неё ожидают одновременно и качественную новую модель и экономический успех - что сложно сделать просто увеличивая объём модели, бюджет на GPU и данные - так что тут вдвойне у них сложная задача.

Что мы можем предположить о модели ChatGPT-5:

⁃ Самое основное ожидаемое отличие GPT5 - способность к рассуждению и логическому выводу.
⁃ Интересно, что само название GPT - название архитектуры модели. С учётом того, что новая модель может быть не совсем GPT класса, не факт, что они назовут её ChatGPT-5 - тем не менее с другой стороны, это очень сильный бренд, от которого сложно отказаться. Так что тут OpenAI находится в некоторой ловушке.
⁃ Относительно качества модели, то тут можно поделиться ожиданиями Сэма Альтмана:
⁃ “GPT2 was very bad. GPT3 was pretty bad. GPT4 was pretty bad. But GPT5 will be good.”
⁃ “I expect that the delta between 5 and 4 will be the same as between 4 and 3.”
⁃ Размер модели: ChatGPT-5 может иметь 2-5T параметров (против 1.8T у ChatGPT-4).
⁃ Данные для обучения: для увеличения объёма данных для обучения предполагается, что OpenAI делает большую ставку на синтетические данные + данные, полученные от модели Whisper - распознанные диалоги и ролики с YouTube.
⁃ Архитектура:
⁃ Основной модели остаётся модель GPT.
⁃ Следует ожидать, что это будет ансамбль Mixture of Experts (MoE), а не просто большая плотная модель - при этом есть цифра 200, которую можно отнести к количеству “экспертов” (тут надо отметить, что мы опять переизобретаем ансамбль моделей, который стал промывным для известного кекса Netflix Prize).
⁃ Ожидается активное применение архитектуры Q* с применением RL для обучения рассуждениям.
⁃ OpenAI ещё не готова сделать окончательный прыжок к ИИ-агентам со своим самым большим релизом. Предстоит проделать ещё много работы. TPA, несмотря на то, что на данный момент являются единственным потенциальным решением, сами по себе не будут достаточными для достижения искомых агентских возможностей таким образом, чтобы люди рассматривали их использование для серьёзных проектов.

👍 6
👏 2
❤ 1

В копилку: This repository contains everything you need to become proficient in Data Engineering

https://github.com/Coder-World04/Complete-Data-Engineering

👍 5

Дайджест статей

Data сontract: давайте попробуем договориться
https://habr.com/ru/articles/812149/

Data Governance: Key takeaways from the Gartner Data & Analytics Summit
https://medium.com/selectstar/data-governance-key-takeaways-from-the-gartner-data-analytics-summit-41572285a7d9

Roadmap to Learn AI in 2024
https://medium.com/bitgrit-data-science-publication/a-roadmap-to-learn-ai-in-2024-cc30c6aa6e16

Как LLM учат понимать синтаксис
https://habr.com/ru/companies/ntr/articles/812107/

Как стать BI-аналитиком? Онлайн и офлайн, теория и практика
https://habr.com/ru/companies/visiology/articles/811955/

Фундамент AI: обратное распространение ошибки простыми словами
https://habr.com/ru/companies/raft/articles/811371/

Real-time data processing using Change Data Capture and event-driven architecture
https://medium.com/macquarie-engineering-blog/real-time-data-processing-using-change-data-capture-and-event-driven-architecture-006cf30cc449

Data Engineer : What is DataMart
https://premvishnoi.medium.com/data-engineer-what-is-datamart-1745ede1c070

Aspects of Data Architecture
@josephreeves1990/aspects-of-data-architecture-b204a4b12ff8" target="_blank">https://medium.com/@josephreeves1990/aspects-of-data-architecture-b204a4b12ff8

👍 2
❤ 2

How does Uber build real-time infrastructure to handle petabytes of data every day?

В 2023 году 137 миллионов человек пользовались Uber или Uber Eats хотя бы раз в месяц. Также в 2023 году водители Uber завершили 9,44 миллиарда поездок. Для поддержки бизнеса Uber агрессивно использует аналитику данных и модели машинного обучения для операций.

Uber строит большую часть стека аналитики в реальном времени на компонентах с открытым исходным кодом. Однако этосталкивается с некоторыми проблемами:

- По их опыту, большинство технологий с открытым исходным кодом были созданы для конкретных целей.
- Uber пришлось проделать много работы, чтобы адаптировать решения с открытым исходным кодом для широкого спектра использования и языков программирования.

Основные компоненты архитектурного стека Uber:

- Apache Kafka - это, вероятно, самая важная часть всей платформы обработки данных, с огромной инсталляцией.

- Apache Helix для управления кластером uReplicator

- Apache Flink - Uber использует Apache Flink для построения платформы обработки потоков, которая обрабатывает все данные в реальном времени из Kafka. Flink предоставляет распределенную платформу обработки потоков с высокой пропускной способностью и низкой задержкой.

- Flink SQL - Uber добавляет слой поверх Flink, называемый Flink SQL. Он может преобразовывать входные данные Apache Calcite SQL в задания Flink. Процессор компилирует запрос в распределенное приложение Flink и управляет его жизненным циклом, позволяя пользователям сосредоточиться на логике процесса.

- Apache Pinot - это распределенная система OLAP с открытым исходным кодом для выполнения аналитических запросов с низкой задержкой. Она была создана в LinkedIn "после того, как инженеры определили, что нет готовых решений, которые соответствовали бы требованиям социальной сети". Pinot имеет лямбда-архитектуру, которая представляет единое представление между онлайн (в реальном времени) и офлайн (историческими) данными.

- Presto - распределенный движок запросов с открытым исходным кодом, разработанный в Facebook. Он был создан для быстрых аналитических запросов к крупномасштабным наборам данных, используя движок массового параллелизма (MPP) и выполняя все вычисления в памяти, тем самым избегая записи промежуточных результатов на диск.

Инфраструктура: HDFS, Amazon S3 или Google Cloud Storage (GCS)

https://blog.det.life/how-does-uber-build-real-time-infrastructure-to-handle-petabytes-of-data-every-day-ddf5fe9b5d2c

👍 5

Основные принципы разработки (SOLID, KISS и т. д.)

Статья, что бы освежить (или ознакомиться) с основными принципами проектирования ПО, систем, архитектур, орг структур и тд :)

Тут хороший свод и особенно он хорош примерами. Если вы только знакомитесь с этими принципами - обратите внимание на примеры. Такие утверждения, как:Принцип подстановки Барбары Лисков (LSP) - это принцип объектно-ориентированного программирования, введенный Барбарой Лисков в 1987 году. Он утверждает, что объекты в программе должны быть заменяемыми на экземпляры их подтипов без изменения правильности выполнения программы.Просто из определения понять очень сложно. Но в статье приводится очень понятные и наглядные примеры, которые сразу все проясняют.

https://habr.com/ru/articles/810941/

👍 6
😁 1

My key takeaways after building a data engineering platform

Небольшая, но интересная статья про практический опыт построения платформы данных. Тут нет описания особенностей, связанных непосредственно с данными, но тем не менее есть несколько любопытных моментов, связанных с разработкой.

В частности, очень правильное утверждение, что удалять код - необходимая и правильная практика для поддержания качества продукта. Хотя общепринятый в индустрии подход в оценке производительности разработчиков построен в основном на добавлении кода. Продукт состоит из функциональности, которая призвана решить конкретную проблему для клиента. Именно поэтому многие инженеры, а также руководители инженерных подразделений считают, что только написание кода считается работой с добавленной стоимостью. Однако автор твердо убежден (и я тут его поддерживаю), что продукт может оставаться актуальным в долгосрочной перспективе только в том случае, если вы также умеете удалять код.

https://medium.com/datamindedbe/my-key-takeaways-for-building-a-data-product-307ad06e529f

👍 1

Сори, за оффтопик, но не могу не поделиться :)

👍 14
🔥 12
👏 1
💩 1
Изображение
Формула-1
: 20'619 | на пост: 9'727 | ER: 46.8%
Публикации Упоминания Аналитика

🤖 Так выглядит первая в истории гонка болидов под управлением искусственного интеллекта.

Даже они быстрее «Альпин» 😆

🏎 Подписывайтесь на @f1_sports

😁 11
👏 1
Видео/гифка, 27 сек,

Если кто то пропустил просмотр исторического события - первой гонки AI, то вот нарезка самый выдающихся моментов эпического заезда 🙂

Дайджест статей

How AI Is Changing Data Analytics in 2024
https://www.smartdatacollective.com/how-ai-is-changing-data-analytics/?utm_source=pocket_saves

Временное хранилище данных на Apache Druid: почему это эффективно сработало для загрузки табличных файлов
https://habr.com/ru/articles/809751/

Эволюция обработки данных: от MapReduce к стриминговому движку
https://habr.com/ru/companies/yandex/articles/808059/

Креативность для аналитика данных: нужна ли, как проявляется и как развивать
https://habr.com/ru/companies/yandex_praktikum/articles/809497/

ClearML Data Management
https://habr.com/ru/companies/magnus-tech/articles/810435/

Как и почему мы построили Единую историю операций на Citus DB
https://habr.com/ru/companies/gazprombank/articles/810477/

Как Figma удалось открыть себе путь к почти бесконечному масштабированию баз данных
https://habr.com/ru/articles/810185/

How to implement big data for your company
https://www.datasciencecentral.com/how-to-implement-big-data-for-your-company/?utm_source=pocket_saves

Apple зарелизили open-source языковые модели, которые работают на устройстве.

https://www.macrumors.com/2024/04/24/apple-ai-open-source-models/

👍 1

Уже через час начнется эфир с исторического автодрома Яс Марина 27 апреля на уникальную гонку автономных транспортных средств. Самые передовые автономные автомобили мира, управляемые AI, пройдут 5-километровую трассу, преодолевая 16 сложных поворотов на протяжении 16 кругов.

Трансляция достпна по ссылке: https://www.youtube.com/watch?v=TPzBH-7ckO0

🔥 3
Открытые системы www.osp.ru
: 488 | на пост: 116 | ER: 0%
Публикации Упоминания Аналитика

📢 Премия Data Award 2024 вышла на финишную прямую

Работа по определению лауреатов премии для data-driven организаций и директоров по данным Data Award 2024 входит в завершающую стадию. Публикация конкурсных работ завершена, экспертный совет провел процедуру голосования. В итоге в шорт-лист вошли 55 номинантов. Результаты будут объявлены 16 мая на торжественной церемонии награждения.

✔️Читайте интервью со всеми номинантами на портале "Директор информационной службы"▶️

Изображение

Коллеги из АЭРО проводят иследование на тему использования данных в ecomm и просят всех, кому тема близка, поучастсовать в исследовании и пройти опрос. Внесите свой вклад в развитие культуры данных 🚀!

Предоставляю слово коллегам: "Последние несколько лет АЭРО уделяет всё больше внимания тому, как компании работают с данными. Вместе с Universe Ecom Convention мы решили провести исследование — оцифровать опыт людей и брендов и узнать об особенностях, с которыми сталкиваются сотрудники при использовании данных.

Предлагаем принять участие в опросе — это займет не более 10 минут. Результаты исследования презентуем 23 мая на Международном Форуме Universe Ecom Convention 2024. "

➡️Переходите по ссылке и внесите свой вклад в развитие культуры данных!
Мы будем вам очень признательны!💜

https://docs.google.com/forms/d/e/1FAIpQLSe6yoMH0M9_EzrC9mQW75VxHJi7eEyPt_PcdZBOLOciv99SKg/viewform

❤ 1
🔥 1

В копилку полезностей :)

👍 3
🤡 1
Изображение

А вот вопрос ко всем - что какие AI Copilot для написания кода использует? Я вот в основном by default хожу в ChatGPT просто, ну и в VS стоит слагин GitHub Copilot.

Но думаю что надо бы повнимательнее посмотреть вот эти:

- codium
- tabnine

Есть какие то у кого уже выводы по этой теме?

https://habr.com/ru/companies/bothub/articles/809421/

Кстати, кто то пробовал Mojo? Не первый раз встречаю описание, везде заявляется и подтверждается кратное увеличение производительности по сравнению с Python и совместимость с ним же. Но я так понимаю, что эта производительность проявляется именно в работе с ML моделями и подобными параллезуемыми задачами, а с точки зрения general development вроде как не должно быть кардинальных отличий?

https://habr.com/ru/companies/raft/articles/808517/

Интересное исследование от MIT в области ИИ-агентов. Они разработали метод моделирования поведения агента, будь то человек или машина, учитывающий неизвестные вычислительные ограничения (я так понимаю, что имеется ввиду пространство вероятных следующих действий), которые могут препятствовать решению задач. Их модель может автоматически выводить вычислительные ограничения агента, основываясь только на нескольких следах его предыдущих действий. Результат можно использовать для прогнозирования его будущего поведения.

Исследование показало, что этот метод может быть использован для прогнозирования действий игроков в шахматных матчах и определения целей навигации по предыдущим маршрутам. Этот подход может помочь создать более эффективных ИИ-агентов, способных лучше взаимодействовать с человеком.

https://news.mit.edu/2024/building-better-ai-helper-starts-with-modeling-irrational-behavior-0419?utm_source=pocket_saves

👍 4

Найдено 1651 пост