Каталог каналов Мои подборки Мои каналы Поиск постов Рекламные посты
Инструменты
Каталог TGAds Мониторинг Детальная статистика Анализ аудитории Бот аналитики
Полезная информация
Инструкция Telemetr Документация к API Чат Telemetr
Полезные сервисы

Не попадитесь на накрученные каналы! Узнайте, не накручивает ли канал просмотры или подписчиков Проверить канал на накрутку
Прикрепить Телеграм-аккаунт Прикрепить Телеграм-аккаунт

Телеграм канал «gonzo-обзоры ML статей»

gonzo-обзоры ML статей
3.8K
6.2K
474
342
23.8K
Авторы:
Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика.
Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
Подписчики
Всего
24 309
Сегодня
+4
Просмотров на пост
Всего
2 250
ER
Общий
8.59%
Суточный
7%
Динамика публикаций
Telemetr - сервис глубокой аналитики
телеграм-каналов
Получите подробную информацию о каждом канале
Отберите самые эффективные каналы для
рекламных размещений, по приросту подписчиков,
ER, количеству просмотров на пост и другим метрикам
Анализируйте рекламные посты
и креативы
Узнайте какие посты лучше сработали,
а какие хуже, даже если их давно удалили
Оценивайте эффективность тематики и контента
Узнайте, какую тематику лучше не рекламировать
на канале, а какая зайдет на ура
Попробовать бесплатно
Показано 7 из 3 814 постов
Смотреть все посты
Пост от 29.05.2026 12:50
872
0
3
👍 1
Пост от 29.05.2026 12:50
642
0
2
Пост от 29.05.2026 12:50
640
0
2
Пост от 29.05.2026 12:47
764
0
22
Очень интересная работа. Модели осваивают навыки в определённом порядке и он сохраняется между разными моделями. Это можно использовать для диагностики процесса обучения.

What Do Language Models Learn and When? The Implicit Curriculum Hypothesis
Emmy Liu, Kaiser Sun, Millicent Li, Isabelle Lee, Lindia Tjuatja, Jen-tse Huang, Graham Neubig
Paper: https://arxiv.org/abs/2604.08510
Review: https://arxiviq.substack.com/p/what-do-language-models-learn-and
Code: https://github.com/KaiserWhoLearns/ElementalTask

# TL;DR

ЧТО сделали: Авторы сформулировали и провалидировали «гипотезу скрытого учебного плана» (Implicit Curriculum Hypothesis). Они показали, что в процессе предобучения LLM выучивают навыки в стабильном, композиционном и предсказуемом порядке. Этот порядок сохраняется для разных семейств моделей, их размеров и состава обучающих данных. Чтобы подтвердить гипотезу, исследователи разработали специальный набор из 91 простой и композитной задачи, а затем детально отследили траектории развития 9 моделей из 4 крупных открытых семейств объёмом от 410M до 13B параметров.

ПОЧЕМУ это важно: Эта работа предлагает уйти от непрозрачных, гладких кривых лосса на валидации и грубых комплексных бенчмарков. Вместо них мы получаем структурированный подход, где процесс освоения навыков становится предсказуемым и понятным. Самое удивительное: авторы доказали, что траекторию обучения модели на совершенно новой, незнакомой композитной задаче можно предсказать заранее. Для этого достаточно измерить геометрическую близость репрезентации этой задачи (функционального вектора) в residual stream модели.

Для практиков: Результаты исследования позволяют оптимизировать мониторинг предобучения больших моделей. Вместо того чтобы вслепую тратить ресурсы на GPU-часы и надеяться на хороший итоговый результат, можно использовать легковесные диагностические тесты. По геометрии активаций на ранних этапах можно предсказывать, освоит ли модель сложные комплексные навыки к концу обучения.

Осваивать навыки тут: https://t.me/gonzo_ML_podcasts/3797
👍 2
Пост от 29.05.2026 02:09
545
0
2
👍 1
Пост от 29.05.2026 02:09
1
0
0
Пост от 29.05.2026 02:09
1
0
0
Смотреть все посты