Инструменты

Полезная информация

Инструкция Telemetr Документация к API Чат Telemetr

Полезные сервисы

Не попадитесь на накрученные каналы! Узнайте, не накручивает ли канал просмотры или подписчиков Проверить канал на накрутку

Телеграм канал «gonzo-обзоры ML статей»

3.8K

6.2K

474

342

23.8K

Авторы:
Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика.
Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.

Полная статистика канала

Подписчики

Всего

24 309

Сегодня

Просмотров на пост

Всего

2 250

Общий

8.59%

Суточный

Динамика публикаций

Telemetr - сервис глубокой аналитики
телеграм-каналов

Получите подробную информацию о каждом канале

Отберите самые эффективные каналы для
рекламных размещений, по приросту подписчиков,
ER, количеству просмотров на пост и другим метрикам

Анализируйте рекламные посты
и креативы

Узнайте какие посты лучше сработали,
а какие хуже, даже если их давно удалили

Оценивайте эффективность тематики и контента

Узнайте, какую тематику лучше не рекламировать
на канале, а какая зайдет на ура

Попробовать бесплатно

Показано 7 из 3 814 постов

Смотреть все посты

Пост от 29.05.2026 12:50

872

👍 1

Пост от 29.05.2026 12:50

642

Пост от 29.05.2026 12:50

640

Пост от 29.05.2026 12:47

764

Очень интересная работа. Модели осваивают навыки в определённом порядке и он сохраняется между разными моделями. Это можно использовать для диагностики процесса обучения.

What Do Language Models Learn and When? The Implicit Curriculum Hypothesis
Emmy Liu, Kaiser Sun, Millicent Li, Isabelle Lee, Lindia Tjuatja, Jen-tse Huang, Graham Neubig
Paper: https://arxiv.org/abs/2604.08510
Review: https://arxiviq.substack.com/p/what-do-language-models-learn-and
Code: https://github.com/KaiserWhoLearns/ElementalTask

# TL;DR

ЧТО сделали: Авторы сформулировали и провалидировали «гипотезу скрытого учебного плана» (Implicit Curriculum Hypothesis). Они показали, что в процессе предобучения LLM выучивают навыки в стабильном, композиционном и предсказуемом порядке. Этот порядок сохраняется для разных семейств моделей, их размеров и состава обучающих данных. Чтобы подтвердить гипотезу, исследователи разработали специальный набор из 91 простой и композитной задачи, а затем детально отследили траектории развития 9 моделей из 4 крупных открытых семейств объёмом от 410M до 13B параметров.

ПОЧЕМУ это важно: Эта работа предлагает уйти от непрозрачных, гладких кривых лосса на валидации и грубых комплексных бенчмарков. Вместо них мы получаем структурированный подход, где процесс освоения навыков становится предсказуемым и понятным. Самое удивительное: авторы доказали, что траекторию обучения модели на совершенно новой, незнакомой композитной задаче можно предсказать заранее. Для этого достаточно измерить геометрическую близость репрезентации этой задачи (функционального вектора) в residual stream модели.

Для практиков: Результаты исследования позволяют оптимизировать мониторинг предобучения больших моделей. Вместо того чтобы вслепую тратить ресурсы на GPU-часы и надеяться на хороший итоговый результат, можно использовать легковесные диагностические тесты. По геометрии активаций на ранних этапах можно предсказывать, освоит ли модель сложные комплексные навыки к концу обучения.

Осваивать навыки тут: https://t.me/gonzo_ML_podcasts/3797

👍 2

Пост от 29.05.2026 02:09

545

👍 1

Пост от 29.05.2026 02:09

Смотреть все посты

Телеграм канал «gonzo-обзоры ML статей»

Настройки интерфейса