Не попадитесь на накрученные каналы! Узнайте, не накручивает ли канал просмотры или
подписчиков
Проверить канал на накрутку
Телеграм канал «gonzo-обзоры ML статей»
gonzo-обзоры ML статей
3.8K
6.2K
474
342
23.8K
Авторы: Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика. Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
Очень интересная работа. Модели осваивают навыки в определённом порядке и он сохраняется между разными моделями. Это можно использовать для диагностики процесса обучения.
What Do Language Models Learn and When? The Implicit Curriculum Hypothesis
Emmy Liu, Kaiser Sun, Millicent Li, Isabelle Lee, Lindia Tjuatja, Jen-tse Huang, Graham Neubig
Paper: https://arxiv.org/abs/2604.08510
Review: https://arxiviq.substack.com/p/what-do-language-models-learn-and
Code: https://github.com/KaiserWhoLearns/ElementalTask
# TL;DR
ЧТО сделали: Авторы сформулировали и провалидировали «гипотезу скрытого учебного плана» (Implicit Curriculum Hypothesis). Они показали, что в процессе предобучения LLM выучивают навыки в стабильном, композиционном и предсказуемом порядке. Этот порядок сохраняется для разных семейств моделей, их размеров и состава обучающих данных. Чтобы подтвердить гипотезу, исследователи разработали специальный набор из 91 простой и композитной задачи, а затем детально отследили траектории развития 9 моделей из 4 крупных открытых семейств объёмом от 410M до 13B параметров.
ПОЧЕМУ это важно: Эта работа предлагает уйти от непрозрачных, гладких кривых лосса на валидации и грубых комплексных бенчмарков. Вместо них мы получаем структурированный подход, где процесс освоения навыков становится предсказуемым и понятным. Самое удивительное: авторы доказали, что траекторию обучения модели на совершенно новой, незнакомой композитной задаче можно предсказать заранее. Для этого достаточно измерить геометрическую близость репрезентации этой задачи (функционального вектора) в residual stream модели.
Для практиков: Результаты исследования позволяют оптимизировать мониторинг предобучения больших моделей. Вместо того чтобы вслепую тратить ресурсы на GPU-часы и надеяться на хороший итоговый результат, можно использовать легковесные диагностические тесты. По геометрии активаций на ранних этапах можно предсказывать, освоит ли модель сложные комплексные навыки к концу обучения.