Foundation models для ЭЭГ: затянувшийся пролог
#neuro #ai
Современные модели для анализа нейрофизиологических данных зачастую обучаются под конкретные задачи (напр., классификацию состояний или обнаружение событий в сигнале). Такой подход требует размеченных данных и жёстко привязывает модель к условиям записи. Из-за высокой вариабельности нейросигналов между людьми, протоколами и оборудованием такие модели плохо переносятся на новые данные и часто теряют качество вне обучающего набора.
Foundation models предлагают другой порядок обучения. Сначала модель обучается на больших объёмах неразмеченных данных и учится строить представления сигнала, т. е. компактные внутренние описания, в которых сохраняются его устойчивые характеристики. Обычно это осуществляется через self-supervised подходы, в которых модель восстанавливает или предсказывает части самого сигнала. Такие представления слабо зависят от конкретной задачи и могут служить общей основой для дальнейшей донастройки при минимальной разметке.
До недавнего времени foundation models ЭЭГ развивались довольно однотипно. В большинстве работ это были универсальные энкодеры для многоканальных временных рядов, обученные на больших объёмах неразмеченных данных зачастую за счёт восстановления частей сигнала. В качестве архитектурной основы почти всегда использовались трансформеры, работающие с короткими временными сегментами ЭЭГ или МЭГ и их спектральными представлениями.
На практике у этой первой волны foundation models быстро проявились ограничения:
1. Недостаточная универсальность: модели проверялись на небольшом числе задач, часто на тех же датасетах, что использовались при предобучении;
2. Cлабая проверка переноса: работа с абсолютно другими данными и малым числом меток не осуществлялась полноценно;
3. Неочевидный эффект масштабирования: рост моделей и данных не давал стабильного выигрыша;
4. Контекст и пространственная структура учитывались слабо: анализ ограничивался короткими фрагментами сигнала;
5. Неубедительная “нейро”-специфичность: подходы, не разработанные специально для нейросигналов, часто показывали сопоставимые результаты.
Даже самые свежие foundation models наследуют те же ограничения. Тем не менее, появляются работы, которые пытаются адресовать отдельные практические проблемы. Так, новая модель REVE нацелена на снижение зависимости от конкретного расположения электродов и формата записи: она изначально обучается работать с разными конфигурациями датчиков и длиной сигналов, благодаря чему лучше переносится между датасетами и не требует тонкой подстройки под каждую новую задачу.
Другой показательный пример — SleepFM, которая расширяет идею foundation models за пределы одного сигнала и одной задачи. В этой модели используется мультимодальная полисомнография — совместно регистрируемая ЭЭГ, ЭКГ, дыхательные и мышечные сигналы, записанные за всю ночь сна. Модель обучается извлекать устойчивые характеристики сна как целостного физиологического процесса и затем используется не только для стандартных задач вроде выделения стадий сна или детекции апноэ, но и для прогноза широкого круга заболеваний — от сердечно-сосудистых до нейродегенеративных. И это — по одной ночи записи! Ключевое отличие этого исследования касается не архитектуры, а постановки задачи: сон рассматривается не как объект локальной физиологической разметки, а как характеристика общего состояния организма, и foundation model используется именно для такого уровня обобщения.
Дальнейший прогресс foundation models ЭЭГ упирается не столько в новые архитектуры, сколько в методологию. Важными следующими шагами являются реалистичная оценка переноса между данными, сравнение с существующими классическими моделями, понимание того, что именно кодируется в выученных представлениях и как это связано с физиологией и клиническими интерпретациями. Без этих шагов foundation models рискуют так и остаться технологическим экспериментом, а не рабочим инструментом нейронауки.
А следующий пост расскажет об успешном прецеденте использования foundation model в исследованиях зрительной коры мыши.