Исследователи R&D-центра Т-Технологий представили TAM-Eval и RM-RF — два метода, которые позволяют оценить и ускорить генерацию модульных тестов с помощью больших языковых моделей.
TAM-Eval оценивает, насколько хорошо языковые модели справляются с сопровождением тестов в репозиториях: создают новые, чинят сломанные и обновляют существующие при изменении кода. RM-RF — модель предварительной экспертизы. Ещё до сборки проекта она предсказывает, выполнится ли сгенерированный тест и повысит ли он качество проверки кода. Модель обучали на 22 тысячах примеров: она способна точно отличать полезные тесты от бесполезных (средний показатель точности — около 0,69). В результате проверка, которая могла бы занять несколько дней, сокращается до нескольких часов.
Обе разработки могут применяться в реальных инженерных процессах, улучшая опыт разработки, сокращая время на написание тестов и повышая качество кода за счет более полного покрытия его тестами. Они могут улучшить опыт разработки в финтехе, электронной коммерции, телекоммуникациях, а также в промышленности, энергетике и транспорте. Разработки были признаны профильным сообществом: RM-RF принята в основной научный трек конференции SANER 2026, а TAV-Eval — на профильный воркшоп VST 2026, проходящий совместно с SANER.
«Эти методы делают работу больших языковых моделей с тестами более предсказуемой и эффективной для реальных процессов разработки. TAM-Eval задает стандарт сравнения моделей и агентов в сопровождении тестов по измеримым метрикам, а RM-RF позволяет отсеивать слабые тесты и ранжировать сильные без дорогостоящего запуска пайплайна на каждом шаге», — пояснил Станислав Моисеев, руководитель Центра исследований и разработок Т-Технологий.
"Наука и университеты" в MAX