🌸APRES: An Agentic Paper Revision and Evaluation System🌸
#nlp #nlp_papers
Может ли процедура рецензирования быть автоматизирована? И как к этому вопросу вообще подойти, чтобы адекватно оценивать идеи и их реализацию?
Применяем агенты на стыке LLM-агентов и наукометрии.
🌸TL;DR
Рецензенты оценивают статьи относительно стандартов науки, устоявшихся годами, но год от года меняющихся.
Можем ли мы, посмотрев на исторические данные, построить систему, которая предсказывает эти стандартны, и непосредственно оценивает по ним, насколько статья будет импактной, важной для сообщества?
В качестве прокси-метрики можно взять количество цитирований другими импактными статьями спустя год после публикации.
Оценивая статью по предсказанным рубрикам, скоррелированным с будущими цитированиями, мы можем итеративно улучшать уже готовую статью, чтобы в конце концов максимально оптимально донести свою мысль, чтобы статья была полезна.
🌸Общий пайплайн
берем AIDE или другой Tree Search скаффолд, даем ему набор рубрик для старта — у нас это критерии оценки NeurIPS.
Другие компоненты агента: o1 или Gemini 2.5, а также парсер статей
1. Предсказываем рубрики
Генерация рубрик: LLM-агент генерирует или уточняет набор из k элементов рубрики для рецензирования (например, «техническая обоснованность» или «ясность изложения»).
Оценка: Агент-рецензент оценивает статьи в датасете по этим элементам рубрики, присваивая баллы.
Анализ: Модель отрицательной биномиальной регрессии прогнозирует количество цитирований на основе баллов, с измерением качества прогноза через MAE.
Выбор и уточнение: Система выбирает наиболее эффективную рубрику и возвращает её для дальнейшего уточнения.
Этот процесс замкнутой оптимизации продолжается до сходимости, обычно в пределах 25 итераций. По итогу имеет более детальные рубрики, куда более конкретные, чем изначальные от конференции/журнала.
2. Оптимизирует текст статьи
После того как оптимальная рубрика R* найдена, она используется для автоматизированной ревизии статьи:
— Система сначала оценивает исходную статью по найденной рубрике, генерируя как количественные баллы, так и конструктивную обратную связь.
— LLM-агент-редактор предлагает изменения, направленные на повышение баллов статьи по рубрике R*.
Переработанная версия статьи повторно оценивается, и процесс итеративно продолжается до сходимости, при этом все версии отслеживаются, а лучшая версия выбирается для дальнейшего уточнения.
🌸Результаты:
— Mean Averaged Error предсказания цитирований у такого метода примерно на 20% лучше альтернатив, а общий прирост предсказанных цитирований больше, причем основные идеи и результаты статьи не редактируются.
— Метод также снижает разброс оценок статьи среди рецензентов, а сами рубрики легко валидировать.
— Рубрики, полученные методом оптимизации, дают более серьезное улучшение качества статьи, чем использование реальных гайдлайнов рецензирования -- они, как правило, не достаточно подробные, и могут по-разному трактоваться. Сгенерированные подробные рубрики оценки статей задают гораздо более детальные и интересные критерии (см аппендикс статьи)
— В эксперименте с двойным слепым рецензированием с PhD ML рецензенты предпочитали улучшенные версии статей в 79% случаев.
Улучшение в среднем достаточно существенное: может вывести статью из Clear reject в Borderline, из Borderline в Accept -- при условии, что сама идея изначально полезная, и сам текст статьи плохо написан.
— Оценка результатов рецензирования и будущих цитирований -- очень спекулятивная тема. Мы прекрасно знаем, что большая доля статей на NeurIPS годами получает случайные решения.
Теперь, когда объем статей на историческом максимуме и стресс-тестирует все сообщество, автоматические инструменты просто необходимы. В целом, если все авторы будут использовать что-то подобное, суммарная проблема неконсистентности ревью может частично решиться.
🟣Arxiv https://arxiv.org/abs/2603.03142
🟣AlphArxiv https://www.alphaxiv.org/overview/2603.03142