ARC-AGI-3 вийшов як інтерактивний бенчмарк саме для агентів
Замість статичних задач — середовища, де агент має вчитись по ходу, планувати довгі кроки й адаптуватись. Спробував перше завдання - це гра. І GPT5.4 нічого не зрозумів що там робити)) спробуйте теж
Чому важливо для агентів: це ближче до реального production-патерну «план → дія → фідбек → корекція», тобто краще міряє агентну придатність, ніж одноразові Q/A-бенчмарки