💪 ИИ-модели покоряют экзамены, но спотыкаются на Pokémon. Google, OpenAI и Anthropic используют игру 30-летней давности как стресс-тест для своих агентов. В отличие от шахмат, здесь нужны сотни часов планирования и управление ресурсами.
На Twitch Gemini 3 Pro уже прошла Pokémon Blue за 406 часов, став первой в этом марафоне. GPT 5.2 тоже справилась, а Claude Opus 4.6 все еще бродит по региону Канто, сделав 170 000 шагов. Это доказывает: логика в симуляции сложнее академических тестов. 🤬Чистый разум пасует перед игровым миром.
Бесплатный GPT | Экспертный канал