19 февраля Google выпустила Gemini 3.1 Pro — обновление флагмана с акцентом на логическое мышление. Главная цифра: 77,1% на ARC-AGI-2 — бенчмарке, который проверяет способность решать незнакомые задачи без шаблонов. Для сравнения: средний человек набирает около 60%, а предыдущий Gemini 3 Pro — 31,1%. За три месяца — рост в 2,5 раза.
По таблице Google, 3.1 Pro лидирует в большинстве тестов: 94,3% в GPQA Diamond (PhD-уровень научных знаний), 80,6% в SWE-Bench Verified (агентское программирование), 92,6% в мультиязычном MMMLU. Обходит конкурентов почти везде — точечные отставания только от GPT-5.3-Codex в одном кодинг-тесте.
Важный контекст: модель пока в preview и ещё не получила статус GA. Google объясняет это продолжающейся работой над агентными сценариями. Доступна бесплатно в приложении Gemini, для разработчиков — через AI Studio и Vertex AI.