19 янв

🏆 Claude Opus 4.5: первая модель, превысившая 80% на SWE-bench

🏆 Claude Opus 4.5: первая модель, превысившая 80% на SWE-bench - 5386859949804
📅 23 ноября 2025 года Anthropic выпустила Claude Opus 4.5 — флагманскую модель, которая стала первой в мире, преодолевшей планку 80% решённых реальных задач программирования. Теперь доступна в AI Wiz.

💻 Рекорд в программировании

SWE-bench Verified: 80.9% (405 из 500 задач)

Для сравнения:
🔺Claude Sonnet 4.5: 77.2%
🔺GPT-5.1/5.2: ~76-77%
🔺Gemini 3 Pro: ~76%

Terminal-Bench (сложные задачи в терминале): 59.3%
Это на 12 пунктов выше GPT-5.1 (47.6%) и на 5 пунктов выше Gemini 3 Pro (54.2%)

Opus 4.5 показывает уровень сильного senior-разработчика на реальных production-задачах из open-source проектов.

🧠 Hybrid Reasoning: два режима мышления
Claude Opus 4.5 — hybrid reasoning-модель, которая работает в двух режимах.

Standard (быстрый):
Отвечает сразу для простых задач — скорость и экономия

Extended thinking (глубокий):
Модель сначала "думает", планирует шаги, проверяет выводы — точность на сложных задачах

📊 Огромный контекст
200 000 токенов стандартно — это примерно 400 страниц текста или целая кодовая база.

Context awareness: Модель "знает", сколько контекста осталось, и планирует длину ответов соответственно — не обрывает важную информацию на середине.

🤖 Компьютер как инструмент
Claude Opus 4.5 — лучшая модель Anthropic для computer use:

✅ Управляет браузером, офисными приложениями, IDE, терминалом

✅ Новая операция zoom — приближает области экрана для чтения мелкого текста

✅ Выстраивает цепочки действий через разные инструменты

✅ Работает как оркестратор для команды саб-агентов

💼 Офисная автоматизация на новом уровне
Claude Opus 4.5 показывает +20% точности и +15% эффективности в работе с Excel и финансовым моделированием.

Excel:
Строит рабочие финансовые модели с формулами, named ranges, проверками ошибок и пояснениями

Презентации:
Превращает PDF-отчёты в презентации для руководства со структурой и визуализацией

Документы:
Анализирует большие отчёты, извлекает ключевую информацию, структурирует выводы

🔒 Безопасность и точность

✔️Omniscience Index: 2-е место по точности и низкому уровню галлюцинаций среди всех моделей

✔️Prompt-injection защита: В 3 раза лучше защита от непрямых атак, чем у GPT-5.1 и Gemini 3 Pro — только 25% успешных атак против 80%+ у конкурентов

✔️Constitutional AI: Модель обучена с фокусом на безопасность и этические нормы — меньше вредного контента, больше осознанных отказов

🎯 Для каких задач лучше всего

1️⃣ Программирование:
Рефакторинг, миграции, поиск сложных багов, анализ архитектуры — на уровне senior-инженера

2️⃣ Агентные сценарии:
Автономные помощники, которые планируют действия, используют инструменты, работают часами без участия человека

3️⃣ Бизнес-аналитика:
Финансовые модели, обработка больших отчётов, стратегические документы, презентации

4️⃣ Исследования:
Анализ десятков документов, синтез информации, поиск связей между удалёнными частями текста

5️⃣ Сложные рассуждения:
Многошаговая логика, математика, задачи, требующие проверки промежуточных выводов

📈 Сравнение с конкурентами

✅ По программированию: Лидер — 80.9% против ~76-77% у всех остальных

✅ По общим знаниям (MMLU-Pro): Паритет — ~90.8% против ~91% у GPT-5 и Gemini

✅ По безопасности: Лучшая защита от атак и низкий уровень галлюцинаций

🚀 Claude Opus 4.5 уже доступна в AI Wiz — протестируйте первую модель, преодолевшую планку 80% на реальных задачах программирования:
https://aiwiz.ru/trial

#AIWiz #ClaudeOpus45 #Anthropic

Комментарии

Комментариев нет.