🏆 Claude Opus 4.5: первая модель, превысившая 80% на SWE-bench
📅 23 ноября 2025 года Anthropic выпустила Claude Opus 4.5 — флагманскую модель, которая стала первой в мире, преодолевшей планку 80% решённых реальных задач программирования. Теперь доступна в AI Wiz.
✅ По программированию: Лидер — 80.9% против ~76-77% у всех остальных
✅ По общим знаниям (MMLU-Pro): Паритет — ~90.8% против ~91% у GPT-5 и Gemini
✅ По безопасности: Лучшая защита от атак и низкий уровень галлюцинаций
🚀 Claude Opus 4.5 уже доступна в AI Wiz — протестируйте первую модель, преодолевшую планку 80% на реальных задачах программирования: https://aiwiz.ru/trial
AI Wiz
🏆 Claude Opus 4.5: первая модель, превысившая 80% на SWE-bench
💻 Рекорд в программировании
SWE-bench Verified: 80.9% (405 из 500 задач)
Для сравнения:
🔺Claude Sonnet 4.5: 77.2%
🔺GPT-5.1/5.2: ~76-77%
🔺Gemini 3 Pro: ~76%
Terminal-Bench (сложные задачи в терминале): 59.3%
Это на 12 пунктов выше GPT-5.1 (47.6%) и на 5 пунктов выше Gemini 3 Pro (54.2%)
Opus 4.5 показывает уровень сильного senior-разработчика на реальных production-задачах из open-source проектов.
🧠 Hybrid Reasoning: два режима мышления
Claude Opus 4.5 — hybrid reasoning-модель, которая работает в двух режимах.
Standard (быстрый):
Отвечает сразу для простых задач — скорость и экономия
Extended thinking (глубокий):
Модель сначала "думает", планирует шаги, проверяет выводы — точность на сложных задачах
📊 Огромный контекст
200 000 токенов стандартно — это примерно 400 страниц текста или целая кодовая база.
Context awareness: Модель "знает", сколько контекста осталось, и планирует длину ответов соответственно — не обрывает важную информацию на середине.
🤖 Компьютер как инструмент
Claude Opus 4.5 — лучшая модель Anthropic для computer use:
✅ Управляет браузером, офисными приложениями, IDE, терминалом
✅ Новая операция zoom — приближает области экрана для чтения мелкого текста
✅ Выстраивает цепочки действий через разные инструменты
✅ Работает как оркестратор для команды саб-агентов
💼 Офисная автоматизация на новом уровне
Claude Opus 4.5 показывает +20% точности и +15% эффективности в работе с Excel и финансовым моделированием.
Excel:
Строит рабочие финансовые модели с формулами, named ranges, проверками ошибок и пояснениями
Презентации:
Превращает PDF-отчёты в презентации для руководства со структурой и визуализацией
Документы:
Анализирует большие отчёты, извлекает ключевую информацию, структурирует выводы
🔒 Безопасность и точность
✔️Omniscience Index: 2-е место по точности и низкому уровню галлюцинаций среди всех моделей
✔️Prompt-injection защита: В 3 раза лучше защита от непрямых атак, чем у GPT-5.1 и Gemini 3 Pro — только 25% успешных атак против 80%+ у конкурентов
✔️Constitutional AI: Модель обучена с фокусом на безопасность и этические нормы — меньше вредного контента, больше осознанных отказов
🎯 Для каких задач лучше всего
1️⃣ Программирование:
Рефакторинг, миграции, поиск сложных багов, анализ архитектуры — на уровне senior-инженера
2️⃣ Агентные сценарии:
Автономные помощники, которые планируют действия, используют инструменты, работают часами без участия человека
3️⃣ Бизнес-аналитика:
Финансовые модели, обработка больших отчётов, стратегические документы, презентации
4️⃣ Исследования:
Анализ десятков документов, синтез информации, поиск связей между удалёнными частями текста
5️⃣ Сложные рассуждения:
Многошаговая логика, математика, задачи, требующие проверки промежуточных выводов
📈 Сравнение с конкурентами
✅ По программированию: Лидер — 80.9% против ~76-77% у всех остальных
✅ По общим знаниям (MMLU-Pro): Паритет — ~90.8% против ~91% у GPT-5 и Gemini
✅ По безопасности: Лучшая защита от атак и низкий уровень галлюцинаций
🚀 Claude Opus 4.5 уже доступна в AI Wiz — протестируйте первую модель, преодолевшую планку 80% на реальных задачах программирования: https://aiwiz.ru/trial
#AIWiz #ClaudeOpus45 #Anthropic