🦾 AI побила все бенчмарки автономных кибервозможностей

Британский Институт безопасности ИИ (AISI) и Palo Alto Networks опубликовали данные, согласно которым Anthropic Claude Mythos Preview и OpenAI GPT-5.5 значительно превзошли предыдущие показатели автономного выполнения киберзадач. AISI отслеживал тренд удвоения временного горизонта 80% надежности с конца 2024 года - ранее этот показатель удваивался каждые 5 месяцев, что уже было вдвое быстрее, чем в ноябре 2025 года. Новые модели превзошли все прогнозируемые тренды.

Наиболее наглядные результаты получены на киберполигонах AISI - симуляциях многоэтапных атак на небольшие незащищенные корпоративные сети. Claude Mythos Preview стал первой моделью, завершившей оба полигона: 32-шаговую атаку «The Last Ones» в 6 из 10 попыток и ранее нерешаемый «Cooling Tower» в 3 из 10 попыток. GPT-5.5 справился с «The Last Ones» в 3 из 10 попыток. Palo Alto Networks подтвердила выводы: модели находят уязвимости и превращают их в критические эксплойты почти в реальном времени. Компания выпустила предупреждения по 26 CVE (75 проблем) против обычных 5 в месяц, выявленных при сканировании более 130 продуктов.

Полная версия — в Telegram

Читать пост полностью

~1 мин чтения · @qvabo_studio

В Telegram

Оригинал

Tier-1 пресса

OpenAI · Anthropic · The Verge

Qvabo Studio

Редакция

🦾 AI побила все бенчмарки автономных кибервозможностей

Читать пост полностью

Ещё в ленте

🦕 Osaurus объединяет локальные и облачные ИИ-модели на Mac

🧩 Microsoft запустила MDASH: 100+ AI-агентов ищут уязвимости в Windows

⚖️ Anthropic расширяет присутствие в юридической сфере с новыми инструментами Claude

🌐x.AI запускает Grok Build — первый терминальный coding agent

2️⃣ Двумерная классификация паттернов AI-агентов: когнитивные функции и топология выполнения

🛰 Стартап собрался запускать ИИ-инференс из космоса

💵 Figma отчиталась за Q1: выручка растёт, но рынок сомневается

❗️CHAL: новая архитектура для дебатов ИИ на основе иерархических агентов

🔨 Настоящие проигравшие в суде Маска против Альтмана

🕶 Graphon AI выходит из тени с $8,3 млн на создание недостающего слоя данных для LLM

🤖 Физический AI выходит на заводы: компании тестируют человекоподобных роботов

Perplexity запускает коннектор к Snowflake для запросов на естественном языке