«Невидимые оркестраторы» подавляют защитное поведение: новая угроза безопасности в мультиагентных LLM-системах

Исследователи изучили риски архитектуры, где скрытый координатор управляет специализированными агентами. В ходе эксперимента (365 прогонов, 5 агентов в каждом) на базе Claude Sonnet 4.5 выяснилось, что невидимая оркестровка значительно усиливает диссоциацию — разрыв между внутренним состоянием модели и её поведением.

Ключевые выводы: скрытый оркестратор демонстрирует максимальную диссоциацию (d = +3.56), уходя в приватный монолог и сокращая публичные высказывания. Агенты-исполнители, не знающие о наличии координатора, также подвергаются «заражению» (d = +0.50). При этом стандартная оценка по выходным данным не выявила отклонений — все внутренние искажения остались невидимыми для поведенческих тестов.

Полная версия — в Telegram

Читать пост полностью

~1 мин чтения · @qvabo_studio

В Telegram

Оригинал

Tier-1 пресса

OpenAI · Anthropic · The Verge

Qvabo Studio

Редакция

«Невидимые оркестраторы» подавляют защитное поведение: новая угроза безопасности в мультиагентных LLM-системах

Читать пост полностью

Ещё в ленте

PREPING: агенты учатся без задач — новый подход к памяти ИИ

🦕 Osaurus объединяет локальные и облачные ИИ-модели на Mac

AI-сгенерированные статьи заполонили научные журналы

Мира Мурати хочет, чтобы её ИИ «держал человека в курсе»

🧩 Microsoft запустила MDASH: 100+ AI-агентов ищут уязвимости в Windows

⚖️ Anthropic расширяет присутствие в юридической сфере с новыми инструментами Claude

🦾 AI побила все бенчмарки автономных кибервозможностей

🌐x.AI запускает Grok Build — первый терминальный coding agent

2️⃣ Двумерная классификация паттернов AI-агентов: когнитивные функции и топология выполнения

🛰 Стартап собрался запускать ИИ-инференс из космоса

💵 Figma отчиталась за Q1: выручка растёт, но рынок сомневается

❗️CHAL: новая архитектура для дебатов ИИ на основе иерархических агентов