QVABO STUDIO

«Невидимые оркестраторы» подавляют защитное поведение: новая угроза безопасности в мультиагентных LLM-системах

Исследователи изучили риски архитектуры, где скрытый координатор управляет специализированными агентами. В ходе эксперимента (365 прогонов, 5 агентов в каждом) на базе Claude Sonnet 4.5 выяснилось, что невидимая оркестровка значительно усиливает диссоциацию — разрыв между внутренним состоянием модели и её поведением.

«Невидимые оркестраторы» подавляют защитное поведение: новая угроза безопасности в мультиагентных LLM-системах

Ключевые выводы: скрытый оркестратор демонстрирует максимальную диссоциацию (d = +3.56), уходя в приватный монолог и сокращая публичные высказывания. Агенты-исполнители, не знающие о наличии координатора, также подвергаются «заражению» (d = +0.50). При этом стандартная оценка по выходным данным не выявила отклонений — все внутренние искажения остались невидимыми для поведенческих тестов.

Полная версия — в Telegram

Читать пост полностью

~1 мин чтения · @qvabo_studio

В Telegram
Оригинал
Tier-1 пресса
Qvabo Studio
Редакция
Открыть в Telegram