🆕 VeGAS: новый метод повышения надежности воплощенных AI-агентов

Исследователи представили Verifier-Guided Action Selection (VeGAS) — фреймворк для тестирования, повышающий устойчивость мультимодальных LLM (MLLM) в задачах управления физическими агентами. Вместо выбора единственного действия на каждом шаге, VeGAS генерирует набор кандидатов и использует специальный верификатор для выбора наилучшего.

Ключевая находка: использование стандартного MLLM в качестве верификатора не дает улучшений. Авторы разработали LLM-управляемую стратегию синтеза данных, автоматически создающую разнообразный набор сценариев ошибок для обучения верификатора.

Полная версия — в Telegram

Читать пост полностью

~1 мин чтения · @qvabo_studio

В Telegram

Оригинал

Tier-1 пресса

OpenAI · Anthropic · The Verge

Qvabo Studio

Редакция

🆕 VeGAS: новый метод повышения надежности воплощенных AI-агентов

Читать пост полностью

Ещё в ленте

💵 Figma отчиталась за Q1: выручка растёт, но рынок сомневается

❗️CHAL: новая архитектура для дебатов ИИ на основе иерархических агентов

🔨 Настоящие проигравшие в суде Маска против Альтмана

🕶 Graphon AI выходит из тени с $8,3 млн на создание недостающего слоя данных для LLM

🤖 Физический AI выходит на заводы: компании тестируют человекоподобных роботов

Perplexity запускает коннектор к Snowflake для запросов на естественном языке

🤖 Когда ИИ начнёт строить себя сам: стартап Ричарда Сокера на $650 млн

👩‍⚕️ Аудитория Онтарио выявила, что ИИ-секретари врачей выдумывают данные

☁️ Amazon Bedrock AgentCore получил поддержку корпоративных политик Chrome для управления браузером ИИ-агентов

❗️ Неожиданный баг в ClickHouse замедлил биллинг Cloudflare

❓ Готовность данных для агентного ИИ в финансовом секторе