🤗 Hugging Face представил технику асинхронного батчинга для LLM, которая устраняет ключевой недостаток стандартного continuous batching — синхронное ожидание CPU и GPU. В обычном режиме процессор и в

Решение — разделить подготовку батча на CPU и вычисления на GPU, запустив их параллельно. Для этого используются CUDA streams (потоки) и CUDA events (события синхронизации). Потоки позволяют выполнять операции конкурентно, а события — корректно синхронизировать данные без блокировки GPU.

В результате GPU загружен полезной работой 100% времени. Авторы тестировали метод на модели 8B с батч-сайзом 32 и генерацией 8K токенов — прирост производительности значительный. Асинхронный батчинг особенно важен для дорогих ускорителей вроде H200 ($5/час), где каждая секунда простоя — прямые убытки.

Полная версия — в Telegram

Читать пост полностью

~1 мин чтения · @qvabo_studio

В Telegram

Оригинал

Tier-1 пресса

OpenAI · Anthropic · The Verge

Qvabo Studio

Редакция

Читать пост полностью

Ещё в ленте

💵 Figma отчиталась за Q1: выручка растёт, но рынок сомневается

❗️CHAL: новая архитектура для дебатов ИИ на основе иерархических агентов

🔨 Настоящие проигравшие в суде Маска против Альтмана

🕶 Graphon AI выходит из тени с $8,3 млн на создание недостающего слоя данных для LLM

🤖 Физический AI выходит на заводы: компании тестируют человекоподобных роботов

Perplexity запускает коннектор к Snowflake для запросов на естественном языке

🤖 Когда ИИ начнёт строить себя сам: стартап Ричарда Сокера на $650 млн

👩‍⚕️ Аудитория Онтарио выявила, что ИИ-секретари врачей выдумывают данные

☁️ Amazon Bedrock AgentCore получил поддержку корпоративных политик Chrome для управления браузером ИИ-агентов

❗️ Неожиданный баг в ClickHouse замедлил биллинг Cloudflare

❓ Готовность данных для агентного ИИ в финансовом секторе

🏬 Cisco сокращает почти 4 000 сотрудников ради инвестиций в AI, отчитываясь о «рекордной квартальной выручке»