Китайский техгигант Alibaba Cloud выпустил мультимодальную ИИ-модель Qwen2.5-Omni-7B, способную обрабатывать текст, изображения, аудио, видео, а также генерировать текстовые и голосовые ответы в реальном времени. Нейросеть обладает 7 млрд параметров. По словам представителей компании, ее можно запустить на периферийных устройствах вроде телефонов и ноутбуков без потери эффективности и производительности. «Это уникальное сочетание делает модель идеальной основой для разработки гибких, экономически эффективных ИИ-агентов, которые приносят ощутимую пользу, особенно интеллектуальные голосовые приложения», — говорится в объявлении. В качестве примера вариантов применения Qwen2.5-Omni-7B компания привела улучшение жизни слабовидящих людей. С помощью нее они могут лучше ориентироваться в окружающей среде. Так, модель способна проанализировать доступные ингредиенты по видео и предложить пошаговое руководство по приготовлению пищи. «Qwen2.5-Omni-7B обеспечивает поразительную производительность во всех модальностях, конкурируя со специализированными моделями сопоставимого размера», — подчеркнула компания. Инновационность объясняется новой архитектурой и высококачественным набором данных, которые применялись для обучения. Сравнение производительности Qwen2.5-Omni-7B с конкурентами. Данные: Alibaba Cloud. Модель имеет открытый исходный код и доступна на Hugging Face, GitHub, ModelScope и Qwen Chat. Напомним, в марте Alibaba представила ориентированную на рассуждения ИИ-модель QwQ-32. В январе китайский техгигант анонсировал Qwen 2.5-Max, которая якобы мощнее DeepSeek-V3.