Французский стартап представил новое семейство моделей для распознавания и перевода речи. Разработчики утверждают, что новинка может приблизить индустрию к «бесшовному» общению между людьми на разных языках.
Французский стартап представил новое семейство моделей для распознавания и перевода речи. Разработчики утверждают, что новинка может приблизить индустрию к «бесшовному» общению между людьми на разных языках.
Компания выпустила две модели — Voxtral Mini Transcribe V2 и Voxtral Realtime. Первая предназначена для пакетной расшифровки аудио, вторая — для почти мгновенной транскрипции с задержкой около 200 миллисекунд. Обе поддерживают перевод на 13 языков, а Voxtral Realtime распространяется по open-source-лицензии.
Компания утверждает, что модели достаточно компактны (около 4 миллиардов параметров), чтобы работать локально на смартфонах и ноутбуках. Это позволяет обрабатывать приватные разговоры без отправки данных в облако. По данным Mistral, решения также дешевле в эксплуатации и реже допускают ошибки по сравнению с альтернативами.
Вице-президент компании Пьер Сток назвал запуск шагом к решению языкового барьера. «Мы строим систему, способную обеспечивать бесшовный перевод. Эта модель закладывает основу для этого. Думаю, проблема будет решена уже в 2026 году», — сказал он.
По словам топ-менеджера, стратегия компании отличается от подхода крупных конкурентов. «Честно говоря, слишком большое количество GPU делает вас ленивыми. Вы просто тестируете все подряд, вместо того чтобы искать кратчайший путь к успеху», — отметил Сток.
Основанная в 2023 году выходцами из Meta и Google DeepMind, Mistral остается одной из немногих европейских компаний, разрабатывающих базовые ИИ-модели, сопоставимые по возможностям с решениями OpenAI, Anthropic и Google. Не имея сопоставимых ресурсов, стартап делает ставку на оптимизацию архитектуры и датасетов, стараясь добиться баланса между ценой и производительностью.
В отличие от американских игроков, инвестирующих сотни миллиардов долларов в универсальные модели, Mistral фокусируется на специализированных решениях, например, для преобразования речи в текст. Такой подход может дать компании нишу на фоне растущего спроса на более дешевые и прикладные ИИ-инструменты.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.
200 миллисекунд это много, вот если до 10 то даааа
Пользователь отредактировал комментарий 6 февраля 2026, 18:16
Там куча языков. Полагаю, что если затюнить под конкретную языковую пару, то можно и 10 мс получить
30-80мс - это нормальный пинг к API. вы же хотите быстрее света чтобы и нейронки работали