МОДЕЛЬ ТРАНСФОРМАТОРА ПОТОКА С НИЗКОЙ ЗАДЕРЖКОЙ ДЛЯ ГОЛОСОВЫХ ПОМОЩНИКОВ В РЕАЛЬНОМ ВРЕМЕНИ
DOI:
https://doi.org/10.55956/KLLF9699Ключевые слова:
распознавание речи с малой задержкой, голосовой помощник в реальном времени, тихий шёпот, преобразователь потоков, казахский голосовой помощник, Vosk, Gemini AI, JARVISАннотация
В данной статье исследуются системы автоматического распознавания речи (ASR) с малой задержкой для голосовых помощников в реальном времени, в частности, голосового помощника для языков с ограниченными ресурсами (JARVIS). Модели Tiny Whisper и Streaming Transformer оцениваются на предмет их низкой вычислительной стоимости и высокой точности, а также анализируется производительность казахского голосового помощника, работающего на основе модели Vosk от AlphaCephei и технологии искусственного интеллекта Gemini от Google. В исследовании используются LibriSpeech, Common Voice и специально собранный 200-часовой набор данных казахской речи. Эксперименты показывают, что Tiny Whisper эффективен на периферийных устройствах, Streaming Transformer обеспечивает низкую задержку в сценариях, основанных на потоковой передаче, а казахский голосовой помощник (JARVIS) повышает доступность языка в цифровых средах. Предлагаемая гибридная модель объединяет сильные стороны этих технологий для обеспечения высокой точности и низкой задержки в приложениях реального времени. JARVIS выполняет такие системные задачи, как запуск браузера, управление громкостью и яркостью, а также поддерживает онлайн-поиск информации благодаря интеграции с Gemini AI. Данное исследование демонстрирует практическое применение систем распознавания речи с малой задержкой и технологическое развитие языков с ограниченными ресурсами, таких как казахский.
Загрузки
Опубликована онлайн
Выпуск
Раздел
Лицензия
Copyright (c) 2025

Это произведение доступно по лицензии Creative Commons «Attribution-NonCommercial» («Атрибуция — Некоммерческое использование») 4.0 Всемирная.
