МОДЕЛЬ ТРАНСФОРМАТОРА ПОТОКА С НИЗКОЙ ЗАДЕРЖКОЙ ДЛЯ ГОЛОСОВЫХ ПОМОЩНИКОВ В РЕАЛЬНОМ ВРЕМЕНИ

МОДЕЛЬ ТРАНСФОРМАТОРА ПОТОКА С НИЗКОЙ ЗАДЕРЖКОЙ ДЛЯ ГОЛОСОВЫХ ПОМОЩНИКОВ В РЕАЛЬНОМ ВРЕМЕНИ

Авторы

  • Н.М. Жунисов Международный казахско-турецкий университет им. Ходжи Ахмеда Ясави, Туркестан, Казахстан
  • А.Б. Абен Международный казахско-турецкий университет им. Ходжи Ахмеда Ясави, Туркестан, Казахстан
  • М. Хиниязов Международный казахско-турецкий университет им. Ходжи Ахмеда Ясави, Туркестан, Казахстан

DOI:

https://doi.org/10.55956/KLLF9699

Ключевые слова:

распознавание речи с малой задержкой, голосовой помощник в реальном времени, тихий шёпот, преобразователь потоков, казахский голосовой помощник, Vosk, Gemini AI, JARVIS

Аннотация

В данной статье исследуются системы автоматического распознавания речи (ASR) с малой задержкой для голосовых помощников в реальном времени, в частности, голосового помощника для языков с ограниченными ресурсами (JARVIS). Модели Tiny Whisper и Streaming Transformer оцениваются на предмет их низкой вычислительной стоимости и высокой точности, а также анализируется производительность казахского голосового помощника, работающего на основе модели Vosk от AlphaCephei и технологии искусственного интеллекта Gemini от Google. В исследовании используются LibriSpeech, Common Voice и специально собранный 200-часовой набор данных казахской речи. Эксперименты показывают, что Tiny Whisper эффективен на периферийных устройствах, Streaming Transformer обеспечивает низкую задержку в сценариях, основанных на потоковой передаче, а казахский голосовой помощник (JARVIS) повышает доступность языка в цифровых средах. Предлагаемая гибридная модель объединяет сильные стороны этих технологий для обеспечения высокой точности и низкой задержки в приложениях реального времени. JARVIS выполняет такие системные задачи, как запуск браузера, управление громкостью и яркостью, а также поддерживает онлайн-поиск информации благодаря интеграции с Gemini AI. Данное исследование демонстрирует практическое применение систем распознавания речи с малой задержкой и технологическое развитие языков с ограниченными ресурсами, таких как казахский.

Опубликована онлайн

2025-12-30

Выпуск

Раздел

Информационно-коммуникационные технологии
Loading...