НАҚТЫ УАҚЫТТАҒЫ ДАУЫСТЫҚ КӨМЕКШІЛЕРГЕ АРНАЛҒАН ТӨМЕН КІДІРІСТІ АҒЫНДЫҚ ТРАНСФОРМАТОР МОДЕЛІ

Нурсейт Жунисов; А.Б.  Абен; М.  Хиниязов

doi:10.55956/KLLF9699

Авторы

Н.М. Жунисов Международный казахско-турецкий университет им. Ходжи Ахмеда Ясави, Туркестан, Казахстан
А.Б. Абен Международный казахско-турецкий университет им. Ходжи Ахмеда Ясави, Туркестан, Казахстан
М. Хиниязов Международный казахско-турецкий университет им. Ходжи Ахмеда Ясави, Туркестан, Казахстан

DOI:

https://doi.org/10.55956/KLLF9699

Ключевые слова:

распознавание речи с малой задержкой, голосовой помощник в реальном времени, тихий шёпот, преобразователь потоков, казахский голосовой помощник, Vosk, Gemini AI, JARVIS

Аннотация

В данной статье исследуются системы автоматического распознавания речи (ASR) с малой задержкой для голосовых помощников в реальном времени, в частности, голосового помощника для языков с ограниченными ресурсами (JARVIS). Модели Tiny Whisper и Streaming Transformer оцениваются на предмет их низкой вычислительной стоимости и высокой точности, а также анализируется производительность казахского голосового помощника, работающего на основе модели Vosk от AlphaCephei и технологии искусственного интеллекта Gemini от Google. В исследовании используются LibriSpeech, Common Voice и специально собранный 200-часовой набор данных казахской речи. Эксперименты показывают, что Tiny Whisper эффективен на периферийных устройствах, Streaming Transformer обеспечивает низкую задержку в сценариях, основанных на потоковой передаче, а казахский голосовой помощник (JARVIS) повышает доступность языка в цифровых средах. Предлагаемая гибридная модель объединяет сильные стороны этих технологий для обеспечения высокой точности и низкой задержки в приложениях реального времени. JARVIS выполняет такие системные задачи, как запуск браузера, управление громкостью и яркостью, а также поддерживает онлайн-поиск информации благодаря интеграции с Gemini AI. Данное исследование демонстрирует практическое применение систем распознавания речи с малой задержкой и технологическое развитие языков с ограниченными ресурсами, таких как казахский.

МОДЕЛЬ ТРАНСФОРМАТОРА ПОТОКА С НИЗКОЙ ЗАДЕРЖКОЙ ДЛЯ ГОЛОСОВЫХ ПОМОЩНИКОВ В РЕАЛЬНОМ ВРЕМЕНИ

МОДЕЛЬ ТРАНСФОРМАТОРА ПОТОКА С НИЗКОЙ ЗАДЕРЖКОЙ ДЛЯ ГОЛОСОВЫХ ПОМОЩНИКОВ В РЕАЛЬНОМ ВРЕМЕНИ

Авторы

DOI:

Ключевые слова:

Аннотация

Загрузки

Опубликована онлайн

Выпуск

Раздел

Лицензия

Образец оформления статьи