НАҚТЫ УАҚЫТТАҒЫ ДАУЫСТЫҚ КӨМЕКШІЛЕРГЕ АРНАЛҒАН ТӨМЕН КІДІРІСТІ АҒЫНДЫҚ ТРАНСФОРМАТОР МОДЕЛІ
DOI:
https://doi.org/10.55956/KLLF9699Тірек сөздер:
төмен кідірістегі ASR, нақты уақыттағы дауыстық көмекші, кішкентай сыбырлау, ағындық трансформатор, қазақша дауыстық көмекші, Vosk, Gemini AI, JARVISАңдатпа
Бұл мақалада нақты уақыттағы дауыстық көмекшілерге арналған төмен кідірістегі автоматты сөйлеуді тану ASR (Automatic Speech Recognition), жүйелерін, атап айтқанда қазақ тілі сияқты ресурсы төмен тілдерге арналған дауыстық көмекші (JARVIS) зерттеледі. Tiny Whisper және Streaming Transformer моделдері олардың төмен есептеу құны мен жоғары дәлдігі үшін бағаланып, AlphaCephei платформасының Vosk моделі мен Google компаниясының Gemini AI технологиясымен жұмыс істейтін қазақ дауыстық көмекшісінің өнімділігі талданды. Зерттеуде LibriSpeech, Common Voice және арнайы жиналған 200 сағаттық қазақ тіліндегі сөйлеу деректер жинағы пайдаланылды. Тәжірибелер Tiny Whisper шеткі құрылғыларда тиімді екенін, Streaming Transformer ағынға негізделген сценарийлерде аз кідірісті қамтамасыз ететінін және қазақша дауыс көмекшісі (JARVIS) цифрлық ортада тілдің қолжетімділігін арттыратынын көрсетеді. Ұсынылған гибридті модель нақты уақыттағы қолданбаларда жоғары дәлдік пен төмен кідіріс беру үшін осы технологиялардың күшті жақтарын біріктіреді. JARVIS браузерді іске қосу, дыбыс деңгейін және жарықтығын бақылау сияқты жүйелік тапсырмаларды орындайды және Gemini AI интеграциясы арқылы онлайн ақпаратты іздеуді қолдайды. Бұл зерттеуде кідірісі төмен ASR жүйелерінің практикалық қолданылуы және қазақ тілі сияқты ресурсы аз тілдердің технологиялық дамуы көрсетілген.

