Систему распознавания казахской речи разработал отечественный ученый

Казахстанский ученый разработал систему распознавания речи на казахском языке, которая превращает голосовые сообщения в текст. Разработкой уже заинтересовалась крупная международная компания, передает «Хабар 24».

Стоп-кадр из видео

Так работает система распознавания казахской речи. Искусственный интеллект считывает звуки и затем преобразует их в печатный текст. Ее автор Оркен Мамырбаев долго вынашивал идею создания полезного сервиса – еще со времен учебы в докторантуре. В создании языковой базы ему помогли филологи.

«Самая большая проблема при разработке системы – это разработка речевого корпуса данных. Если мы данных больше можем собрать, тогда у нас нейросеть обучается и может распознавать любые слова. Если корпус маленький, тогда он некоторые слова не может распознавать. Когда мы все соединили и разработали, у нас получилось 2 тыс часов речевой записи. Когда обучили, у нас 80% точности распознавал. Если мы разработаем около 5 тыс часов, тогда он может дать 90%», ― говорит зам. гендиректора Института информационных и вычислительных технологий КН МОН РК Оркен Мамырбаев

Сейчас система работает как чат-бот в социальной сети Telegram. Чтобы ее протестировать, достаточно нажать и удерживать кнопку записи голосового сообщении

После бот автоматически превратит речь в текст. Для удобства авторы создали диктофон, который можно использовать во время деловых совещаний, по их завершении система выдаст текстовый протокол на казахском языке. Разработкой уже заинтересовалась крупная международная компания, производящая бытовую электронику и медоборудование. Она планирует встроить систему в один из своих продуктов для казахстанского рынка.

«Данный проект реализовался в рамках грантового финансирования на 2018-2020 годы. Тема проекта: разработка технологии мультиязычного автоматического распознавания речи с использованием глубоких нейронных сетей. Так как проект прикладного характера, на сегодняшний день мы уже видим результаты, плоды этого проекта: распознавание речи на казахском языке. Общая сумма проекта составляла 54 млн тенге. Это на три года», ― считает руководитель Управления научных проектов КН МОН РК Серик Азамбаев.

В прошлом году Оркен Мамырбаев и его команда получили грант на другой IT-проект. Ученые уже работают над созданием системы автоматического поиска и анализа противоправного веб-контента.