fbpx
Сегодня
Эксклюзив 15:58 05 Сен 2023

Украинский стартап учит ИИ распознавать крымскотатарский язык: в чем решение

English version here

Для того, чтобы искусственный интеллект заговорил не только на украинском, но и на крымскотатарском, украинский стартап Respeecher инициировал проект по сбору голосов носителей крымскотатарского языка.

В чем проблема?

ЮНЕСКО причисляет крымскотатарский язык к числу нуждающихся в защите, ведь он является языком одного из коренных народов Украины, который подвергается притеснениям и репрессиям во временно оккупированном россией Крыму.

Какое решение?

В Украине для сохранения крымскотатарского языка в этом году создали специальный комиссию, которая должна способствовать сохранению национальной культуры, традиций, обычаев и исторической памяти крымскотатарского народа, популяризировать крымскотатарскую среди молодежи и поднимать ее престиж.

Да судьбы крымскотатарского языка переживает не только украинская власть.

Да, украинский стартап Respeecher инициировал чрезвычайно важный проект по популяризации крымскотатарского языка. Об этом Представительство Президента Украины в АР Крым в Facebook.

Проект должен ускорить появление крымскотатарского языка во многих привычных сервисах: помощниках в телефонах, чат-ботах и автоматических переводчиках.

Как это работает?

Украинский ИИ-стартап Respeecher занимается синтезированием голосов в Голливуде. Ранее команда благодаря искусственному интеллекту создала синтезированные голоса для Дарта Вейдера, Люка Скайвокера и игры God of War Ragnarok.

В новом проекте стартап решил научить популярную нейросеть крымскотатарскому языку. Цель этой волонтерской инициативы — помочь улучшить ситуацию с крымскотатарским языком, способствовать его популяризации.

Чтобы натренировать бесплатную нейросеть для распознавания, нужно собрать 1000 часов с записями крымскотатарского языка. Носителей языка просят посылать аудио, сделанные на диктофон даже в домашних условиях. Чем больше отличных акцентов и тональностей голосов модель ИИ проанализирует, тем точнее будет результат распознавания речи.

Лучше всего для анализа подойдут аудиозаписи крымскотатарского литературного языка, сделанные в тихой комнате с минимально возможным количеством фоновых шумов (таких как голоса других людей, шум автомобилей, звук кондиционера или холодильника и т.д.). Желательно делать записи на хороший микрофон, впрочем, даже сделанные на iPhone аудиозаписи также подойдут. Главное, чтобы продолжительность аудио была от 30 минут до часа

«В нашем проекте мы хотим сделать акцент на разнообразии голосов и количества часов — это порядка 1000 часов крымскотатарского языка голосами носителей. К сожалению, на этом языке пока достаточно мало чистого и качественного аудио. Такой датасет поможет в обучении и улучшении распознавания языка и других интересных алгоритмов и, конечно же, увеличит количество добра во вселенной», — уверены в компании.

Стартап, который в своей работе придерживается этических стандартов сотрудничества, уверяет, что никакие данные конкретных лиц не будут храниться и без разрешения носителя команда никогда не воспроизводится и не будет синтезировать чужие голоса. Все присланные данные будут использованы только в целях обучения нейросети и для анализа крымскотатарского языка в целом и его лучшего распознавания.

Пока команде Respeecher удалось собрать 100 часов аудиозаписей на крымскотатарском. Нужны еще 900. Часть записей сделали в студии стартапа, некоторые присылали аудио, записанные на диктофон.

«К сожалению, пока только 39 человек сделали такие записи Дело в том, что аудио меньше 30 минут или имеющие диалоги или шумы/музыку на фоне — не подойдут AI модель может натренироваться только на более продолжительных аудио, которые сделаны в тишине Впрочем, если на обычный диктофон телефона эмоционально начитать любимую книгу на крымскотатарском, в течение 40 минут в относительно тихой комнате бех эха — это уже будет неоценимым вкладом в проект популяризации крымскотатарского языка«, — говорит технический директор, соучредитель Respeecher Дмитрий Белевцов.

Команда Respeecher уже научила эту нейрометь распознавать украинский язык. Этим ресурсом могут воспользоваться, как одиночные разработчики и ученые, чтобы улучшить аудио восприятие украинского языка в своем продукте, так и крупные корпорации, вроде, Facebook, Google или помощники, вроде Siri. В целом, чтобы создать помощника в нишевой индустрии, например в аграрном секторе, компаниям не нужно будет тратить десятки тысяч долларов на сбор большого количества специализированных данных и на тренировку самой сети — они могут стартовать с высшей точки и создавать технологии на базе распознавания языка существенно быстрее и дешевле чем «с нуля».

«Процесс сбора и анализа информации достаточно затратный: может занять много месяцев. Впрочем, наша команда хочет, чтобы этот ресурс был бесплатным и доступным в открытых источниках . Верим, что это поможет в популяризации использования, как украинского, так и крымскотатарского языка», — говорит СЕО и соучредитель Respeecher Дмитрий Белевцов.

Отправлять записи языка или же на ссылки на записи инициаторы проекта призывают через эту форму.

Еще больше полезных решений!

Общественная организация QIRI'M Young, которая в рамках реализации Стратегии развития крымскотатарского языка на 2022-2032 годы реализует проект «Национальный корпус крымскотатарского языка», также приняла участие в проекте компании Respeecher.

«Визия команды НККМ заключается в скорейшей цифровизации крымскотатарского языка, то есть внедрение его в наиболее распространенных операционных, поисковых системах и т.д. Наша команда формирует текстовую базу для исследования языка – Национальный корпус крымскотатарского языка, который может научить ИИ «понимать» крымскотатарские тексты, Respeecher – аудио базу, которая научит ИИ озвучить эти тексты. Именно поэтому мы с радостью присоединились к сбору материалов для проекта Respeecher, предоставив около 10 часов аудиозаписей, — комментируют в общественной организации, — Считаем эту инициативу очень важной. Проекты по популяризации, расширению сфер применения крымскотатарского языка крайне необходимы и актуальны. Желаем коллегам успеха и с нетерпением ждем результатов разработки!".

Напомним, в Украине создали крымскотатарское издательство — Kitap Qalesi, которое в переводе с крымскотатарского означает «Книжная крепость».

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter.

Загрузить еще

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: