Український стартап навчає ШІ розпізнавати Кримськотатарську мову: у чому рішення
Для того, щоб штучний інтелект заговорив не лише українською, а і кримськотатарською, український стартап Respeecher ініціював проєкт зі збору голосів носіїв кримськотатарської мови.
У чому проблема?
ЮНЕСКО зараховує кримськотатарську мову до числа тих, що потребують захисту, адже вона є мовою одного з корінних народів України, який зазнає утисків і репресій у тимчасово окупованому росією Криму.
Яке рішення?
В Україні для збереження кримськотатарської мови цьогоріч створили спеціальну комісію, яка має сприяти збереженню національної культури, традицій, звичаїв та історичної пам'яті кримськотатарського народу, популяризувати кримськотатарську серед молоді та підіймати її престиж.
Та долею кримськотатарської мови переймається не тільки українська влада.
Так, український стартап Respeecher ініціював надзвичайно важливий проєкт із популяризації кримськотатарської мови. Про це повідомляє Представництво Президента України в АР Крим у Facebook.
Проєкт має прискорити появу кримськотатарської мови в багатьох звичних сервісах: помічниках у телефонах, чат-ботах і автоматичних перекладачах.
Український стартап тренує нейромережу розпізнавати кримськотатарську мову: як працює це рішення
Як це працює?
Український ШІ-стартап Respeecher займається синтезуванням голосів у Голівуді. Раніше команда завдяки штучному інтелекту створила синтезовані голоси для Дарта Вейдера, Люка Скайвокера та гри God of War Ragnarok.
У новому проєкті стартап вирішив навчити популярну нейромережу кримськотатарській мові. Мета цієї волонтерської ініціативи — допомогти покращити ситуацію з кримськотатарською мовою, сприяти її популяризації.
Аби натренувати безкоштовну нейромережу для розпізнавання, потрібно зібрати 1000 годин із записами кримськотатарської мови. Носіїв мови просять надсилати аудіо, зроблені на диктофон навіть у домашніх умовах. Чим більше відмінних акцентів і тональностей голосів модель ШІ проаналізує, тим точнішим буде результат розпізнавання мови.
Найкраще для аналізу підійдуть аудіозаписи кримськотатарської літературної мови, зроблені у тихій кімнаті з мінімально можливою кількістю фонових шумів (таких як голоси інших людей, шум автомобілів, звук кондиціонера чи холодильника, тощо). Бажано робити записи на хороший мікрофон, втім навіть зроблені на iphone аудіозаписи також підійдуть. Головне, щоб тривалість аудіо була від 30 хвилин до години.
"У нашому проєкті ми хочемо зробити акцент на розмаїтті голосів та кількості годин — це порядку 1000 годин кримськотатарської мови голосами носіїв. На жаль, цією мовою поки досить мало чистого та якісного аудіо. Такий датасет допоможе в навчанні і покращенні розпізнавання мови та інших цікавих алгоритмів і звісно ж збільшить кількість добра у всесвіті", — впевнені у компанії.
Стартап, який у своїй роботі дотримується етичних стандартів співпраці, запевняє, що жодні дані конкретних осіб не будуть зберігатись і без дозволу носія команда ніколи не відтворюватиме і не синтезуватиме чужі голоси. Усі надіслані дані будуть використані лише в цілях навчання нейромережі та для аналізу кримськотатарської мови в цілому та її кращого розпізнавання.
Наразі команді Respeecher вдалось зібрати 100 годин аудіозаписів кримськотатарською. Потрібні ще 900. Частину записів зробили у студії стартапу, дехто надсилав аудіо, записані на диктофон.
"На жаль, поки лише 39 осіб зробили такі записи. Річ у тім, що аудіо менші, ніж 30 хвилин чи ті, які мають діалоги або шуми/музику на фоні — не підійдуть. AI модель може натренуватись лише на триваліших аудіо, які зроблені у тиші. Втім, якщо на звичайний диктофон телефону емоційно начитати улюблену книгу кримськотатарською, впродовж 40 хвилин у відносно тихій кімнаті без відлуння — це вже буде неоціненним внеском у проєкт популяризації кримськотатарської мови", — говорить технічний директор, співзасновник Respeecher Дмитро Бєлєвцов.
Команда Respeecher уже навчила цю нейромережу розпізнавати українську мову. Цим ресурсом можуть скористатись, як поодинокі розробники і науковці, щоб покращити аудіо сприйняття української мови у своєму продукті, так і великі корпорації, на кшталт, Facebook, Google чи помічники, на кшталт, Siri. В цілому, для того щоб створити помічника у нішевій індустрії, наприклад у аграрному секторі, компаніям не треба буде витрачати десятки тисяч доларів на збір великої кількості спеціалізованих даних та на тренування самої мережі — вони можуть стартувати з вищої точки і створювати технології на базі розпізнавання мови суттєво швидше і дешевше ніж "з нуля".
"Процес збору та аналізу інформації є доволі часозатратний: може зайняти багато місяців. Втім, наша команда хоче, щоб цей ресурс був безкоштовними і доступним у відкритих джерелах. Віримо, що це допоможе у популяризації використання, як української, так і кримськотатарської мови", — говорить СЕO та співзасновник Respeecher Дмитро Бєлєвцов.
Надсилати записи мови або ж на лінки на записи ініціатори проєкту закликають через цю форму.
Ще більше корисних рішень!
Громадська організація QIRI'M Young, яка в межах реалізації Стратегії розвитку кримськотатарської мови на 2022–2032 роки реалізує проєкт "Національний корпус кримськотатарської мови", також взяла участь у проєкті компанії Respeecher.
"Візія команди НККМ полягає у якнайшвидшій цифровізації кримськотатарської мови, тобто запровадження її в найпоширеніших операційних, пошукових системах тощо. Наша команда формує текстову базу для дослідження мови — Національний корпус кримськотатарської мови, який може навчити ШІ «розуміти» кримськотатарські тексти, Respeecher — аудіо базу, яка навчить ШІ озвучити ці тексти. Саме тому ми радо долучилися до збору матеріалів для проєкту Respeecher, надавши близько 10 годин аудіозаписів, — коментують у громадській організації, — Вважаємо цю ініціативу дуже важливою. Проєкти з популяризації, розширення сфер застосування кримськотатарської мови є вкрай необхідними та актуальними. Зичимо колегам успіху і з нетерпінням чекаємо результатів розробки!".
Нагадаємо, в Україні створили кримськотатарське видавництво — Kitap Qalesi, яке у перекладі з кримськотатарської означає "Книжкова фортеця".