Россия / 09 февраль 2021

Алиса по-марийски: В Марий Эл работают над синтезатором коренного языка

Алиса по-марийски: В Марий Эл работают над синтезатором коренного языка

Жители Республики Марий Эл смогут установить на свои гаджеты голосовые помощники на марийском языке.

На данный момент искусственный интеллект прочно вошёл в жизнь человека, помогая в решении большого количества задач.

Одно из наиболее перспективных направлений машинного разума, который приближает будущее из футуристических фильмов, являются нейронные сети. Уже сейчас они активно применяются в таких сферах, как бизнес, маркетинг, безопасность, развлечения и в ряде других.

Сегодня в Республике Марий Эл специалисты занимаются исследованиями в данной области.

О развитии национального языка в эпоху нейросетевых моделей корреспондент РИА SM-News поговорила с сотрудником Марийского научно-исследовательского института языка, литературы и истории имени Васильева Андреем Чемышевым.

РИА SM-News / Елена Яшметова

Марийцы против Билла Гейтса

Интеграция марийского языка в современные технологии началась ещё 13 лет назад. Всё началось с того, что в операционной системе Windows не хватало букв марийского алфавита.

В 2005 году в Йошкар-Оле создавалось «Марий Эл Радио». Через некоторое время стало понятно, что марийский язык не функционирует в суфлерах. Впрочем, на этом проблемы не закончились.

«Я решил разработать сайт на марийском языке, используя самодельный шрифт. В тот момент казалось, что он должен отображаться, но потом появились критические отзывы от марийцев из Эстонии.

Тогда выяснилось, что написанный текст не отображался у тех, кто пользовался стандартным пакетом Windows. В конце 2007 года – в начале 2008 года я написал открытое письмо одному из создателей Microsoft Биллу Гейтсу», — вспоминает Андрей Чемышев.

Pr Scr youtube.com — ТВ МЭТР

На эту тему обратили внимание федеральные СМИ. Одной из причин интереса журналистов являлось то, что в это же время вожди племени мапуче обвинили Гейтса в осквернении культурного наследия, потому что программное обеспечение перевели на их язык без разрешения.

После освещения проблемы в масс-медиа с марийским специалистом начали связываться эксперты, занимающиеся проблемой функционирования языков. Благодаря им Чемышев погрузился в такие направления, как система проверки правописания, автоматический перевод и другие.

vashavizitka.com.ua

Язык в Интернете

В 2011 году Совет Европы и Министерство регионального развития России выделили грант в размере 30 тысяч евро. Одну часть средств направили на разработки, а другую – на организацию конференции по проблемам малых языков.

Именно тогда учёные из Марий Эл составили список задач для того, чтобы тот или иной диалект был представлен в Сети.

«Во-первых, разработка шрифтов и раскладки клавиатуры. Во-вторых, создание системы проверки правописания. В-третьих, подготовка электронных словарей в онлайн- и оффлайн-режимах.

В-четвёртых, разработка автоматических переводчиков. В-пятых, создание поисковых систем, учитывающих особенности языка», — отмечает сотрудник МарНИИЯЛИ.

На протяжении 10 лет Андрей Чемышев выполнял одно задание за другим. Впрочем, ему пришлось начать с активной деятельности не в родной Марий Эл, а в Сыктывкаре.

pixabay.com

IT-технологии в языкознании

Через почти пять лет работы в Коми исследователь вернулся на малую Родину. При возвращении в Марий Эл у него возникла идея договориться с «Яндексом» о включении марийского языка в сервис «Яндекс.Переводчик».

По словам специалиста, они за полгода подготовили около 250 тысяч предложений на марийском и русском языках. Он признаётся, что это очень мало для автоматического переводчика.

«В Яндексе и в Google для идеального перевода англо-русская пара составляет миллион предложений. Тогда сервис работает довольно прилично. Если базу параллельных текстов мы догоним до этого показателя, то мы сможем создать собственный переводчик», — добавляет Андрей Чемышев.

Лингвист уточняет, что затем можно запустить нейросеть для обучения.

РИА SM-News / Елена Яшметова

Корпус родного языка

К 100-летию республики марийские эксперты решили подготовить особенный проект – это национальный корпус марийского языка. С 2018 года по 2020 год они сумели собрать 20 миллионов словоупотреблений.

Таких внушительных успехов удалось достичь при помощи книжного сканера ЭЛАР A2-600, стоимость которого составила более 1 миллиона рублей. После сканирования лингвисты приступили к вычитке и корректировке текстов.

«Это минимальный объём корпуса. Такое количество слов позволяет представить язык не однобоко, т.е. более ярко. В нём представлены тексты разнообразных жанров: поэзия, проза, фольклор, публицистика…», — рассказывает сотрудник МарНИИЯЛИ.

marpravda.ru

«Алиса» на марийском языке

Проект «Синтезатор марийской речи» реализуется благодаря средствам Федеральной национально-культурной автономии марийцев России.

При помощи такого современного инструмента будут озвучиваться тексты новостных порталов. В свою очередь, дети, молодёжь и люди с ограниченными возможностями здоровья смогут изучать родной язык коренных жителей Марий Эл.

Чтобы пополнить аудиокорпус, артисты из республики озвучили книги марийских авторов и переведённые произведения, в том числе Библию.

«Данные аудиоматериалы также стали аудиокнигами на марийском языке. Летом 2020 года появился первый в мире подкаст «Марий йогын» («Марийский поток»). Они доступны в «Яндекс.Музыке», «Apple Podcasts» и «Castbox»», — объясняет эксперт.

marpravda.ru

По информации специалиста, на сегодняшний день в аудиокорпусе насчитывается 14,5 часов записи голоса артиста Марийского национального театра драмы имени Шкетана Павла Ефимова.

При этом планируется записать базу из 20 часов аудио. Как разъясняет Андрей Чемышев, есть два файла: звук и текст.

В свою очередь, в будущем это станет основой для обучения нейросети марийскому языку. После этого сотрудники МарНИИЯЛИ смогут приступить к разработке аналога помощника «Алиса» на марийском языке.

«На данный момент мы смонтировали сервер с хорошей видеокартой. На нём мы развернули нейросеть, но обучение ещё не начали», — уточняет Чемышев.

kidsher.ru

Telegram заговорил по-марийски

Сегодня родной язык коренного народа Марий Эл активно внедряется во Всемирную паутину.

В начале 2021 года лингвисты перевели интерфейс одного из самых популярных мессенджеров — Telegram. Теперь пользователи, которые владеют родным языком коренных жителей Марийского края, могут использовать марийский язык на любом устройстве, где есть данное приложение.

Причём работа по переводу программы прошла в достаточно короткие сроки. Так, к ней приступили в конце прошлого года.

«Перевод интерфейса Telegram занял один месяц», — говорит Андрей Чемышев.

Посмотреть эту публикацию в Instagram

Публикация от ЛЮБОВЬ ТКАЧЕНКО (@lybatka)


Кстати, ещё осенью 2020 года в мессенджере можно было добавить стикеры с самобытным колоритом, а точнее с горномарийским. Их автором стала художница из Козьмодемьянска Любовь Ткаченко.

В конце прошлого месяца в приложении появился луговомарийский «пакет эмоций».

Чтобы прямо сейчас установить марийский язык в Telegram, для этого следует пройти по следующей ссылке и выбрать соответствующий язык.



Источник
Loading...
Комментарии к новости
Добавить комментарий
Добавить свой комментарий:
Ваше Имя:
Ваш E-Mail:
Это код:
Кликните на изображение чтобы обновить код, если он неразборчив
Введите сюда:
Экономика Происшествия

«    Июнь 2021    »
ПнВтСрЧтПтСбВс
 123456
78910111213
14151617181920
21222324252627
282930 
х