– Проблема:

Йоруба или, точнее, «Эде Йоруба» — это основной разговорный язык, принадлежащий племени йоруба в Нигерии, на котором говорят более 45 миллионов человек во всем мире.

О важности решения этой проблемы свидетельствует приведенный ниже анализ 👇🏽

«Йоруба — это тональный язык. Диакритические знаки используются для обозначения тона гласного. Точечный акцент ниже также используется, вместо вертикальной линии ниже, для обозначения открытых вариантов гласных, а именно ẹ и ọ для [ɛ] и [ɔ]; или ниже s, чтобы расшифровать [ʃ], постальвеолярный согласный, как sh в английском языке».

Ниже приведены некоторые буквы йоруба с различными тональными знаками:

a => (á à ā)

e => (é è ē ẹ/e̩ ẹ́/é̩ ẹ̀/è̩ ẹ̄/ē̩

i => (í ì ī)

o => (ó ò ō ọ/o̩ ọ́/ó̩ ọ̀/ò̩ ọ̄/ō̩)

s => (ṣ s)

u => (ú ù ū)

Использование этих букв взаимозаменяемо придает словам разные значения, поскольку они произносятся по-разному.

Например :

А) оро = оро

Как в «oh-row» (или «жало» в переводе на английский язык)

Б)оро = ọ̀rọ̀

Как в «aw-raw» (ọ̀rọ̀ — это «текст» или «слово» в переводе на английский язык)

C) ojo = ojò

Как в «oh-joe» (òjò означает «дождь» в переводе на английский язык)

D) ojo = ọjọ́

Как в слове «ор-челюсть» (ọjọ́ в переводе на английский означает «день»)

Это здорово, верно?

К сожалению, есть проблема, и это может быть легко произнести (хотя и не очень для новичков), но когда дело доходит до написания или набора текста на языке «йоруба», мы часто игнорируем «ТОНАЛЬНЫЕ ЗНАКИ», и вот почему.

1 — Мы не знаем соответствующий тональный знак для каждого слова (даже если мы знаем, как его произносить)

2 — Некоторые люди просто ленятся ставить «МЕТКИ ТОНА», потому что им требуется довольно много времени, чтобы обработать тона и добавить «МЕТКИ ТОНА».

– Решение:

После того, как эта проблема была определена, мы с коллегой провели мозговой штурм и исследовали способы решения этой проблемы, и успешно сделали это с помощью ИИ. восстановить «ТОНОВЫЕ ЗНАКИ» в текстах йоруба (диакритические знаки).

Ниже приведены некоторые из шагов, которые мы предприняли для решения проблемы:

- Во-первых, был получен набор данных на основе йоруба.

- Далее набор данных был очищен, путем удаления иностранных слов, знаков препинания, цифр и так далее, что очень помогло машине в понимании настоящих текстов йоруба, так как вышеупомянутые переменные выступали бы как выбросы, тем самым снижая точность машины и не позволяя ему обобщаться.

- Затем был написан скрипт на Python для автоматизации удаления «ТОНАЛЬНЫХ ЗНАКОВ» (диакритических знаков) из слов йоруба и добавления этих слов в пользовательский набор данных, что позволило нам добавить удаленные тексты в виде строк в «функции». столбец, в то время как неразрезанные тексты были вставлены в столбец «метки»

- Затем строки в столбце «функция» были дополнительно проанализированы, и слова были расположены по три в строке, чтобы помочь машине лучше понять взаимосвязь слов и предотвратить «недостаточное приспособление», поскольку длинные предложения препятствовали бы способности машины. обобщать.

- Затем в каждую строку столбца «метки» были добавлены индикаторы «Начало» и «Конец», включающие триграммы, которые мы создали выше, так как это поможет машине кодировать и декодировать тексты.

- Затем была построена искусственная нейронная сеть для создания последовательностей, кодирования и декодирования обработанных текстов, и в конечном итоге модель была оценена.

- Заключение

Этот процесс в целом помог машине понять взаимосвязь между буквами с диакритическими знаками и обычным английским алфавитом, следовательно, она смогла автоматически и точно восстановить «ОТМЕТКИ ТОНА» в текстах йоруба.

Мы действительно надеемся, что это поможет нашей культуре во многих отношениях.

В будущем мы планируем создать модель Transformer для восстановления диакритических знаков в текстах йоруба в качестве усовершенствования нашей модели.

Спасибо, что прочитали.

Ваше здоровье.

Ниже приведена ссылка на проект в моем репозитории Github.

https://github.com/Crinmatic/Diacritic-Restoration