– Проблема:
Йоруба или, точнее, «Эде Йоруба» — это основной разговорный язык, принадлежащий племени йоруба в Нигерии, на котором говорят более 45 миллионов человек во всем мире.
О важности решения этой проблемы свидетельствует приведенный ниже анализ 👇🏽
«Йоруба — это тональный язык. Диакритические знаки используются для обозначения тона гласного. Точечный акцент ниже также используется, вместо вертикальной линии ниже, для обозначения открытых вариантов гласных, а именно ẹ и ọ для [ɛ] и [ɔ]; или ниже s, чтобы расшифровать [ʃ], постальвеолярный согласный, как sh в английском языке».
Ниже приведены некоторые буквы йоруба с различными тональными знаками:
a => (á à ā)
e => (é è ē ẹ/e̩ ẹ́/é̩ ẹ̀/è̩ ẹ̄/ē̩
i => (í ì ī)
o => (ó ò ō ọ/o̩ ọ́/ó̩ ọ̀/ò̩ ọ̄/ō̩)
s => (ṣ s)
u => (ú ù ū)
Использование этих букв взаимозаменяемо придает словам разные значения, поскольку они произносятся по-разному.
Например :
А) оро = оро
Как в «oh-row» (или «жало» в переводе на английский язык)
Б)оро = ọ̀rọ̀
Как в «aw-raw» (ọ̀rọ̀ — это «текст» или «слово» в переводе на английский язык)
C) ojo = ojò
Как в «oh-joe» (òjò означает «дождь» в переводе на английский язык)
D) ojo = ọjọ́
Как в слове «ор-челюсть» (ọjọ́ в переводе на английский означает «день»)
Это здорово, верно?
К сожалению, есть проблема, и это может быть легко произнести (хотя и не очень для новичков), но когда дело доходит до написания или набора текста на языке «йоруба», мы часто игнорируем «ТОНАЛЬНЫЕ ЗНАКИ», и вот почему.
1 — Мы не знаем соответствующий тональный знак для каждого слова (даже если мы знаем, как его произносить)
2 — Некоторые люди просто ленятся ставить «МЕТКИ ТОНА», потому что им требуется довольно много времени, чтобы обработать тона и добавить «МЕТКИ ТОНА».
– Решение:
После того, как эта проблема была определена, мы с коллегой провели мозговой штурм и исследовали способы решения этой проблемы, и успешно сделали это с помощью ИИ. восстановить «ТОНОВЫЕ ЗНАКИ» в текстах йоруба (диакритические знаки).
Ниже приведены некоторые из шагов, которые мы предприняли для решения проблемы:
- Во-первых, был получен набор данных на основе йоруба.
- Далее набор данных был очищен, путем удаления иностранных слов, знаков препинания, цифр и так далее, что очень помогло машине в понимании настоящих текстов йоруба, так как вышеупомянутые переменные выступали бы как выбросы, тем самым снижая точность машины и не позволяя ему обобщаться.
- Затем был написан скрипт на Python для автоматизации удаления «ТОНАЛЬНЫХ ЗНАКОВ» (диакритических знаков) из слов йоруба и добавления этих слов в пользовательский набор данных, что позволило нам добавить удаленные тексты в виде строк в «функции». столбец, в то время как неразрезанные тексты были вставлены в столбец «метки»
- Затем строки в столбце «функция» были дополнительно проанализированы, и слова были расположены по три в строке, чтобы помочь машине лучше понять взаимосвязь слов и предотвратить «недостаточное приспособление», поскольку длинные предложения препятствовали бы способности машины. обобщать.
- Затем в каждую строку столбца «метки» были добавлены индикаторы «Начало» и «Конец», включающие триграммы, которые мы создали выше, так как это поможет машине кодировать и декодировать тексты.
- Затем была построена искусственная нейронная сеть для создания последовательностей, кодирования и декодирования обработанных текстов, и в конечном итоге модель была оценена.
- Заключение
Этот процесс в целом помог машине понять взаимосвязь между буквами с диакритическими знаками и обычным английским алфавитом, следовательно, она смогла автоматически и точно восстановить «ОТМЕТКИ ТОНА» в текстах йоруба.
Мы действительно надеемся, что это поможет нашей культуре во многих отношениях.
В будущем мы планируем создать модель Transformer для восстановления диакритических знаков в текстах йоруба в качестве усовершенствования нашей модели.
Спасибо, что прочитали.
Ваше здоровье.
Ниже приведена ссылка на проект в моем репозитории Github.