ИСПОЛЬЗОВАНИЕ ИИ ДЛЯ ВОССТАНОВЛЕНИЯ «ТОНОВЫХ ЗНАКОВ» В ТЕКСТАХ НА МОЕМ КОРЕННОМ ЯЗЫКЕ (йоруба).

– Проблема:

Йоруба или, точнее, «Эде Йоруба» — это основной разговорный язык, принадлежащий племени йоруба в Нигерии, на котором говорят более 45 миллионов человек во всем мире.

О важности решения этой проблемы свидетельствует приведенный ниже анализ 👇🏽

«Йоруба — это тональный язык. Диакритические знаки используются для обозначения тона гласного. Точечный акцент ниже также используется, вместо вертикальной линии ниже, для обозначения открытых вариантов гласных, а именно ẹ и ọ для [ɛ] и [ɔ]; или ниже s, чтобы расшифровать [ʃ], постальвеолярный согласный, как sh в английском языке».

Ниже приведены некоторые буквы йоруба с различными тональными знаками:

a => (á à ā)

e => (é è ē ẹ/e̩ ẹ́/é̩ ẹ̀/è̩ ẹ̄/ē̩

i => (í ì ī)

o => (ó ò ō ọ/o̩ ọ́/ó̩ ọ̀/ò̩ ọ̄/ō̩)

s => (ṣ s)

u => (ú ù ū)

Использование этих букв взаимозаменяемо придает словам разные значения, поскольку они произносятся по-разному.

Например :

А) оро = оро

Как в «oh-row» (или «жало» в переводе на английский язык)

Б)оро = ọ̀rọ̀

Как в «aw-raw» (ọ̀rọ̀ — это «текст» или «слово» в переводе на английский язык)

C) ojo = ojò

Как в «oh-joe» (òjò означает «дождь» в переводе на английский язык)

D) ojo = ọjọ́

Как в слове «ор-челюсть» (ọjọ́ в переводе на английский означает «день»)

Это здорово, верно?

К сожалению, есть проблема, и это может быть легко произнести (хотя и не очень для новичков), но когда дело доходит до написания или набора текста на языке «йоруба», мы часто игнорируем «ТОНАЛЬНЫЕ ЗНАКИ», и вот почему.

1 — Мы не знаем соответствующий тональный знак для каждого слова (даже если мы знаем, как его произносить)

2 — Некоторые люди просто ленятся ставить «МЕТКИ ТОНА», потому что им требуется довольно много времени, чтобы обработать тона и добавить «МЕТКИ ТОНА».

– Решение:

После того, как эта проблема была определена, мы с коллегой провели мозговой штурм и исследовали способы решения этой проблемы, и успешно сделали это с помощью ИИ. восстановить «ТОНОВЫЕ ЗНАКИ» в текстах йоруба (диакритические знаки).

Ниже приведены некоторые из шагов, которые мы предприняли для решения проблемы:

- Во-первых, был получен набор данных на основе йоруба.

- Далее набор данных был очищен, путем удаления иностранных слов, знаков препинания, цифр и так далее, что очень помогло машине в понимании настоящих текстов йоруба, так как вышеупомянутые переменные выступали бы как выбросы, тем самым снижая точность машины и не позволяя ему обобщаться.

- Затем был написан скрипт на Python для автоматизации удаления «ТОНАЛЬНЫХ ЗНАКОВ» (диакритических знаков) из слов йоруба и добавления этих слов в пользовательский набор данных, что позволило нам добавить удаленные тексты в виде строк в «функции». столбец, в то время как неразрезанные тексты были вставлены в столбец «метки»

- Затем строки в столбце «функция» были дополнительно проанализированы, и слова были расположены по три в строке, чтобы помочь машине лучше понять взаимосвязь слов и предотвратить «недостаточное приспособление», поскольку длинные предложения препятствовали бы способности машины. обобщать.

- Затем в каждую строку столбца «метки» были добавлены индикаторы «Начало» и «Конец», включающие триграммы, которые мы создали выше, так как это поможет машине кодировать и декодировать тексты.

- Затем была построена искусственная нейронная сеть для создания последовательностей, кодирования и декодирования обработанных текстов, и в конечном итоге модель была оценена.

- Заключение

Этот процесс в целом помог машине понять взаимосвязь между буквами с диакритическими знаками и обычным английским алфавитом, следовательно, она смогла автоматически и точно восстановить «ОТМЕТКИ ТОНА» в текстах йоруба.

Мы действительно надеемся, что это поможет нашей культуре во многих отношениях.

В будущем мы планируем создать модель Transformer для восстановления диакритических знаков в текстах йоруба в качестве усовершенствования нашей модели.

Спасибо, что прочитали.

Ваше здоровье.

Ниже приведена ссылка на проект в моем репозитории Github.

https://github.com/Crinmatic/Diacritic-Restoration

Новые материалы

ИИ для общего блага, часть вторая

В нашем последнем блоге мы исследовали возможности ИИ для общего блага, указав на несколько инициатив по поиску действенных решений для продвижения справедливых и беспристрастных систем ИИ. По..

Время расцвета закончилось

Большую часть своей карьеры в индустрии программного обеспечения программисты работали с головой в песок. Успех в отрасли требует навыков презентации и обучения других. Ценность улучшенных..

Будущее сельского хозяйства: новый уровень производительности с современными технологиями

По мере роста населения мира растет и спрос на продукты питания. Фермеры сталкиваются с растущим давлением необходимости повышать урожайность и максимизировать производительность, манипулируя..

Состояние совместной фильтрации в 2022 году, часть 1

ResBeMF: Улучшение прогнозируемого охвата совместной фильтрации на основе классификации (arXiv) Автор: Анхель Гонсалес-Прието , Авраам Гутьеррес , Фернандо Ортега , Рауль Лара-Кабрера..

Зачем изучать PYTHON в 2022 году !

Python — востребованный, доступный язык программирования с активным, постоянно растущим сообществом пользователей. Для тех, кто хочет сменить профессию в мире технологий с помощью..

Решение капч с помощью Puppeteer

Это руководство предназначено для текстовых кодов, а не для reCAPTCHA Google (см. конец этого сообщения). Требования: Антикапча или любой другой сервис по разгадыванию капчи. Модуль..

7 встроенных библиотек Python, которые необходимо знать

7 встроенных библиотек Python, которые необходимо знать Стандартная библиотека Python значительно упрощает жизнь программистов, предоставляя широкий набор функций. Мы выбираем несколько..

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Web Development Python Coding Deep Learning AI Software Engineering React Java Nodejs Front End Development Development Algorithms Typescript Tech Programming Languages Data Computer Science Reactjs NLP Learning Javascript Tips HTML CSS Computer Vision Code Productivity Golang Tutorial Neural Networks Startup ChatGPT Statistics Angular