Как правильно провести глубокую оценку качества перевода — от метрик до общих предостережений

Десять лет назад изучение нового языка было проблемой. Перевод текстов слово за словом занял целую вечность — вам сначала нужно было пройтись по словарю в поисках буквы, с которой начинается слово, затем вы должны были найти само слово, а затем выбрать перевод, который будет нести смысл, который лучше всего подходит к предложению. .

Сегодня выучить новый язык намного проще. В нашем распоряжении множество вспомогательных инструментов. Очевидным ресурсом «перехода» является google-translate. Однако даже гугл-переводчик с использованием глубокой, хорошо обученной нейронной сети не идеален. В Интернете есть тысячи примеров, когда перевод ужасно неправильный. Глядя на эти примеры, кажется, что мы далеки от идеального инструмента машинного перевода (МП). Так почему же так сложно его спроектировать?

Перевод — это незавершенная задача ИИ — чтобы обучить модель отображать перевод с одного языка на другой с точностью человеческого уровня, необходимо включить большой объем социальной, культурной и исторической информации, а это означает, что модель должна развивать общий интеллект.

Например, простое приветствие «Ça va?» (французский) можно перевести как «Привет», «Вагван», «Как дела», «Привет», «Привет», или«Как дела?» в зависимости от контекста. Рассмотрим другой пример — изменение языка с течением времени. Если нам дадут роман 1800-х годов, мы ожидаем, что модель будет использовать соответствующую лексику — предпочитая возбуждение ажиотажу.

Эта более сложная задача разработки модели машинного перевода, которая будет производить соответствующие переводы человеческого качества, может быть решена путем увеличения сложности модели, обучения на больших наборах данных или введения языковой предвзятости. Но, имея на руках несколько моделей, как выбрать ту, которая действительно работает хорошо? Мы будем использовать модели оценки качества машинного перевода. В течение довольно долгого времени у нас была неправильная автоматическая оценка моделей машинного перевода, и только недавно проблемы начали исправляться сами собой.

Эта статья представляет собой сводку метрик для автоматической оценки моделей машинного перевода. Сначала я расскажу об обычных метриках на основе строк (тех, которые на самом деле заставляли нас ошибаться), глубоких моделях для оценки качества и, наконец, о том, как убедиться, что мы используем правильный эталон для модели машинного перевода для сравнения.

Оценка качества машинного перевода

Самый простой способ оценить, насколько хорошо работает модель перевода, — попросить оценить ее опытных переводчиков. Однако это очень дорого — сколько времени вам понадобится, чтобы тщательно просмотреть двухстраничный документ? А для достоверной оценки качества перевода двух страниц недостаточно.

Для тех, кто заинтересован, я рассказал о проблемах субъективной (человеческой) оценки в статье о парных сравнениях как протоколе оценки качества и наборе данных объединении для оценки и ранжирования.

Процесс оценки модели можно значительно упростить с помощью автоматизированных моделей оценки качества — их цель — оценить совпадение между эталонным и выходным переводами.

Чтобы получить надежную оценку, нам нужна хорошая метрика, которая будет хорошо коррелировать с человеческими суждениями, и набор высококачественных эталонных переводов, с которыми метрика будет сравнивать перевод. Итак, давайте посмотрим, как мы можем получить оба права.

Метрики

Обычно различают модели на основе строк и глубокого обучения. У каждого из них есть свои плюсы и минусы.

Строковые показатели

Простейшая форма метрики — это количество слов, которые встречаются как в эталонном, так и в целевом переводе. И есть миллионы причин, по которым эта метрика не была бы хорошей идеей — подумайте о синонимах!

СИНЯЯ

BLEU — это модифицированная метрика точности, адаптированная для целей НЛП. где точность — это количество слов, совпадающих со ссылкой, деленное на общее количество слов в предложении-кандидате.

МТ часто перегенерирует «разумные» слова, приводя к маловероятным, но высокоточным (например, получается предложение, состоящее только из артикля «the»). Чтобы смягчить проблему, решение очевидно: опорное слово следует считать исчерпанным после того, как будет идентифицировано совпадающее слово-кандидат. Таким образом, BLEU изменил точность униграмм.

Чтобы вычислить его, мы берем максимальное количество раз, когда слово встречается в любом отдельно взятом эталонном переводе; обрезать общее количество каждого слова-кандидата по его максимальному счетчику ссылок, сложить эти усеченные счетчики и разделить на общее (неотсеченное) количество слов-кандидатов.

Например, вариант перевода: "the the the the the the the",сссылкой 1: "Кошка на диване"и ссылка 2: «Кошка на диване». Артикль «the» встречается дважды в ссылке 1 и один раз в ссылке 2, берем максимум — два, the общее количество раз, когда «the» появляется в кандидате, равно семи. Таким образом, простая оценка BLEU составляет 2/7.

Полная оценка BLEU объединяет длину предложения и различные длины n-грамм (непрерывная последовательность из n элементов):

Где BP — это штраф за краткость, а член в скобках — это среднее геометрическое измененной точности n-грамм, pn, с использованием n -граммы до длины N и положительные веса wn в сумме равны единице.

ROUGEявляетсямодификацией BLEU, однако в то время как Bleu измеряет точность: сколько слов (и/или n-граммов) в Сводки, созданные машиной, появились в справочных сводках, созданных человеком. Rouge измеряет полноту: сколько слов (и/или n-граммов) в кратких описаниях человека появлялось в сводках, созданных машиной.

ХрФ

ChrF представляет собой символьную n-грамму F-показателя (гармоническое среднее точности и полноты). Подобно метрикам на основе строк, он измеряет перекрытие между переводом и ссылкой, однако, в отличие от других метрик, он работает с короткими последовательностями символов (n-граммы), а не со словами.

Эта форма, основанная на символах, имеет несколько преимуществ: во-первых, она снижает чувствительность к токенизации предложений; второй — назначает частичное вознаграждение за неправильно написанные слова.

Полная форма эмтрика CHRF:

  • CHRP: процент n-граммов в гипотезе, которые имеют аналог в ссылке;
  • CHRR: процент n-грамм символов в ссылке, которые также присутствуют в гипотезе.
  • Бета — это параметр, контролирующий компромисс, часто равный 1.

Предварительно обученные показатели

Метрики на основе строк было достаточно для простых моделей машинного перевода. Современные нейронные подходы к МП приводят к гораздо более высокому качеству перевода, который часто отличается от монотонного лексического переноса между языками. Следовательно, необходимы более сложные механизмы для оценки качества перевода.

Здесь на помощь приходят модели глубокого обучения. Обычно это либо сквозные, либо сравниваемые токены предложений в пространстве встраивания вместо прямого подсчета в виде метрик на основе строк.

BertScore

BertScore использует контекстуальные вложения, созданные предварительно обученной моделью Bert, и вычисляет сопоставление с использованием косинусного подобия, необязательно взвешенного с обратными показателями частоты документов.

BLEURT
Подобно BertScore, BLEURT использует Bert в качестве основы, однако, в отличие от него, BLEURT представляет собой сквозную модель, которая не использует созданную вручную меру сходства, а регрессирует прямо на счет. Поскольку такая большая модель требует большого количества данных для обучения, а данных машинного перевода от людей-ранжировщиков мало, BLEURT приступает к предварительному обучению, используя синтетический набор данных и BertScore в качестве прокси для истинной оценки. На этапе тонкой настройки для обучения модели используются реальный набор данных и ранжирование транслятора.

КОМЕТА

В отличие от BertScore и BLEURT, COMET также включает в процесс оценки входные данные на исходном языке. Модель позволяет прогнозировать без эталонного перевода для вывода модели (гипотезы). Эта модель называется COMET-src.

Призма

Prism — это сентенциальный перефразировщик последовательностей для принудительного декодирования и оценки выходных данных машинного перевода, обусловленных соответствующими человеческими ссылками. «Запрашивая» модель с конкретным выводом системы, мы можем использовать оценку модели, чтобы измерить, насколько хорошо вывод системы перефразирует человеческий эталонный перевод. Модель не обучается на каких-либо человеческих суждениях о качестве, которые недоступны во многих предметных областях и/или языковых парах.

Prism обучается на многоязычных параллельных примерах, таких как «Ciao amico», переведенное на французский как «Salut l’ami». Во время оценки модель используется в режиме нулевого выстрела для оценки выходных данных системы машинного перевода, обусловленных соответствующими человеческими ссылками. Например, было обнаружено, что вывод системы МП «Привет, мир», обусловленный человеческой ссылкой «Привет, мир», имеет токеновые вероятности [0,3, 0,6].

Prism рассматривает два способа объединения вероятностей на уровне токенов из модели — логарифмическая вероятность на уровне последовательности (G) и средняя логарифмическая вероятность на уровне токенов (H):

И окончательная оценка Prism для с эталонной оценкой и без нее определяется по формуле:

Сравнение показателей

В недавней статье Microsoft (Поставлять или не отправлять: обширная оценка автоматических показателей для машинного перевода) было проведено сравнение показателей для сотен языковых пар.

Основываясь на своих выводах, авторы предлагают следующие передовые методы использования автоматических метрик:

  • Использовать предварительно обученную метрику в качестве основной автоматической метрики; рекомендуется с COMET. Используйте строковую метрику для неподдерживаемых языков и в качестве вторичной метрики, например ChrF. Не используйте BLEU, он уступает другим показателям и им злоупотребляют.
  • Запустите парный тест значимости, чтобы уменьшить ошибочную оценку метрики из-за случайной вариации выборки.
  • Публикуйте выходные данные вашей системы в общедоступных наборах тестов, чтобы можно было сравнивать и пересчитывать различные оценки показателей.

Справочные данные

Для создания обучающего набора данных опытные переводчики сопоставляют текст на одном языке с текстом на другом языке. Чтобы убедиться, что перевод является подлинным и точным, переводчики обычно не могут копировать текст из коробки, чтобы предотвратить использование программного обеспечения для автоматического перевода. Изолированная оценка предложения эффективна, но не наказывает за несоответствие контекста, поэтому переводчикам обычно показываются предложения в более широком контексте. Часто несколько переводчиков получают один и тот же текст, и выбирается наиболее подходящий перевод.

Несмотря на все эти механизмы, есть гораздо более мощный механизм, препятствующий точности переводов, — человеческая лень.

Недавняя статья от Google (BLEU может быть виновна, но ссылки не невиновны) показала, что качество часто используемых ссылок для оценки моделей машинного перевода далеко от идеального. Основная проблема заключается в переводческих сопоставлениях — предложениях с артефактами исходного языка, такими как определенный порядок слов и лексический выбор. Возможно, это неудивительно, но такие метрики, как BLEU, работающие со строковыми значениями, будут стимулировать модели, которые научатся отображать на переводческий язык.

Легко понять, как низшие модели будут поощряться и выбираться для разработки, если мы вознаграждаем соответствие трансляционными отображениями.

Вывод из статьи Google заключается в том, что стандартные справочные переводы могут предвзято относиться к механизмам, улучшающим машинный перевод. Предыдущие исследования могли неправильно отвергнуть методы, основанные на этих предубеждениях. Чтобы исправить эту проблему, они предлагают перефразировать ссылку, которая помогает улучшить выбор модели машинного перевода с помощью автоматических метрик оценки, которые теперь будут наказывать разнообразные и релевантные сопоставления.

Краткое содержание

Изменение языка с течением времени и несколько правдоподобных переводов делают машинный перевод сложной задачей. По мере развития моделей машинного перевода должны развиваться и модели оценки качества — как мы видели, BLEU достаточно для простых переводов, однако он не может охватить богатые языковые структуры, достигаемые текущими моделями глубокого обучения.

Поскольку получить правильный перевод очень сложно даже для профессиональных устных и письменных переводчиков, нам необходимо проявлять особую осторожность при использовании эталонных переводов для сравнения моделей. Однако есть особые механизмы для решения этой проблемы.

В статье я рассмотрел следующие строковые метрики: BLEU, ROUGE, ChrF; и метрики на основе глубокого обучения: COMET, BertScore, BLEURT, Prism, ESIM.

Если вам понравилась эта статья, поделитесь ею с другом! Чтобы узнать больше о машинном обучении, науке о данных, компьютерном зрении и обработке изображений, нажмите «Подписаться»!

Я ничего не пропустил? Не стесняйтесь оставлять заметки, комментарии или сообщения мне напрямую!