Metrics for evaluation ofword-level machine translation quality estimation

Varvara Logacheva, Michal Lukasik, Lucia Specia

Результат исследований: Глава в книге, отчете, сборнике статейМатериалы для конференциирецензирование

4 Цитирования (SciVal)

Аннотация

The aim of this paper is to investigate suitable evaluation strategies for the task of word-level quality estimation of machine translation. We suggest various metrics to replace F1-score for the "BAD" class, which is currently used as main metric. We compare the metrics' performance on real system outputs and synthetically generated datasets and suggest a reliable alternative to the F1-BAD score-the multiplication of F1-scores for different classes. Other metrics have lower discriminative power and are biased by unfair labellings.

Язык оригиналаАнглийский
Название основной публикации54th Annual Meeting of the Association for Computational Linguistics, ACL 2016 - Short Papers
ИздательAssociation for Computational Linguistics (ACL)
Страницы585-590
Число страниц6
ISBN (электронное издание)9781510827592
СостояниеОпубликовано - 2016
Опубликовано для внешнего пользованияДа
Событие54th Annual Meeting of the Association for Computational Linguistics, ACL 2016 - Berlin, Германия
Продолжительность: 7 авг. 201612 авг. 2016

Серия публикаций

Название54th Annual Meeting of the Association for Computational Linguistics, ACL 2016 - Short Papers

Конференция

Конференция54th Annual Meeting of the Association for Computational Linguistics, ACL 2016
Страна/TерриторияГермания
ГородBerlin
Период7/08/1612/08/16

Fingerprint

Подробные сведения о темах исследования «Metrics for evaluation ofword-level machine translation quality estimation». Вместе они формируют уникальный семантический отпечаток (fingerprint).

Цитировать