AAMT基本文評価用テストセット
一般社団法人アジア太平洋機会翻訳協会の機械翻訳課題調査委員会(以下、AAMT課題調査委員会)では、機械翻訳システムの翻訳品質を評価する方法として「テストセット評価」に着目し、機械翻訳システム(日中・中日)の評価のためのテストセットを作成してきました。
また、テストセット評価の自動化について検討を進め、Webブラウザ上でテストセット評価を実行できる自動評価サイトを構築し、AAMTホームページで公開しています。
日中、中日基本文評価のためのテストセット評価とは
テストセットとは、翻訳言語対毎に整備した原文、参照訳(正解)の対と、それぞれの文対に付与した設問からなるデータの集合を指します。
表1 テストセットのサンプル
原文 | The trash can was thrown away. |
参照訳(正解) | ごみのカンは捨てられた。 |
設問 | “can”が「カン/缶」のように名詞で訳されていますか? |
機械翻訳文の品質評価については、これまでにも多くの方法が提案されてきました。実際に用いられている方法としては、正確性や流暢性の観点で人間が評価する主観評価と、参照訳(正解)と機械翻訳文の類似性を数値化することで評価を行う自動評価に大別されるが、どちらの方法も評価結果は文単位あるいはドキュメントの単位で品質が数値化されるだけのものでした。
これに対して「テストセット評価」では、あるエンジンの翻訳結果が他と比べてどこが優れて(劣って)いるのかという種類の定性的な情報も得ることができます。たとえば表1の設問の解答が“no”であった場合、そのシステムは助動詞に関わる品詞選択が適切にされない可能性があることを評価者が知ることができます。この種の情報は、特に翻訳システムの研究開発者にとって有益なものです。
自動評価サイトの構築
AAMT調査委員会では、日中および中日機械翻訳システムの評価用にAAMT機械翻訳文テストセットおよび自動評価プログラムをサーバ上に配置し、Webブラウザ上で機械翻訳評価が行えるサイトを作成しました。
設問評価の自動化は、機械翻訳文との文字列マッチングに基づいて”yes”, ”no”を判定しており、同義語についても考慮されています。

自動評価サイトは、評価結果を文法項目別に点数化してレーダーチャートで表示します。代表的なWeb無料サービスのシステムの平均値との比較ができるようになっています。
具体的な使い方は、下記ページを参照ください。
日中・中日基本文の自動評価サイトの利用手順
① 利用者ID、パスワードを取得します
お名前、ご所属、メールアドレスをemailに記載し、AAMT(旧課題調査委員会)にご連絡ください。

メールのタイトルを 「自動評価サイトの利用申し込み」 としてください。
② AAMTから利用者ID、パスワードを記載したメールが届いたら、下記URLにアクセスし、ログインします。
http://chinese-mt.ir-alt.info/
③ページ内の案内に従って、評価を行ってください。
<お問い合わせ>
