UTXとは

概要

UTX(Universal Terminology eXchange)とは、一般社団法人アジア太平洋機械翻訳協会(AAMT)が策定した、シンプルなタブ区切りの用語集形式です。AAMTは、機械翻訳の研究開発者、製造販売者、利用者の三者から構成される団体です(機械翻訳は、翻訳ソフトの核となる技術です)。メンバーはボランティアです。

翻訳ソフトのユーザー辞書の標準化を目的として、AAMTは、1995年に、IPAの支援を受けてUPFと呼ばれる仕様を策定しました。その後、技術や利用方法のさまざまな変化を反映し、さらには実際のユーザーの意見を取り込むために、2006年から新しい仕様の策定が開始されました。2009年に、最初のUTX仕様が策定され、以後、改訂が重ねられています。この仕様に基づいて、どなたでもご自由にUTX用語集(「UTX辞書」と呼ぶこともあります)を作成・公開・共有できます。UTXのシンプルさという利点は、機械翻訳に役立つだけではありません。UTXは、人間翻訳者にとっても有益な用語管理機能を備えています。

なぜUTXを使うのか

UTXを使えば、用語集を簡単に作成・共有・再利用して、翻訳の質を向上できます。「翻訳ソフトは変な訳ばかり出す」と思われていませんか? 翻訳ソフトがうまく訳せないのは、語句をどう訳すべきかという翻訳知識が不足しているからです。まず、翻訳知識をUTX用語集として作り、それをユーザー辞書に変換することで、翻訳ソフトの翻訳精度を大きく改善できます。

また、これまで翻訳ソフトのユーザーが、役立つユーザー辞書を個人で作成するには、大きな労力が必要でした。Excelやテキスト ファイルでも、各項目の形式が共通化されていないと共有や再利用は困難です。ウェブサイトでもさまざまな用語集が公開されていますが、実際にはすぐに活用できず、手間のかかる修正と調整が必要です。しかし、UTXのような標準規格を使えば、さまざまなツールで用語集を広く共有し、すばやく再利用できるようになります。

だれが作り、使うのか

主に翻訳者や翻訳ソフトのユーザーが、作り、使うことを想定しています。作成や使用にあたって、文法や言語学などの高度な専門知識は不要です。UTX用語集は、複数形、名詞や動詞など品詞の区別など、最低限の情報のみで作れます。

どのような分野で使うのか

IT、医療、法律、工学など、専門用語が多い翻訳であれば、どのような分野でも使えます。

どんな語を含むのか

UTX用語集は、製品・部品名、病名、薬品名、法律名など、特定分野の専門用語や、人名、地名、施設名などの固有名詞のみを含みます。多くの場合は名詞、特に複合名詞がほとんどです。たとえば「XML declaration」のような語は、ユーザー辞書に登録することではじめて「XML宣言」などと正しく訳せます。「window=窓」のような基本的な語彙は、翻訳ソフトのシステム辞書に最初から含まれているため含めません。翻訳ソフトの購入時に付属しない、きめ細かい対訳の情報を集約して共有・再利用することにより、翻訳精度を向上できます。

文(センテンス)は、一種の「単語」として扱うのが適切な場合にのみ含めることができます。ただし、原則としてUTXは、翻訳メモリー(文単位の対訳データベース)とは区別して使います。

多言語対応と用語管理

UTXの文字コードは、Unicodeなので、ほとんどの言語を扱えます。基本的には、1つのUTX用語集に、起点言語(原文)から目標言語(訳文)への方向の訳が含まれます。UTX 1.20から、複数の目標言語を指定できるようになりました。またUTXでは、用語の品質管理ができ、正しい用語を確実に使用できます。各用語には、「暫定」「禁止」「承認」「非標準」(provisional、forbidden、approved、non-standard)のいずれかの用語ステータスを指定できます。複数ユーザーが新しい用語の情報提供をするとき、当初の用語ステータスは「暫定」(または空白)です。その後、用語管理者が、各用語を確認し、適切であれば用語ステータスを「承認」にします。「承認」された語は逆方向の翻訳でも使用できます。また「禁止」ステータスを付けて、特定の用語の使用を禁止することもできます。最良の訳語ではないが、処理上含める必要がある語は「非標準」ステータスになります。

どうやって作るのか

UTX用語集は、Excelなどの表計算ソフトやテキスト エディターで簡単に作成・編集・表示できます。開発中のものを含め、各種形式とUTX形式の相互変換を行うツールもあります。

UTX辞書(用語集)作りのポイント

  • 1つの用語集は1つの特定分野にする。
  • 1項目には1つの原語。
  • 訳語は、最良のものを1つだけ選ぶ。
  • 固有名詞以外は大文字で始めない。
  • 原形を記載する(市販辞書の見出しの形式)。
  • 原語、訳語以外の情報はコメント欄に記す。

詳しくはクイックガイド仕様書も参照してください。 

どのようなシナリオで作るのか

  1. 用語集をゼロから作成する
  2. 翻訳作業で発生する訳語の用語を収集する
  3. 各種用語データ間での変換で、中間変換形式として 

どうやって使うのか

UTX用語集は、シンプルな形式なので、簡単に変換して各種ツールにインポートできます。翻訳メモリー ツールOmegaT、用語ツールApSIC Xbenchなどのツールではほぼそのまま使えます。

用語集作成に費用は掛かるか

UTXの仕様書は無料でダウンロードし、使用できます。

詳細についてはFAQもご覧ください。

Translate »