8年間を振り返って
相良 美織
株式会社バオバブ
1. 変態と拡張と蓄積
2010年創業当初、統計機械翻訳全盛の夜明けを見るころ、バオバブは「留学生ネットワーク@みんなの翻訳」というプラットフォームにて機械翻訳のための学習データ(コーパス)を高品質、かつスピーディに構築し提供するサービスを展開していました。実際には、機械翻訳で訳出した結果を留学生などの翻訳者が修正し(Post Edit)蓄積されたコーパスを機械翻訳に学習させ、その機械翻訳の結果をまた下訳として翻訳者が翻訳し、一定の品質に収斂させながら大量の学習データを構築する「人力と機械学習」を組み合わせた仕組みです。
その後、2015年に画像アノテーションサービスを開始、以降、音声の書き起こしや感情タグ付け、テキストアノテーションなど、現在では様々な分野に学習データ構築サービスの幅を広げています。
最近では、バオバブがデータセットの構築を手がけた東京大学による「ビジネスシーン対話対訳コーパスの構築と対話翻訳の課題」が言語処理学会第27回年次大会にて言語資源賞を受賞。クライアントに納品したデータがほんの少しでも役にたった、論文が学会で発表されたという知らせは何よりも嬉しく、いつも社内のチームやBaopart(注:バオバブにおけるアノテーターの呼称)に共有し、喜びを分かち合っています。
画像アノテーションでは、現在、4つの障害者就労支援施設にアノテーションの作業を委託しています。30ページ以上にも及ぶガイドラインを熟読し、細かなラベルの基準やルールをアノテーション作業に落とし込むこの作業は、何よりも正確性が要求されます。
このコツコツと大いに集中力を要する作業は自閉症を含む発達障害者の障害の適性とマッチし、そのスピードと緻密さは驚くばかりです。
興味深いのは、機械翻訳のための学習データを構築していた時の知見や失敗が大いに画像認識のための学習データ構築に資する結果になっていることです。
例えば、発達障害者とのコミュニケーションには「機械翻訳に適した日本語文の書き方」が非常に有用です。
下記に一部を紹介しましょう。
1. 主語をできるだけ省かない。
特に主語が自分でない場合は省かない。
2. 目的語や助詞をできるだけ省かない。(明示する)
3. 1文あたりの文字数は長すぎないようにする。
4. 漢字をなるべく使う。
5. ことわざ、流行り言葉、擬音語、擬態語、オノマトペはできるだけ使わない。
例:
・ザザザッと仕上げてください。
・サクサク作業できない場合は教えてください。
・もうちょい左側に囲んでください。
・ぴえん
6. 主語をできるだけ省かない。
7. 明確な動詞を使う。
8. 無駄にカタカナをひらがなにしない。
2. 今、心にあるのは
「あなたはそれをどうやって、やるつもりなの?」
「『相良さんは将来何をやってみたいの』」と問われ「猫や動物と人間との自動翻訳機を作りたいです。」と回答した時、まっすぐに目を見て真摯に聴いてくださったあのお顔。かと思えば、2015年の関西MT勉強会にて「人間を人工知能が超える日が来るのでしょうか?」という参加者からの質問に毅然と「人間とは、コンピュータに負けるような、そんなひ弱なものではない。人間は子、孫を残し、豊かな情感を持って生きる存在である。」と回答された時のあの会場の寄せては返す波のような静かな興奮。
ただただその威光に圧倒されました。
「国境や世代といったあらゆる境界を超えて、人と人、人と社会、さらには人と自然の間の理解を深め、より良い関係を築くことがコミュニケーションの本質と考えます。この新しいユニバーサルコミュニケーションの夢を実現するため努力し、世界をリードする存在となります。」
2011年情報通信研究機構に勤務した際に初めて当機構のビジョンを拝見し大変失礼ながら「役所の作ったビジョンにしてはかなりロックでイケている!」としびれました。勤務していた2年間、PCにずっと貼り付けていたこのビジョンは長尾先生が情報通信研究機構初代理事長に就任された際に作られたと知ったのはずっと後のこと。
今改めて、思う。なんてロックでイケているのだろう!
まだまだ精進が足りない。