NAIST サマーブートキャンプ2日目。今日は1時間統計的機械翻訳の復習をしたあと、実習。 実習は3本立てで、Moses というオープンソースの統計的機械翻訳エンジンを使い、日英の翻訳機を作って考察する、というもの。データは旅行会話のデータ4万文なので、学習しても翻訳させても5分程度、ちょうどよいくらいである。(自分が M2 のとき学習は15-30分程度かかっていた気がするので、計算機も速くなったものだなぁ) 見所としては、ちゃんと動くものが1時間とかからず作れますよ、ということと、未知語やフレーズに基づく手法の欠点(日本語と英語のように統語構造がかなり異なる言語だと、格助詞など機能語が変なところで切れたり入ったりすることがよくある)を見てもらうところ。今回は実際にフレーズテーブルを見てもらい、翻訳のエラーについてどんなエラーがあり、どんな理由でそれが起こるのか考察してもらった。 フレーズ