GIZA++を使ってWikipedia対訳コーパスをアライメントするまでやってみました。Wikipedia日英京都関連文書対訳コーパスWikipedia日英京都関連文書対訳コーパスGIZA++ giza-pp - Project Hosting on Google Codeなお、環境はMacbook Airでも動いたのですが、重かったのでサーバーのCentOSで動かしました。# 対訳コーパスをダウンロードして整形$ wget http://alaginrc.nict.go.jp/WikiCorpus/cgi-bin/dl1.cgi$ tar xfz wiki_corpus_2.0.tar.gz$ cd wiki_corpus_2.0$ mkdir parallel$ cat */*.xml | egrep '^' | sed -e "s///g" | sed -e "s///g" > pa