機械的にことばの意味を汲み取って別の言語で表現する機械翻訳は、人工知能や自然言語処理が目指す究極の目標の一つとされて、古くから研究されてきました。近年では、大量の対訳データに基づいて統計的な言語モデルや機械学習アルゴリズムを利用する統計的機械翻訳が主流です。単語や句の単位で二カ国語を対応させる比較的表層的で頑健な方法から、文の構文的な関係が表現された構文解析木や、複数の構文解析木をコンパクトに表現した構文解析森の状態から変換規則を求めるような、文法を利用した高度な方法まで様々提案されています。統計的機械翻訳の手法は、たとえ同じ言語であっても、たとえば話し言葉から書き言葉に変換するといった言い換えの用途にも利用できます。 統計的機械翻訳システムのオープンソースとしてはMosesが有名ですが、cicadaは最新の研究成果が様々盛り込まれていながら、とてもまとまりがあって使い勝手の良い実装です。