「いづれの御時にか、女御更衣あまたさぶらひける中にいとやむごとなき際にはあらぬが、すぐれてときめきたまふありけり」で始まる『源氏物語』。平安時代中期(11世紀)に成立した宮廷の恋愛物語は、世界最古の長編小説として有名だが、江戸時代の人々にすら極めて難解なことばの集合で、多くの注釈書が発刊されていた。 ことばは時代と共に変化し、それを正しく理解することは失われた意味を復元する作業にも似る。冒頭にかかげた源氏の一節も、教えてくれる人がいなければ、それぞれの単語がどこで切れるのかすら判然としない。 言語を確率論的にとらえ、計算式によって解析(処理)するなら現代語も古典も、未知の言語すらも容易に理解できるようになる――このように考えて「計算言語学」の旗をかかげる統計科学者がいる。 言語の差異構造を統計的に理解する 持橋の専門分野は、「統計的自然言語処理」と「統計的機械学習」。それは簡単に表現するな