タグ

ブックマーク / www.ism.ac.jp (2)

  • 生きたことばをモデル化する統計科学の研究:研究室訪問:統計数理研究所

    「いづれの御時にか、女御更衣あまたさぶらひける中にいとやむごとなき際にはあらぬが、すぐれてときめきたまふありけり」で始まる『源氏物語』。平安時代中期(11世紀)に成立した宮廷の恋愛物語は、世界最古の長編小説として有名だが、江戸時代の人々にすら極めて難解なことばの集合で、多くの注釈書が発刊されていた。 ことばは時代と共に変化し、それを正しく理解することは失われた意味を復元する作業にも似る。冒頭にかかげた源氏の一節も、教えてくれる人がいなければ、それぞれの単語がどこで切れるのかすら判然としない。 言語を確率論的にとらえ、計算式によって解析(処理)するなら現代語も古典も、未知の言語すらも容易に理解できるようになる――このように考えて「計算言語学」の旗をかかげる統計科学者がいる。 言語の差異構造を統計的に理解する 持橋の専門分野は、「統計的自然言語処理」と「統計的機械学習」。それは簡単に表現するな

  • ビッグ・データを操る者が勝つ

    統計数理研究所 所長 樋口知之 データ集約型科学という科学的探究手法が、科学の世界のみならず、ビジネス社会でも注目されている。基方程式を理論解析や計算機シミュレーションで解く演繹的な手法ではなく、ビッグ・データ(莫大な量のデータ)から課題を見つけ出しモデル化することによって、よりよい予測を行ったり、新しい法則を見つけ出したりする帰納的な手法である。科学の「第四のパラダイム」として学問領域を超えて人類に新しい価値をもたらすと期待され、統計学と社会とのつながりがきわめて重視される時代が到来している。 データ集約型科学は、すでに一九九〇年代に日米欧で研究が始まり、その黎明期において日も大きく貢献した。当時私が研究していた人工衛星データはビッグ・データの走りであり、その後、ヒト・ゲノム計画で膨大なゲノム・データが獲得された結果、地球・宇宙科学と生命科学の両分野で先行して、ビッグ・データの解析手

  • 1