タグ

形態素解析に関するonyx-pigのブックマーク (2)

  • 生きたことばをモデル化する統計科学の研究:研究室訪問:統計数理研究所

    「いづれの御時にか、女御更衣あまたさぶらひける中にいとやむごとなき際にはあらぬが、すぐれてときめきたまふありけり」で始まる『源氏物語』。平安時代中期(11世紀)に成立した宮廷の恋愛物語は、世界最古の長編小説として有名だが、江戸時代の人々にすら極めて難解なことばの集合で、多くの注釈書が発刊されていた。 ことばは時代と共に変化し、それを正しく理解することは失われた意味を復元する作業にも似る。冒頭にかかげた源氏の一節も、教えてくれる人がいなければ、それぞれの単語がどこで切れるのかすら判然としない。 言語を確率論的にとらえ、計算式によって解析(処理)するなら現代語も古典も、未知の言語すらも容易に理解できるようになる――このように考えて「計算言語学」の旗をかかげる統計科学者がいる。 言語の差異構造を統計的に理解する 持橋の専門分野は、「統計的自然言語処理」と「統計的機械学習」。それは簡単に表現するな

  • Clojure/kuromojiでテキストマイニング入門 ~形態素解析からワードカウントまで~ - あんちべ!

    [テキストマイニング] Clojureでテキストマイニングをしたい!という方がTLにいらっしゃったので、 Clojureという言語とkuromojiという形態素解析器を用いたテキストマイニング入門の記事を書きます。 この記事の通り手を動かすと、様々なテキスト、例えばアンケートの自由記述やブログ、twitterなどの文章に形態素解析を掛け、ワードカウントと呼ばれる、ある単語が何回出現しているのかを解析する手法を使えるようになります。これを利用し、出現単語を頻度順に並べてランキングを作るなどして、その文書の特徴を明らかにするなどが出来るようになります。 ある程度コンピュータを使えることは求めますが、プログラミングの前提知識はさほど求めていません。そのため、所々天下りなところ(ここはとりあえずこうやってください!と説明無しの記述)もありますが、ご容赦ください。 形態素解析とは? 形態素解析とは、

    Clojure/kuromojiでテキストマイニング入門 ~形態素解析からワードカウントまで~ - あんちべ!
  • 1