タグ

形態素解析に関するcpwのブックマーク (2)

  • 第1回にこにこテキストマイニング勉強会に参加しました #nicotextmining - nokunoの日記

    というわけで参加してきました。第1回 にこにこテキストマイニング勉強会 : ATND 目的テキストマイニングについての学習のスタートアップテキストマイニング技術に関して気軽に参加・議論することができる場の提供 概要テキストマイニングとは、例えば製品の評判をweb上のテキストから抽出したり、大量のアンケートテキストを分析するために用いられる技術であり、特にマーケティングの場で多くの利用例があります。この勉強会ではそうしたテキストマイニングを題材とし、用いられている要素技術とそれに関わる課題の議論、またテキストマイニングを実務に活かす方法について考えていきます。 会場のオラクルセミナールームでは隣でPythonハッカソンが行われており、そちらにも知り合いがいたり飲み物が無料だったりして居心地の良い場所が形成されていました(入るまでが大変でしたが‥)。Python Hack-a-thon 201

  • 形態素解析もどきを改良してみた

    形態素解析もどきを改良してみた 「JavaScript形態素解析もどき」を少し改良してみました。今までは漢字、ひらがな、カタカナ、英数字、記号などで分けていただけなので、 「今日はいい天気でした。」 という文章を解析すると 「今日|はいい|天気|でした|。」 となって、「はいい」などと変な区切りができたりしていました。 そこで、助詞で区切ってから、その後で漢字、ひらがな、などで分けるようしてみました。そうすると 「今日|は|いい|天気|で|した|。」 という感じで分けることができます。 ただ、 「とても大きい」 という文章だと 「と|て|も|大|きい」 となってしまったりで、問題もありますが。 JavaScript のソースはこんな感じです。 function SimpleAnalyzer() { this.re = new RegExp; this.re.compile("[一-龠々

    形態素解析もどきを改良してみた
  • 1