タグ

Pythonとmecabに関するjohshishaのブックマーク (2)

  • scikit-learnとgensimでニュース記事を分類する - Qiita

    こんにちは、初心者です。 適当なニュース記事があったとして、ニュースのカテゴリを推測するみたいな、よくあるやつをやってみました。Python3.3を使いました。 何をやるの? データセットはlivedoorニュースコーパスを使いました。 http://www.rondhuit.com/download.html#ldcc クリエイティブ・コモンズライセンスが適用されるニュース記事だけを集めてるそうです。 トピックニュース、Sports Watch、ITライフハック、家電チャンネル 、MOVIE ENTER、独女通信、エスマックス、livedoor HOMME、Peachy というクラスがあります。 データは、1記事1テキストファイルの形式で、クラス別のディレクトリにいっぱい入っています。 これを学習して、未知の文章に対して、お前は独女通信っぽい、お前は家電チャンネルっぽい、みたいに、分類が

    scikit-learnとgensimでニュース記事を分類する - Qiita
  • Python で Mecabを利用する【mac】 - 39Si

    形態素解析ツールである Mecab を Python から使えるようにした。 他にも形態素解析に用いられるものは存在したが、 Mecab がもっとも一般的のようだったので、今回はこちらを使うことにした。 環境 ・MacBook Air - OS X Yosemite mecabの導入 まずはMecabをHomebrewでいれる。 方法は以下のページを参考にした。 Pythonでつくる検索エンジン(Webクローラ, Mecab, MongoDB, Flask) - c-bata web $ brew install mecab $ brew install mecab-ipadic 動作テスト terminal で mecab と入力して、適当な日語入れる。 無事に動いた。 $mecab 今日はいい天気ですね。 今日 名詞,副詞可能,*,*,*,*,今日,キョウ,キョー は 助詞,係助詞,

    Python で Mecabを利用する【mac】 - 39Si
  • 1