タグ

ブックマーク / toilet-lunch.hatenadiary.org (4)

  • wikipediaダンプからNgramとIDFデータを作りました - toilet_lunchの日記

    まあ誰が作っても大差ないですし、僕が作ることでどこかの誰かの大切な時間を 少しでも節約出来れば良いな、という目的で以下のデータ作りました。 1-5形態素のNgram頻度データ 単語のIDFリスト 文字化けとか割と気にせず進めてしまったのであまりクォリティは高くないと思いますが、 「Google N-gramでかすぎて持て余す!」という人なんかが適当に使う分には 適度な量なのではないでしょうか。

    wikipediaダンプからNgramとIDFデータを作りました - toilet_lunchの日記
    yuiseki
    yuiseki 2011/05/19
  • 第2回さくさくテキストマイニング勉強会を行いました - toilet_lunchの日記

    恐縮ながら4/16日にテキストマイニング勉強会を開催させていただきました。 余震の続く中で発表をしてくださった皆様と出席してくださった皆様に感謝致します。 とりわけUstのトラブル時に(ただ見に来てくださっただけなのに)配信を助けて下さいました高須様には重ねて感謝を申し上げます。当に助かりました、ありがとうございました。 あんちべさんの異常に上手い司会も素晴らしいものでした。僕にはできません。 さて、各種まとめの記事はすでに上がっておりますし、今回の勉強会での反省はあんちべさんが行ってくれましたので、自分は少し次以降の勉強会について考えてみたいと思います。 初心者向けであるということ この勉強会はテキストマイニングを専門で研究していらっしゃる方や、業務でバリバリ実践的にテキストマイニングをされている方を対象にしたものではありません。むしろ、これから自然言語処理を研究したいと思いっている学

    第2回さくさくテキストマイニング勉強会を行いました - toilet_lunchの日記
    yuiseki
    yuiseki 2011/05/19
  • toilet_lunchの日記

    恐縮ながら4/16日にテキストマイニング勉強会を開催させていただきました。 余震の続く中で発表をしてくださった皆様と出席してくださった皆様に感謝致します。 とりわけUstのトラブル時に(ただ見に来てくださっただけなのに)配信を助けて下さいました高須様には重ねて感謝を申し上げます。当に助かりました、ありがとうございました。 あんちべさんの異常に上手い司会も素晴らしいものでした。僕にはできません。 さて、各種まとめの記事はすでに上がっておりますし、今回の勉強会での反省はあんちべさんが行ってくれましたので、自分は少し次以降の勉強会について考えてみたいと思います。 初心者向けであるということ この勉強会はテキストマイニングを専門で研究していらっしゃる方や、業務でバリバリ実践的にテキストマイニングをされている方を対象にしたものではありません。むしろ、これから自然言語処理を研究したいと思いっている学

    toilet_lunchの日記
    yuiseki
    yuiseki 2010/12/12
  • 2010-05-22

    データ http://dl.dropbox.com/u/2996612/idf.txt.bz2 集計条件 品詞は細分類を無視 文書数はタイトルの行数とし、空の文書*1でもカウントを行っている*2 定義式 : 単語のIDF値 : 総文書数 : 単語が出現する文書の総数 文書数、異なり単語数 総ドキュメント数 123,7429 単語異なり数 216,9308 データ形式と例 タブ区切り データ例 形態素 品詞 idf値 あいぞう 名詞 6.09252 あいぞめ 名詞 5.01334 あいた 感動詞 4.58737 あいたい 名詞 4.46927 あいだ 名詞 2.82231 *1:WP2TXTの変換によって文がなくなる場合がある *2:めんどくさかったので・・・ データ 1-gram http://dl.dropbox.com/u/2996612/1gram.bz2 2-gram http:

    2010-05-22
  • 1