yuisekiのブックマーク - はてなブックマーク

wikipediaダンプからNgramとIDFデータを作りました - toilet_lunchの日記
まあ誰が作っても大差ないですし、僕が作ることでどこかの誰かの大切な時間を少しでも節約出来れば良いな、という目的で以下のデータ作りました。 1-5形態素のNgram頻度データ単語のIDFリスト文字化けとか割と気にせず進めてしまったのであまりクォリティは高くないと思いますが、「Google N-gramでかすぎて持て余す！」という人なんかが適当に使う分には適度な量なのではないでしょうか。
yuiseki 2011/05/19
リンク
第2回さくさくテキストマイニング勉強会を行いました - toilet_lunchの日記
恐縮ながら4/16日にテキストマイニング勉強会を開催させていただきました。余震の続く中で発表をしてくださった皆様と出席してくださった皆様に感謝致します。とりわけUstのトラブル時に（ただ見に来てくださっただけなのに）配信を助けて下さいました高須様には重ねて感謝を申し上げます。本当に助かりました、ありがとうございました。あんちべさんの異常に上手い司会も素晴らしいものでした。僕にはできません。さて、各種まとめの記事はすでに上がっておりますし、今回の勉強会での反省はあんちべさんが行ってくれましたので、自分は少し次以降の勉強会について考えてみたいと思います。初心者向けであるということこの勉強会はテキストマイニングを専門で研究していらっしゃる方や、業務でバリバリ実践的にテキストマイニングをされている方を対象にしたものではありません。むしろ、これから自然言語処理を研究したいと思いっている学
yuiseki 2011/05/19
リンク
toilet_lunchの日記
恐縮ながら4/16日にテキストマイニング勉強会を開催させていただきました。余震の続く中で発表をしてくださった皆様と出席してくださった皆様に感謝致します。とりわけUstのトラブル時に（ただ見に来てくださっただけなのに）配信を助けて下さいました高須様には重ねて感謝を申し上げます。本当に助かりました、ありがとうございました。あんちべさんの異常に上手い司会も素晴らしいものでした。僕にはできません。さて、各種まとめの記事はすでに上がっておりますし、今回の勉強会での反省はあんちべさんが行ってくれましたので、自分は少し次以降の勉強会について考えてみたいと思います。初心者向けであるということこの勉強会はテキストマイニングを専門で研究していらっしゃる方や、業務でバリバリ実践的にテキストマイニングをされている方を対象にしたものではありません。むしろ、これから自然言語処理を研究したいと思いっている学
yuiseki 2010/12/12
リンク
2010-05-22
データ http://dl.dropbox.com/u/2996612/idf.txt.bz2 集計条件品詞は細分類を無視文書数はタイトルの行数とし、空の文書*1でもカウントを行っている*2 定義式：　単語のIDF値：　総文書数：　単語が出現する文書の総数文書数、異なり単語数総ドキュメント数 123,7429 単語異なり数 216,9308 データ形式と例タブ区切りデータ例形態素品詞 idf値あいぞう名詞 6.09252 あいぞめ名詞 5.01334 あいた感動詞 4.58737 あいたい名詞 4.46927 あいだ名詞 2.82231 *1:WP2TXTの変換によって本文がなくなる場合がある *2:めんどくさかったので・・・データ 1-gram http://dl.dropbox.com/u/2996612/1gram.bz2 2-gram http:
yuiseki 2010/05/24
便利

wikipedia

dataset

自然言語処理
リンク
1