サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
買ってよかったもの
toilet-lunch.hatenadiary.org
恐縮ながら4/16日にテキストマイニング勉強会を開催させていただきました。 余震の続く中で発表をしてくださった皆様と出席してくださった皆様に感謝致します。 とりわけUstのトラブル時に(ただ見に来てくださっただけなのに)配信を助けて下さいました高須様には重ねて感謝を申し上げます。本当に助かりました、ありがとうございました。 あんちべさんの異常に上手い司会も素晴らしいものでした。僕にはできません。 さて、各種まとめの記事はすでに上がっておりますし、今回の勉強会での反省はあんちべさんが行ってくれましたので、自分は少し次以降の勉強会について考えてみたいと思います。 初心者向けであるということ この勉強会はテキストマイニングを専門で研究していらっしゃる方や、業務でバリバリ実践的にテキストマイニングをされている方を対象にしたものではありません。むしろ、これから自然言語処理を研究したいと思いっている学
まあ誰が作っても大差ないですし、僕が作ることでどこかの誰かの大切な時間を 少しでも節約出来れば良いな、という目的で以下のデータ作りました。 1-5形態素のNgram頻度データ 単語のIDFリスト 文字化けとか割と気にせず進めてしまったのであまりクォリティは高くないと思いますが、 「Google N-gramでかすぎて持て余す!」という人なんかが適当に使う分には 適度な量なのではないでしょうか。
データ http://dl.dropbox.com/u/2996612/idf.txt.bz2 集計条件 品詞は細分類を無視 文書数はタイトルの行数とし、空の文書*1でもカウントを行っている*2 定義式 : 単語のIDF値 : 総文書数 : 単語が出現する文書の総数 文書数、異なり単語数 総ドキュメント数 123,7429 単語異なり数 216,9308 データ形式と例 タブ区切り データ例 形態素 品詞 idf値 あいぞう 名詞 6.09252 あいぞめ 名詞 5.01334 あいた 感動詞 4.58737 あいたい 名詞 4.46927 あいだ 名詞 2.82231 *1:WP2TXTの変換によって本文がなくなる場合がある *2:めんどくさかったので・・・ データ 1-gram http://dl.dropbox.com/u/2996612/1gram.bz2 2-gram http:
新宿の映画館に会社の知人と三人でヱヴァ破を見に行った帰り。 京急線あたりの高架下、占い師が何人もいるところの柱の根に「私の志集 三百円」と書いた板を持った女性が佇んでいた。あたりを歩く若者の雑踏やそこら中で流れている賑やかな音と比べて明らかに異様なたたずまいで、若いころの中島みゆきみたいな人だなと思って最初は通り過ぎた。通り過ぎたあたりであまりにも気になってきて、何度も振り向いてどうしたものかと思った。財布には五千円札が一枚である。三百円のものを五千円札で買われても鬱陶しいであろうと思いお金を崩しにコンビニに急いだ。新宿には明るくないので近場でコンビニなど見当たらず、500m以上も離れたam/pmで食いたくもないミンティアを買ってお釣りの中から三百円を掌に残し、もと来た道を早足で戻る。まだ10分も経っていないのに、まだあの女性はいるだろうかと気持ちが逸った。 雨上がり特有の汗をかきながら戻
このページを最初にブックマークしてみませんか?
『toilet_lunchの日記』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く