kitanowのブックマーク / 2012年1月10日

テキストデータを使ってお手軽にNgram統計を取る方法 - EchizenBlog-Zwei

テキストデータの言語的な特徴を知りたい場合、そのデータを使ってNgram統計を取ることがよくある。Ngram統計というのはテキスト中の連続したN文字それぞれが何回出現したかの統計をとること。といわれてもピンとこない人もいるかも知れない。実例を見るのが早いので当ブログの昨年12月の記事タイトルを使ってNgram統計を取ってみる。まず記事タイトルを一行一列でテキストファイルに書き出す。 $$ cat blog-title.txt 「PIANO OPERA FINAL FANTASY I/II/III」がとても気になるそっくりヒロインなラノベ「おおコウスケよ、えらべないとはなさけない！」を読みました PSP「探偵オペラミルキィホームズ1.5」第5話(最終話)だよ？簡潔ビットベクトル性能評価実験のソースコード(rx-trie編) 簡潔ビットベクトル性能評価実験のソースコード(ux-tri

はてなブックマーク

タグ

2012年1月10日のブックマーク (2件)

テキストデータを使ってお手軽にNgram統計を取る方法 - EchizenBlog-Zwei

サービス終了のお知らせ - NAVER まとめ

お知らせ

今週のはてなブックマーク数ランキング（2024年11月第1週）

月間はてなブックマーク数ランキング（2024年10月）

今週のはてなブックマーク数ランキング（2024年10月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス