第2回 データ構造と情報検索と言語処理勉強会 #DSIRNLP - [PARTAKE] 自然言語処理はじめました by @phylloさん自然言語処理はじめました - Ngramを数え上げまくるDSIRNLPで発表させていただきました - Negative/Positive Thinking 自己紹介:Negative/Positive Thinking 今日の概要:いろんな方法でN-gram頻度を数える N-gramとは? 隣り合うN個の塊のこと 単語n-gramや文字n-gramがある ナイーブな方法 ハッシュに入れて数える 問題:大規模テキストやNを大きくしたら? N-gramの異なり数はNに対して指数的に爆発する 解決法:N-gramをメモリに保存しない! Suffix Arrayを使った方法 入力文のSuffix Arrayを使った方法 メモリの節約になってる?:3*N+4byt