egrep "検索語1|検索語2| ・・・・ | 検索語N" ファイル名 grepだとうまくいかなかった。 grepでも grep -e 検索語1 -e 検索語2 ・・・ -e 検索語N ファイル名 でいけるそうです Thanks to @quath
先生にもらったサーベイ記事を読む。んでもってそこでリファーされてた論文をGoogle Scholarで検索してみた。 Hierarchical classification of Web content http://portal.acm.org/citation.cfm?id=345508.345593 したら関連研究もどっさりと見つかった。 で、↓コレが特にkookleに近い感じ。 Acclimatizing taxonomic semantics for hierarchical content classification from semantics to data-driven taxonomy http://portal.acm.org/citation.cfm?id=1150446&dl=GUIDE&coll=GUIDE&CFID=8897633&CFTOKEN=10809
今まで、いかにも適当なヒューリスティクスに従ったアルゴリズムで階層構造を作っていたわけですが、もうちょっとまともな、数学とかのアイデアをベースにする方法をふとんの中で考えてて思いついた。 詳細は言えないけど、今までは、2つのタグのペアでの共起頻度しか見てなかった。つまりスカラ。 で、それだと 距離空間の条件 非負性(半正定値性): d(x, y) ≥ 0, 同一性(非退化性): d(x, y) = 0 ⇔ x = y, 対称性: d(x, y) = d(y, x), 三角不等式: d(x, y) + d(y, z) ≥ d(x, z) 距離空間の定義の4つ目の三角不等式が成り立たないので、ベクトル空間でのクラスタリングとかは多分うまくいかない 。 ex) d(犬,動物)+d(猫,動物) >= d(犬,猫) という関係は一般に成り立たない そこで、全単語との共起頻度を基底としたベクトルで各タ
ControllerのメソッドをViewで使うには helper_method XXXXX とConrollerの頭に宣言 NIESに会う。で、検索エンジンについていろいろ語らううちに、 Nutchっていうオープンソースの検索エンジンがあるんだよってのを説明してあげたりしてたら、NutchはJava製という事が判明。それもApacheのサブプロジェクトにいつのまにかなってるし。 ほー。 後で試してみよっと。 前半の復習。 今後の方針について決めた。 んで具体的には 1:コラボレイティブフィルタ 2:LSA という優先順位でやることに。 LSAに関してはSimple PCAという次元圧縮のためのアルゴリズムを教えてもらった。で、これすごいの。高校生でも分かるような単純なアルゴリズムなのに特異値分解するよりずーっと計算量が少なくて、んでもってLSAをやる上では精度もいい。 ( ;∀;) カント
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く