タグ

ブックマーク / ryogrid.hatenablog.com (6)

  • grepでOR検索 - Ryoの開発日記 Neo!

    egrep "検索語1|検索語2| ・・・・ | 検索語N" ファイル名 grepだとうまくいかなかった。 grepでも grep -e 検索語1 -e 検索語2 ・・・ -e 検索語N ファイル名 でいけるそうです Thanks to @quath

    grepでOR検索 - Ryoの開発日記 Neo!
  • Firefox アルク検索プラグイン - Ryoの開発日記 Neo!

    Webで使える英和辞書としては、科学やエンジニアリング系の単語にも強いスペースアルクをもっぱら使っているのだが、それをFirefoxの検索バーから検索したくなったので、プラグインを作ってみた。 アルク辞書検索 アルク辞書検索 Shift_JIS http://www2.alc.co.jp これをalc.xmlとでも名前をつけて、UTF-8で保存、そして、firefoxのインストールディレクトリのsearchpluginsに置いておけばOK。 あー快適だー。 ※Firefox2.0じゃないと動かないかも

    Firefox アルク検索プラグイン - Ryoの開発日記 Neo!
  • 情報特別演習のレポート書き上げた - Ryoの開発日記 Neo!

    ふぅ。 置いておくので見たい人はどうぞ データマイニングによる情報推薦サービスの開発 Kikker,はてブおせっかい,はてブまわりのひと,kookleの舞台裏がわかりますよ。 #あと、今まで秘密だったkookleのアルゴリズムも..... #文章はかなり手抜きなので注意。。

    情報特別演習のレポート書き上げた - Ryoの開発日記 Neo!
  • kookleっぽい論文見つけた - Ryoの開発日記 Neo!

    先生にもらったサーベイ記事を読む。んでもってそこでリファーされてた論文をGoogle Scholarで検索してみた。 Hierarchical classification of Web content http://portal.acm.org/citation.cfm?id=345508.345593 したら関連研究もどっさりと見つかった。 で、↓コレが特にkookleに近い感じ。 Acclimatizing taxonomic semantics for hierarchical content classification from semantics to data-driven taxonomy http://portal.acm.org/citation.cfm?id=1150446&dl=GUIDE&coll=GUIDE&CFID=8897633&CFTOKEN=10809

    kookleっぽい論文見つけた - Ryoの開発日記 Neo!
  • kookleの階層構造作成アルゴリズムをひらめいた - Ryoの開発日記 - 水曜日#p1

    今まで、いかにも適当なヒューリスティクスに従ったアルゴリズムで階層構造を作っていたわけですが、もうちょっとまともな、数学とかのアイデアをベースにする方法をふとんの中で考えてて思いついた。 詳細は言えないけど、今までは、2つのタグのペアでの共起頻度しか見てなかった。つまりスカラ。 で、それだと 距離空間の条件 非負性(半正定値性): d(x, y) ≥ 0, 同一性(非退化性): d(x, y) = 0 ⇔ x = y, 対称性: d(x, y) = d(y, x), 三角不等式: d(x, y) + d(y, z) ≥ d(x, z) 距離空間の定義の4つ目の三角不等式が成り立たないので、ベクトル空間でのクラスタリングとかは多分うまくいかない 。 ex) d(犬,動物)+d(,動物) >= d(犬,) という関係は一般に成り立たない そこで、全単語との共起頻度を基底としたベクトルで各タ

    kookleの階層構造作成アルゴリズムをひらめいた - Ryoの開発日記 - 水曜日#p1
  • 2006-06-20

    ControllerのメソッドをViewで使うには helper_method XXXXX とConrollerの頭に宣言 NIESに会う。で、検索エンジンについていろいろ語らううちに、 Nutchっていうオープンソースの検索エンジンがあるんだよってのを説明してあげたりしてたら、NutchはJava製という事が判明。それもApacheのサブプロジェクトにいつのまにかなってるし。 ほー。 後で試してみよっと。 前半の復習。 今後の方針について決めた。 んで具体的には 1:コラボレイティブフィルタ 2:LSA という優先順位でやることに。 LSAに関してはSimple PCAという次元圧縮のためのアルゴリズムを教えてもらった。で、これすごいの。高校生でも分かるような単純なアルゴリズムなのに特異値分解するよりずーっと計算量が少なくて、んでもってLSAをやる上では精度もいい。 ( ;∀;) カント

    2006-06-20
  • 1