タグ

2010年5月13日のブックマーク (3件)

  • 誤り許容カウント法(lossy count method)のサンプルプログラム

    誤り許容カウント法(lossy count method)のサンプルプログラム 2010-05-12-1 [Programming][Algorithm] 1行1ラベル形式で、 1万種類のラベルを持つ、 100万行のデータがあるとします (ラベルの頻度分布はジップの法則にだいたい準拠するとします)。 各ラベルの頻度をハッシュを使ってカウントするとなると、ハッシュエントリ1万個分のメモリ容量が必要になります。(1万じゃたいしたことないな、という人はもっと大きな数に置き換えて読んでください。) しかし、カウント後に高頻度のものしか使わないということも多いと思います。例えば頻度5000以上のもののみ取り出してあとはいらない、とか。 そうなると、全部のラベルのカウントデータを最後まで保持するのは無駄に思えます。 そこで登場するのが「誤り許容カウント法(lossy count method)」。 低

    誤り許容カウント法(lossy count method)のサンプルプログラム
  • 【書評・感想】オンラインアルゴリズムとストリームアルゴリズム

    書評・感想】オンラインアルゴリズムとストリームアルゴリズム 2010-05-11-1 [BookReview][Algorithm] とりあえず読了。 (ref. [2007-09-13-2]) ■徳山豪 / オンラインアルゴリズムとストリームアルゴリズム (アルゴリズム・サイエンスシリーズ 5 数理技法編) 私の場合こういう教科書は「読了した」といっても「ざっと目を通した」レベルで、証明とかは「あとで理解する」とタグ付けし飛ばし飛ばしなのです。「の内容の理解」とはほど遠いのです。 第4章の冒頭にこんな記述が。 読み方としては、まずは数式や証明の詳細はスキップして全体のストーリーとアルゴリズムの設計の手法を眺めて、その後で解析の部分の数式をチェックするというのがお奨めである。 ということで、難しいところは「あとで読む」! 今月、来月いっぱいはちょこちょこ見直すことになるかと。 そんなわ

    【書評・感想】オンラインアルゴリズムとストリームアルゴリズム
  • サーベイの仕方・論文の読み方(how-to-survey.pdf)

    2008年6月5日 4403 is written 目次  サーベイの仕方  サーベイとは?  サーベイは何故必要か?  取っかかりの見つけ方  発表資料からのサーベイ  サーベイの流れ  サーベイ資料のまとめ方  論文の読み方  全部読む必要はない!  主な論文の構成  参考文献から文献を引く  英論文の読み方  まとめ 2 4403 is written サーベイとは? サーベイは何故必要か? 取っかかりの見つけ方 発表資料からのサーベイ サーベイの流れ サーベイ資料のまとめ方 3 4403 is written サーベイとは?  既存の資料・研究を調査すること  研究の第一歩であり,常に行うべき基  サーベイができなければ,研究はできない 4 4403 is written サーベイは何故必要か?  分野の現状・動向を知る  今まで,どういう研究