[B! algorithm][study] torutoのブックマーク

toruto id:toruto

algorithmとstudyに関するtorutoのブックマーク (11)

Streaming k-means approximation - tsubosakaの日記
実家に帰省中，電車の中で読んでた論文の紹介。概要 k-meansはクラスタリングテクニックとして非常に基本的な手法である。しかし、k-meansでは全データに対してラベリングを複数回繰り返す必要があり、全データ点を保存する必要がある、そこでk-meansの出力であるk個のクラスタ中心をワンパスで見つける方法を提案する。ここで得られるクラスタ中心は最適値と比較したときにO(log k)の近似となっているストリームアルゴリズムについて本論文で言っているStreamingの意味としては入力を前から見ていって、すべて保存しないアルゴリズムのことを言っている。いわゆるオンラインアルゴリズムのように入力が入ってくるたびに何かしらの結果が得られるわけではない。また，ストリームの長さは有限である事を仮定している。 k-meansとは k-meansとはデータ点 X = {x_1 , ... x_
toruto 2009/12/31
algorithm

clustering

study

論文
リンク
PFIセミナー資料: 研究開発2009 - DO++
昨日ありました、PFIでのセミナーでの発表資料です。研究開発のチームの紹介の後に、2009年サーベイした論文の中で面白かった論文を機械学習、データ構造、画像処理で紹介してます紹介した話は - Multi-class CW (Multi-class Confidence Weighted Learning,) - AROW (Adaptive Regularization Of Weight Vector) - Online-EM algorithm - 全備簡潔木 (Fully-functional Succinct Tree) - 圧縮連想配列 (compressed function) - PatchMatch です。＃資料中の簡潔木の表現方法のDFUDSの紹介でtxも使用と書いてあるのは、公開しているtxでは、 LOUDSのみをつかっていますので正確ではありませんでした。これ
toruto 2009/12/26
画像処理

機械学習

algorithm

資料

論文

study
リンク
[機械学習] トピックモデル関係の論文メモ - tsubosakaの日記
最近読んだトピックモデル関係の論文のざっとしたメモ。内容については間違って理解しているところも多々あると思います。 (追記 12/24) 最後のほうに論文を読む基礎となる文献を追加しました。 Efficient Methods for Topic Model Inference on Streaming Document Collections (KDD 2009) 論文の話は2つあって一つ目がSparseLDAというCollapsed Gibbs samplerの省メモリかつ高速な方法の提案と2つ目はオンラインで文章が入力されるような場合において訓練データと新規データをどう使うかという戦略について述べて実験している。 Collapsed Gibbs samplerを高速化しようという論文はPorteous et al.(KDD 2008)でも述べられているけどそれよりも2倍ぐらい高速(通
toruto 2009/12/24
機械学習

algorithm

study
リンク
Web上の膨大な画像に基づく自動画像補完技術の威力 - A Successful Failure
画像内に映り込んだ所望のオブジェクトを排除し、違和感の無い画像を生成するシーン補完技術に関しては近年複数の研究成果が発表されている。しかし中でも2007年のSIGGRAPHにて米カーネギメロン大のJames HaysとAlexei A. Efrosが発表した手法*1はブレークスルーとなりうる画期的なものだ。論より証拠、早速適用例を見てみよう。本エントリで利用する画像はPresentationからの引用である。元画像の中から邪魔なオブジェクト等の隠蔽すべき領域を指定すると、その領域が補完された画像が自動的に生成される。アルゴリズム効果は抜群だがアイデア自体は単純なものだ。Web上には莫大な数量の画像がアップされており、今や対象となる画像の類似画像を一瞬にして大量に検索することができる。そこで、検索された類似画像で隠蔽領域を完全に置き換えてしまうことで違和感の無い補完画像を生成するのだ。
toruto 2009/06/30
テストセットが公開されていたんだ。「20件候補が提示されれば、1枚は成功画像が見つかるだろう。」スコア算出: 1)シーンの適合度、2)コンテキストマッチング適合度（色＋テクスチャ）、3)グラフカットコスト

algorithm

画像処理

study
リンク
コサイン距離ベースのLSHをRubyで - <s>gnarl,</s>技術メモ”’<marquee><textarea>￥
参考文献:Web+DB press vol.49 レコメンド特集のPart3など。アルゴリズムの概要詳細(特に数学的な)はぐぐれ。モチベーションとしては、高次元における近傍点探索を高速で行いたい。まじめにやるとどう工夫しても計算量がすごいことになるので、近似で。どうするかというと、「距離が近いと同じような値になるハッシュ関数」を使う。あるベクトルの近傍を求めたい場合、そのベクトルのハッシュと同じ(もしくは近い)値のハッシュを持つベクトルをテーブルから引いてきて返す。計算量がどうなるかはややこしいけど、とりあえず全部探すよりは速い。で、どういう関数をハッシュとするのか。これは距離の定義によって異なる。ハミング距離、コサイン距離、ユークリッド距離などにはそういった関数の存在が知られている。コサイン距離の場合、ランダムなベクトルをいくつか用意して、入力されたベクトルがそれらと似ている
toruto 2009/04/18
algorithm

programming

study
リンク
自然言語処理は Python がいちばん - 武蔵野日記
現在大学1年生の人で3年後には NAIST に (というか松本研に) 来たいという人から「どんなプログラミング言語やっておくといいですか」と質問されたりするのだが、なかなか答えるのは難しい。自分は Perl → Python がメインでときどき C++/C# を使ったりするのだが、どれが一番いいかはなんとも言えないので、自然言語処理以外に転向する可能性も考えると、C とか C++ とか Java とか(授業でそちらをやるのであれば)を最初の武器に選んだ方がいいのでは、と思ってはいる。そんなこんなで最近 Hal Daume III (機械学習を用いた自然言語処理では非常に有名な人) のブログで Language of Choice というタイムリーなエントリーが出ていたので、紹介すると、「それなりに大きな自然言語処理のプロジェクトでどのプログラミング言語を使うのか」というアンケート結果が出
toruto 2009/04/04
algorithm

programming

java

c++

自然言語処理

python

study
リンク
Google WSDM'09講演翻訳：大規模な情報検索システム構築における課題（１） - llameradaの日記
GoogleのFellowであるJeffrey Dean氏のWSDM'09における講演"Challenges in Building Large-Scale Information Retrieval Systems"のスライドを翻訳してみました。Googleの検索システムの10年間の進化の軌跡が紹介されており、興味深い話が満載です。個人的にはディスクの外周部と内周部を使い分けている話がツボでした。なお、イタリック体で一部解説・感想をいれています。翻訳は素人なので詳しくは元の資料を参照してください。スライドの入手元：Jeffrey Dean – Google AI 検索システムに取り組む理由チャレンジングなサイエンスとエンジリアニングのブレンド多くの魅力的な未解決な問題が存在する。 CS（コンピュータサイエンス）の多数の領域にまたがる。アーキテクチャ、分散システム、アルゴリズム、圧
toruto 2009/03/18
algorithm

Google

読み物

資料

study

search
リンク
プログラミングのための確率統計（仮）
数学のプロをめざさない方に向けた確率・統計の解説. ちびちび執筆中. お気づきの点は「なんでも」までお知らせください. ダウンロード原稿 PDF (未完成版のため誤りや抜けがあります) 冒頭 …… とりあえず雰囲気を見るにはこちら全体特徴「確率は測度だ」という本格的な見方を, アマチュア向けにかみくだいて解説しています (1章) そのおかげで, 条件つき確率だの期待値の性質だのにクリアなイメージが与えられます (2章, 3章) 「引きのばせば密度は薄まる」といった直感的な図解を多用し, さらに「何がしたくて」という意図の説明も重視しました (4章) 応用上必要なのに入門書では省かれがちな多変数の議論も, しっかりと (5章) リンクプログラミングのための線形代数 (前著の非公式サポートページ) ためし書き (本稿の原型) 更新履歴 [2008-08-10] 演習 5.20 の
toruto 2009/03/14
algorithm

math

science

study

統計

book

programming

説明

警察
リンク
Laboratory for Web Algorithmics - Home
Mambo - the dynamic portal engine and content management systemUbiC rawler is a scala ble, fault-tolerant and fully distributed web crawler developed in collaboration with the Istituto di Informatica e Telematica. The first report on the design of UbiC rawler won the Best Poster Award at the Tenth World Wide Web Conference. Once a part of the web has been crawled, the resulting graph is very large—yo
toruto 2008/11/27
web

algorithm

study
リンク
講義資料配列解析アルゴリズム特論I 情報生命科学基礎/演習他 -渋谷哲朗
平成20年度東京大学大学院情報理工学系研究科・コンピュータ科学専攻配列解析アルゴリズム特論I 4/10 4/17 4/24 5/1 5/8 5/15 5/22 5/29 (The probl em to be reported - in English) 6/5 6/12 6/19 7/3 7/10 7/17 東京大学理学部・情報科学科情報科学特別講義３　（情報科学とバイオインフォマティクス） 6/10 7/15 7/22 東京大学大学院新領域創成科学研究科・情報生命科学専攻情報生命科学基礎/演習 5/27 6/17 京都大学大学院薬学研究科・医薬創成情報科学専攻情報科学概論 6/3 中央大学大学院理工学系研究科・物理学専攻物理学特別講義第二 TBA 創価大学工学部生命情報工学科 TBA TBA 戻る Copyright (c) 2004- Tetsuo
toruto 2008/09/20
algorithm

study
リンク
アルゴリズムの紹介
ここでは、プログラムなどでよく使用されるアルゴリズムについて紹介したいと思います。こんなことやって意味あるのかどうか正直言って迷いました。プログラマはたいてい知っているような内容だし見る人もいないんじゃないかと思いましたが、これからプログラミングを始めてみようという方にとっては参考になるかもしれないし、何よりも自分にとって頭の中を整理できたりするので、これから定期的にやっていこうかと考えてます。ところで、紹介する内容はほとんど過去に出版された書物関係から抜粋しています。一応下の方に参考文献として挙げておきますので興味を持たれた方は書店などで探してみてはいかがでしょうか？ということで、まずはライン・ルーチン(画面に直線を描画する)についての紹介です。
toruto 2008/07/03
algorithm

programming

c++

画像処理

study

説明
リンク
1