[B! algorithm] hiro360のブックマーク

機械学習はじめよう記事一覧 | gihyo.jp

hiro360 2010/11/19

リンク

Google App Engineでランキングやページングを実現する - $koherent->diary

昨日一昨日、Google App Engine (GAE)に関する日本最大の勉強会（だと思う）appengine ja night #7 (ajn7)が行われました。その中で『ランキング問題』が話題に上がりました。『ランキング問題』とは、何十万件もの点数のデータがあるときに、App Engine上で、「◯点は何位です」と高速に求めることは難しい、という問題です。（◯ページ目を表示、というページングもこれと同じ種類の問題になります。） ajn7では「上位でない限り正確な順位は必要ないのではないか」という話になりましたが、Skiplistを用いた検索アルゴリズムを使えば正確かつ高速に順位を求めることができるのではないかと思い、実装＆検証してみました。ランキング（順位取得）のデモ下記ページで順位取得のデモを動かしています。スコア（点数）を入力すると順位と取得にかかった時間が表示されます（時

hiro360 2010/05/01

リンク

gihyo.jpの計算幾何学の連載が終了しました - kaisehのブログ

Blogopolisから学ぶ計算幾何：連載｜gihyo.jp … 技術評論社 gihyo.jpでの連載が、全12回で終了しました。当初の予定通り、線分交差、面分交差、ボロノイ図の3テーマを取り上げることができました。最終回記事のページから、GUIのデモを含めて、全プログラムのソースコードがダウンロードできます。複数の点が重なる場合などの特殊ケースを全然考慮していないので、このままでは実用に向かないですが、何かの土台としては使えるのではないかと思います。執筆にあたっては、以下の書籍が非常に参考になりました。アルゴリズムが1つ1つ丁寧に説明されていて、おすすめです。 Computational Geometry: Algorithms and Applications 作者: Mark de Berg,Otfried Cheong,Marc van Kreveld,Mark Overmar

hiro360 2010/04/13

リンク

Naive Bayes その一 - smoothing -｜JAVAでデータマイング！

JAVAでデータマイング！『情報工学の難しいそうなアルゴリズムをJAVAで実装して、ひたすらその結果を公開する』ブログになる予定。 PR Calendar <<March>> S M T W T F S 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 Theme NaiveBayes ( 2 ) スムージング ( 0 ) はじめに ( 1 ) 計算テクニック ( 0 ) 外れ値除去 ( 0 ) LSH ( 4 ) 協調フィルタリング ( 0 ) ブースティング ( 0 ) Kmeans ( 0 ) 階層的クラスタリング ( 2 ) EMアルゴリズム ( 0 ) BM ( 0 ) SVD ( 0 ) PLSI ( 0 ) LDA ( 0 ) パーセプトロン ( 0 ) A

hiro360 2010/03/18

リンク

トップクラスだけが知る「このアルゴリズムがすごい」――「探索」基礎最速マスター

トップクラスだけが知る「このアルゴリズムがすごい」――「探索」基礎最速マスター：最強最速アルゴリズマー養成講座（1/4 ページ）プログラミングにおける重要な概念である「探索」を最速でマスターするために、今回は少し応用となる探索手法などを紹介しながら、その実践力を育成します。問題をグラフとして表現し、効率よく探索する方法をぜひ日常に生かしてみましょう。まだまだ活用可能な探索前回の「知れば天国、知らねば地獄――『探索』虎の巻」で、「探索」という概念の基礎について紹介しました。すでに探索についてよく理解している方には物足りなかったかと思いますが、「問題をグラフとしてうまく表現し、そのグラフを効率よく探索する」というアルゴリズマー的な思考法がまだ身についていなかった方には、得るものもあったのではないでしょうか。前回は、「幅優先探索」と「深さ優先探索」という、比較的単純なものを紹介しましたが

hiro360 2010/02/09

algorithm

リンク

経路探索アルゴリズムの「ダイクストラ法」と「A*」をビジュアライズしてみた - てっく煮ブログ

as詳解 ActionScript 3.0アニメーション ―衝突判定・AI・3DからピクセルシェーダまでFlash上級テクニックを読んでいて、経路探索のアルゴリズムで A* が取り上げられていました。A* については、いろいろ検索して調べたりもしたのですが、やっぱり本に書いてあると理解しやすいですね。せっかくなので自分流に実装してビジュアライズしてみました。ダイクストラ法まずは A* の特別なケースでもあるダイクストラ法から見ていきます。クリックすると探索のシミュレーションが開始します。スタート地点(S)からゴール(G)への探索が始まります。色がついたところが「最短経路が決定した場所」です。スタート地点から少しずつ探索が完了していきます。半分ぐらい完了しました。まだまだ進みます。最後まで終わりました。最短経路を黒色矢印で表示しています。ダイクストラ法は、スタート地点から近いノード(=マス

hiro360 2010/01/29

algorithm

リンク

知れば天国、知らねば地獄――「探索」虎の巻

いよいよ今回から、具体的なアルゴリズムの紹介に入っていきます。今回は、プログラミングにおける重要な概念である「探索」について考えます。グラフに変換し、探索する、という流れを知るとともに、そのグラフを効率よく探索する方法について紹介します。今後紹介していくアルゴリズムについてお待たせしました！　「最強最速アルゴリズマー養成講座」という連載タイトルのとおり、今回の連載からいよいよ具体的なアルゴリズムの紹介に入っていきたいと思います。しかし、それを読んでいただく前に、1つ注意してもらいたいことがあります。連載第3回でもお伝えしたように、「問題を、既存の適当なアルゴリズムに当てはめる」という考え方は、非常に危険である、ということです。筆者の経験上、TopCoderでRedCoder以上を目指すのであれば、回答時間短縮のために、いままでのパターンを利用するのも方法の1つなのですが、本連載では

hiro360 2010/01/21

リンク

アルゴリズムの紹介

ここでは、プログラムなどでよく使用されるアルゴリズムについて紹介したいと思います。元々は、自分の頭の中を整理することを目的にこのコーナーを開設してみたのですが、最近は継続させることを目的に新しいネタを探すようになってきました。まだまだ面白いテーマがいろいろと残っているので、気力の続く限りは更新していきたいと思います。今までに紹介したテーマに関しても、新しい内容や変更したい箇所などがたくさんあるため、新規テーマと同時進行で修正作業も行なっています。アルゴリズムのコーナーで紹介してきたサンプル・プログラムをいくつか公開しています。「ライン・ルーチン」「円弧描画」「ペイント・ルーチン」「グラフィック・パターンの処理」「多角形の塗りつぶし」を一つにまとめた GraphicLibrary と、「確率・統計」より「一般化線形モデル」までを一つにまとめた Statistics を現在は用意して

hiro360 2009/10/20

リンク

BLOG::broomie.net: 機械学習の勉強を始めるには

thriftとかhadoopなど，何やらいろいろと手を出してしまい，ここのところブログの更新が滞ってしまっていますが，今日は前から書きたかったトピックについて自分へのメモの意味も含めて記しておきたいと思います．はじめに最近，といっても結構前からなのですが，海外のブログなどで「機械学習の勉強を始めるガイドライン」についてのエントリーがいくつか見られ，かつ，議論も少し盛り上がっています．僕は機械学習が好きなだけで，専門というにはほど遠いのですが，僕も一利用者としてはこのトピックに関してはとても興味があります．機械学習というと，色々な数学的な知識が必要であったり，統計学や人工知能の知識も必要になったりしまったりと，専門的に学ぶ機会が無かった人にとっては興味が湧いてもなかなか始めるには尻込みしてしまうことかと思います．今日紹介するエントリーは，そんな方々にヒントになるような内容になっていると

hiro360 2009/10/20

リンク

Alcor の Abbreviation Scoring - steps to phantasien(2009-09-12)

同僚の生産性ツール愛好家が熱に浮かされて言った. "QuickSilver の検索がすごいんだよ!" どう凄いのかというと, たとえば "Skype を検索するのに <sp> でいい!" らしい. それは凄いのかも. 私もいちおう QuickSilver を使っているけれど, 素敵機能の類はまったく活用していない. だいたい私の使うアプリケーションはどれも一文字で特定できる. Firefox, Emacs, iTerm, Activity Monitor... そういえば iTunes は iTerm と被ってる. ためしに <iu> と打ってみたら iTunes にマッチする. なんとなく凄い気がしてきた. 同僚はこのアルゴリズムが気になるらしい. 編集距離の仲間かとも思ったけれど, 違う気がする. とりあえずぐぐってみたところ, QuickSilver は 2007 年にオープンソー

hiro360 2009/09/24

algorithm

リンク

『Blogopolisの裏側』発表資料 - kaisehのブログ

昨日のSeasar Conference 2009 Autumnで発表させていただいた『Blogopolisの裏側』の資料を公開します。 Blogopolisの裏側View more documents from kaiseh. 資料の28枚目に、重み付きボロノイ図の重心ベースレイアウトの説明用動画がありました。その動画は以下にアップしました。講演者の皆さん、運営の皆様、本当にお疲れ様でした！追記 id:mi-changさん p14ででてる「頂点数」、「多角形数」って何を意味してるんだろう?頂点数が多いということはより多くのタグと結びついているってこと? これは、1つ1つのエントリーやブログ、地区（カテゴリ）に対応する土地の幾何データのことです。例えば、5角形の土地の場合は5個の頂点座標が必要になります。土地の頂点数はレイアウト上の理由で決まるもので、タグとは直接関係はありません。

hiro360 2009/09/15

リンク

Undo,Redoの実装つづき - あしあと日記

いや、悪い反応では無いのでむしろ喜ぶべきことなんだけど、意外と好評なエントリーなので続きを書きます。タイトルだけは前回同様釣りっぽいタイトルで＾＾前回のエントリーが思ったより反響が大きくてびっくりしてます。なんか炎上してるのか？って思っちゃいましたｗ炎上っていうのはさすがにネガティブだし、内容とかけ離れすぎてるのでタイトル変えました。さて前回はコマンドパターンとコマンドの実装について書きましたが、今回は予告どおり実行部の実装についてです。といっても、今回はとっても単純な話です。Undo用にスタックにコマンドを積んで、Undoするよって呼ばれたら、スタックからコマンドをpopしてきてundoの処理を実行するだけです。ただし、Redoも出来ないと行けないので、実行したコマンドは今度はRedo用のスタックに積んでいきます。実装は次のようになります。まず前回の二番目のパターンに則っ

hiro360 2009/07/10

リンク

Undo,Redoの実装って何十回もやってる気がする - あしあと日記

undo,redoの実装って何十回もやってる気がする。毎回同じパターンだ。undo,redoが登場するような編集ソフトは大体同じパターンに落とせる。フレームワークも作った。ブログにそういう内容を書きたいが面倒くさい。需要があれば面倒でも書くんだけどなあ http://twitter.com/youpychan/status/994486992 という発言をしたら何人か反応を頂いたので書いてみることにする。需要があるなら書こう。undo,redoだけじゃなくてグラフィカルな編集ソフト全般の話をいつかまとめたいと思っていたので、ちょいとシリーズで書いてみようかとおもう http://twitter.com/youpychan/status/994636764 書こうと思う。まずUndo,Redoについて。 Unod,Redoってみなさんどういう風に実装しているでしょうか？私はコマンドパタ

hiro360 2009/07/10

リンク

互いに関連のないオブジェクトを１つのインターフェースにまとめて共通的にアクセス可能にするライブラリを作ってみた - 矢野勉のはてな日記

Javaもともとやりたかったことは、あるオブジェクト（インスタンス）がすでに手元にあるそのオブジェクトのクラスは何らかの理由で継承不能そのオブジェクトの一部メソッドをオーバーライドしたいそのオブジェクトにメソッドを１つ足したいという、JavaScriptならすぐにできちゃうことがしたかった。で、これって、オーバーライドしたいメソッドと、追加したいメソッドだけを持ったあるオブジェクトAを用意して、メソッド呼び出し時に該当メソッドの時だけAに委譲しちゃえばできるよね、と思った。他のメソッドはすべてもとのオブジェクトに委譲する。で委譲コードを書いてみても、すんごいめんどくさい。たくさんのメソッドを定義して、ただ委譲するだけのコードをかかないといけない。でCGLibあたりにそういうのがあるだろうと思って見てみたのですが、どうもないみたい。なんかありがちな要望だと思ったんですが、もうちょっ

hiro360 2009/06/19

リンク

しかしSVMも最近は速いらしい - 射撃しつつ前転改

Complement Naive BayesがSVMより速いよーと主張していたので、SVMもなんか最近は速くなってるらしいよ、という事を紹介してみたい。近年はSVMなどの学習を高速に行うという提案が行われており、実装が公開されているものもある。その中の一つにliblinearという機械学習ライブラリがある。ライブラリ名から推測できる通り、liblinearではカーネルを使うことが出来ない。しかし、その分速度が速く、大規模データに適用できるという利点がある。 liblinearを作っているのはlibsvmと同じ研究グループで、Chih-Jen Linがプロジェクトリーダーであるようだ。libsvmはかなり有名なライブラリで、liblinearにはそういった意味で安心感がある。（liblinearの方は公開されてしばらくは割とバグがあったらしいけど。） liblinearにはL1-SVM, L

hiro360 2008/12/22

リンク

新はてなブックマークでも使われてるComplement Naive Bayesを解説するよ - 射撃しつつ前転改

新はてブ正式リリース記念ということで。もうリリースから何週間も経っちゃったけど。新はてなブックマークではブックマークエントリをカテゴリへと自動で分類しているが、このカテゴリ分類に使われているアルゴリズムはComplement Naive Bayesらしい。今日はこのアルゴリズムについて紹介してみる。 Complement Naive Bayesは2003年のICMLでJ. Rennieらが提案した手法である。ICMLというのは、機械学習に関する（たぶん）最難関の学会で、採択率はここ数年は30%を切っている。2003は119/371で、32.1%の採択率だったようだ。 Complement Naive Bayesの位置づけは実装が簡単学習時間が短い性能もそこそこよいという感じで、2003年段階にあっても、絶対的な性能ではSVMに負けていた。しかし、学習が早いというのは実アプリケーシ

hiro360 2008/12/19

リンク

はてなブックマーク全文検索機能の裏側

そろそろ落ち着いて来たころ合いなので、はてなブックマーク全文検索機能の裏側について書いてみることにします。 PFI側は、8月ぐらいからバイトに来てもらっているid:nobu-qと、id:kzkの2人がメインになって進めました(参考: 制作スタッフ)。数学的な所は他のメンバーに色々と助言をしてもらいました。はてな側は主にid:naoyaさんを中心に、こちらの希望や要求を聞いて頂きました。開発期間は大体1〜2か月ぐらいで、9月の上旬に一度id:naoyaさんにオフィスに来て頂いて合宿をしました。その他の開発はSkypeのチャットで連絡を取りながら進めてました。インフラ面ではid:stanakaさん、契約面ではid:jkondoさん、id:kossyさんにお世話になりました。全文検索エンジンSedue 今回の検索エンジンはSedue(セデュー)という製品をベースにして構築しています。Sedu

hiro360 2008/12/17

リンク

講義資料配列解析アルゴリズム特論I 情報生命科学基礎/演習他 -渋谷哲朗

平成20年度東京大学大学院情報理工学系研究科・コンピュータ科学専攻配列解析アルゴリズム特論I 4/10 4/17 4/24 5/1 5/8 5/15 5/22 5/29 (The probl em to be reported - in English) 6/5 6/12 6/19 7/3 7/10 7/17 東京大学理学部・情報科学科情報科学特別講義３　（情報科学とバイオインフォマティクス） 6/10 7/15 7/22 東京大学大学院新領域創成科学研究科・情報生命科学専攻情報生命科学基礎/演習 5/27 6/17 京都大学大学院薬学研究科・医薬創成情報科学専攻情報科学概論 6/3 中央大学大学院理工学系研究科・物理学専攻物理学特別講義第二 TBA 創価大学工学部生命情報工学科 TBA TBA 戻る Copyright (c) 2004- Tetsuo

hiro360 2008/09/20

リンク

GoogleのMapReduceアルゴリズムをJavaで理解する

GoogleのMapReduceアルゴリズムをJavaで理解する：いま再注目の分散処理技術（前編）（1/2 ページ）最近注目を浴びている分散処理技術「MapReduce」の利点をサンプルからアルゴリズムレベルで理解し、昔からあるJava関連の分散処理技術を見直す特集企画（編集部）いま注目の大規模分散処理アルゴリズム最近、大規模分散処理が注目を浴びています。特に、「MapReduce」というアルゴリズムについて目にすることが多くなりました。Googleの膨大なサーバ処理で使われているということで、ここ数年の分散処理技術の中では特に注目を浴びているようです（参考「見えるグーグル、見えないグーグル」）。MapReduceアルゴリズムを使う利点とは、いったい何なのでしょうか。なぜ、いま注目を浴びているのでしょうか。その詳細は「MapReduce : Simplified Data Proc