[B! algorithm] basiのブックマーク

機械学習はじめよう記事一覧 | gihyo.jp

basi 2011/11/24

リンク

データマイニングで使われるトップ10アルゴリズム - 『企業成長の方程式 ― AIDグロースコミットによる成長戦略』

2006年のデータマイニング学会、IEEE ICDMで選ばれた「データマイニングで使われるトップ10アルゴリズム」に沿って機械学習の手法を紹介します（この論文は@doryokujin君のポストで知りました、ありがとうございます！）。必ずしも論文の内容には沿っておらず個人的な私見も入っていますので、詳細は原論文をご確認下さい。また、データマイニングの全体観をサーベイしたスライド資料がありますので、こちらも併せてご覧下さい。データマイニングの基礎 View more presentations from Issei Kurahashi 1. C4.5 C4.5はCLSやID3といったアルゴリズムを改良してできたもので、決定木を使って分類器を作ります。決定木といえばCARTが良く使われますが、CARTとの違いは以下のとおりです。 CARTは2分岐しかできないがC4.5は3分岐以上もできる C

basi 2011/11/24

リンク

3日で作る高速特定物体認識システム (1) 物体認識とは - 人工知能に関する断創録

情報処理学会の学会誌『情報処理』の2008年9月号（Vol.49, No.9）に「3日で作る高速特定物体認識システム」という特集記事があります。OpenCVを用いた面白そうなプロジェクトなのでレポートにまとめてみようと思います。3日でできるかはわからないけど。残念ながらこの記事はPDFを無料でダウンロードすることができません（CiNiiでオープンアクセス可能になったみたいです）。なので会員以外で元記事が読みたい人は図書館でコピーする必要があるかも・・・また、2009年9月号の人工知能学会誌にも物体認識の解説「セマンティックギャップを超えて―画像・映像の内容理解に向けてー」があります。こちらも非常に参考になりますが同様にPDFが手に入りません・・・。他にもいくつかわかりやすい総説論文へのリンクを参考文献にあげておきます。物体認識とは物体認識（object recognition）は、画

basi 2011/11/23

リンク

類似画像検索システムを作ろう - 人工知能に関する断創録

C++版のOpenCVを使ってカラーヒストグラムを用いた類似画像検索を実験してみました。バッチ処理などのスクリプトはPythonを使ってますが、PerlでもRubyでも似たような感じでできます。指定した画像と類似した画像を検索するシステムは類似画像検索システムと言います。GoogleやYahoo!のイメージ検索は、クエリにキーワードを入れてキーワードに関連した画像を検索しますが、類似画像検索ではクエリに画像を与えるのが特徴的です。この分野は、Content-Based Image Retrieval (CBIR)と呼ばれており、最新のサーベイ論文（Datta,2008）を読むと1990年代前半とけっこう昔から研究されてます。最新の手法では、色、形状、テクスチャ、特徴点などさまざまな特徴量を用いて類似度を判定するそうですが、今回は、もっとも簡単な「色」を用いた類似画像検索を実験してみます

basi 2011/10/31

リンク

Visual Wordsを用いた類似画像検索 - 人工知能に関する断創録

類似画像検索システムを作ろう（2009/10/3） 3日で作る高速特定物体認識システム（2009/10/18）に続くOpenCV プロジェクト第三弾です。今回は、上の二つをふまえてカラーヒストグラムではなく、局所特徴量（SIFTやSURF）を用いた類似画像検索を試してみます。局所特徴量はグレースケール画像から抽出するため、カラーヒストグラムと違って色は見ていません。画像の模様（テクスチャ）で類似性を判定します。実験環境は、Windows 7、MinGW C++コンパイラ、OpenCV2.0、Python 2.5です。EclipseでMinGWを使う方法はEclipseでOpenCV（2009/10/16）を参照してください。Visual C++にはないディレクトリスキャン関数を一部使っているのでVisual C++を使う場合は、少しだけ修正が必要です。 Bag-of-Visual Wor

basi 2011/10/31

リンク

高速な安定ソートアルゴリズム "TimSort" の解説 - Preferred Networks Tech Blog

先日、TimSortというソートアルゴリズムが話題になりました。TimSortは、高速な安定ソートで、Python(>=2.3)やJava SE 7、およびAndroidでの標準ソートアルゴリズムとして採用されているそうです。 C++のstd::sort()よりも高速であるというベンチマーク結果1が話題になり(後にベンチマークの誤りと判明)、私もそれで存在を知りました。実際のところ、ランダムなデータに対してはクイックソート(IntroSort)ほど速くないようですが、ソートというシンプルなタスクのアルゴリズムが今もなお改良され続けていて、なおかつ人々の関心を引くというのは興味深いものです。しかしながら、オリジナルのTimSortのコードは若干複雑で、実際のところどういうアルゴリズムなのかわかりづらいところがあると思います。そこで今回はTimSortのアルゴリズムをできるだけわかりやすく解

basi 2011/10/30

リンク

アルゴリズムの勉強のしかた - きしだのHatena

この記事で、アルゴリズムの勉強はアルゴリズムカタログを覚えることじゃないよということを書きました。プログラムの理論とはなにかアルゴリズムの勉強というのは、スポーツで言えば腕立て伏せや走り込みみたいな基礎体力を養うようなもので、「ソートなんか実際に自分で書くことないだろう」とかいうのは「サッカーは腕つかわないのに腕立ていらないだろう」とか「野球で1kmも走ることなんかないのに長距離の走り込みいらないだろう」とか言うようなものです。 Twitterでアルゴリズムの勉強とはなにかと尋ねられて、「アルゴリズムの基本的なパターンを知って、それらの性質の分析のしかたをしって、いろいろなアルゴリズムでどのように応用されているか知って、自分が組むアルゴリズムの性質を判断できるようになることだと思います。」と答えたのですが、じゃあ実際どういう本で勉強すればいいか、ぼくの知ってる本からまとめてみました。

basi 2011/09/25

algorithm

リンク

projects:twitterソーシャルグラフからのコミュニティ抽出 [ryogrid.net]

以下サイトでTwitterのソーシャルグラフが配布されている。 # 103万人分、2.8億エッジという驚愕の規模 http://d.hatena.ne.jp/code46/20110130/p1 今回、このデータを題材としたコミュニティ抽出のプログラムを書いたので、開発過程のいろいろをまとめておく。一部、Amazon Elastic MapReduceでの分散処理などもやってみたので、MapReduceやCloudに興味を持つ人にも利益があるかもしれない。特に、実アプリ開発を題材とした事例紹介はWeb上でも少ないようなので、そういった位置づけでは価値があるのではないかと思う。ソーシャルグラフ、コミュニティ抽出(≒クラスタリング?)の概要については以下が分かりやすい。 http://www.slideshare.net/komiyaatsushi/newman-6670300 実は、以前

basi 2011/09/24

リンク

Newman アルゴリズムによるソーシャルグラフのクラスタリング

昨今よく耳にするキーワード「ソーシャルグラフ」。その可能性・活用方法について様々な企業に注目されています。今回はその「ソーシャルグラフ」を「どうすればクラスタリングできるのか？」という観点で、グラフに対するクラスタリングの基礎を説明いたします。また、具体的なクラスタリング手法として Newman アルゴリズムをご紹介いたします。

basi 2011/06/26

リンク

Googleアルゴリズム200項目全てを特別公開 | フォーデザイン

Googleアルゴリズムの200の要素を発見しましょう！（Let’s Try to Find All 200 Parameters in Google Algorithm）は2009年に書かれた記事ですが、パンダアップデートが適用された今現在（2011年4月）でも重要項目が多く書かれているもので。多くはGoogleの特許（合衆国特許出願0050071741）に基づいていますが、筆者のアンが自身の解析結果や予測を盛り込んでいる事で、より実践に近い内容になっています。 SEO初心者の方は、これからのウェブ制作の軸に、SEOエキスパートの方はもう一度自身のサイトを見直す目次として確認してみてはいかがでしょうか。ドメインに関する13要因ドメイン年齢ドメイン取得からの長さドメイン登録情報（Who is情報）の表示/非表示ドメイン種類（サイトレベルドメイン（.com や co.uk）ト

basi 2011/04/24

リンク

機械の代わりに人間が学習入門

[Yang, Downey and Boyd-Graber 2015] Efficient Methods for Incorporating Knowl...

basi 2011/01/18

リンク

オンライン最適化とRegret最小化 - DO++

大量のデータから、何か有益な情報を求める問題の多くは最適化問題を解くことに帰着されます．最適化問題とは与えられた関数fの値を最小（最大）にするような変数xを探すといった問題です。例えば、機械学習（これを利用する自然言語処理、情報検索など）、画像処理、AI(ロボットの経路制御）、など多くの分野で最適化問題は登場します。その中でもオンライン最適化（機械学習の文脈でいえばオンライン学習）と呼ばれる最適化手法は実用性の高さと実装のしやすさから多く利用されるようになってきました。このオンライン最適化は近年Regret（後悔）最小化というゲーム理論などで使われていた枠組みで解析されることが多くなってきました。今回はこのRegret最小化について簡単に解説してみようと思います。（機械学習が詳しい人向けに補足すると、VC次元など他の機械学習を解析する手法と比べてRegret最適化の面白い

basi 2010/11/29

リンク

LSH (Locality Sensitive Hashing) を用いた類似インスタンスペアの抽出 - mixi engineer blog

GW 中の長距離移動のために体調が優れない takahi-i です. 今回は巨大なデータをマイニングする一つの技術として LSH (Localtiy Sensitive Hashing) を紹介させていただきます. LSH とは LSH は大量なデータから類似度が高いインスタンスのペアを高速に抽出してくれるアルゴリズムです. ここでインスタンスはデータ集合の一つの要素を表します. たとえば扱うデータが E-コマースサイトの購買ログであれば, インスタンスは各ユーザですし, 画像データ集合であれば, インスタンスは個々の画像データです. LSH の詳しい解説については以下のサイトがあります. Wikipedia のエントリ LSH に関する論文がまとめられているページ本稿ではE-コマースサイトの購買履歴データを基に LSH の機能について述べてゆきます. 以下のような E-コマースサイトの

basi 2010/09/27

リンク

行列分解ライブラリredsvdを公開しました - DO++

大規模疎行列向けの行列分解ライブラリredsvdを公開しました． redsvd 大規模疎行列向けの特異値分解や主成分分析，固有値分解を行うライブラリredsvdを公開しました．修正BSDライセンスで公開しており，コマンドラインから使える他，C++ライブラリが用意されています．例えば，行と列数がそれぞれ10万，非零の要素が1000万からなる疎行列に対する上位20位までの特異値分解を約2秒で処理します．特異値分解とか，使っている技術の詳細とか応用事例を以下に簡単に紹介しましたので，興味のある方は参考にしてください．特異値分解とはまず行列を適当に復習します．行列Xの転置をX^tと表すことにします．またIを単位行列とし，Oを全ての成分が0である零行列とします．また，行列XX^t=IであるようなXを直交行列と呼びます．Xが直交行列の時，Xvはベクトルvを長さを変えずに回転させます．ここでは

basi 2010/09/07

リンク

「最強最速アルゴリズマー養成講座」関連の最新ニュース・レビュー・解説記事まとめ - ITmedia Keywords

最強最速アルゴリズマー養成講座：そのアルゴリズム、貪欲につき――貪欲法のススメアルゴリズムの世界において、欲張りであることはときに有利に働くことがあります。今回は、貪欲法と呼ばれるアルゴリズムを紹介しながら、ハードな問題に挑戦してみましょう。このアルゴリズムが使えるかどうかの見極めができるようになれば、あなたの論理的思考力はかなりのレベルなのです。（2010/9/4）最強最速アルゴリズマー養成講座：病みつきになる「動的計画法」、その深淵に迫る数回にわたって動的計画法・メモ化再帰について解説してきましたが、今回は実践編として、ナップサック問題への挑戦を足がかりに、その長所と短所の紹介、理解度チェックシートなどを用意しました。特に、動的計画法について深く掘り下げ、皆さんを動的計画法マスターの道にご案内します。（2010/5/15）最強最速アルゴリズマー養成講座：アルゴリズマーの登

basi 2010/08/20

リンク

人材獲得作戦・４　試験問題ほか - 人生を書き換える者すらいた。

さて試験問題です。内容は、壁とスペースで構成された迷路が与えられたとき、スタート地点からゴール地点に至る最短経路を求めよ、というものです。たとえば、S:スタート　G:ゴール　*:壁　$:解答の経路　としたとき、 ************************** *S* * * * * * * ************* * * * * ************ * * * * ************** *********** * * ** *********************** * * G * * * *********** * * * * ******* * * * * * ************************** という入力に対し、 ************************** *S* * $$$ * *$* *$$*$ ************

basi 2010/08/20

algorithm

リンク

BLOG::broomie.net: Alorithms of the Intelligent Web

Algorithms of the Intelligent Webという情報検索の本がございまして、ずっと読みたいなあと思っていたら、本の内容のサンプルがありました。 http://www.manning.com/marmanis/SampleChapter2.pdf これが、実はサンプルってレベルではなくて２章と３章がまるごとPDFで公開されているんですね。それで軽く読んでみたんですが、すごいわかりやすくて、普通に読み物としておもしろかったのでメモっておきます。上記のリンクは２章で「searching」という題で、つまり検索エンジンの話がまとめてあります。さらっと全部読んだんですけど、大雑把に感想を述べるとかなり基礎的な内容ですが、本当にわかりやすく解説してあるので、例えば、あまりこの分野に詳しくない人に説明する時や、自分でさらっと検索エンジンの要素を整理したい時とかには超便利だと思

basi 2010/08/16

リンク

Redirecting...

If you are not redirected, click here.

basi 2010/08/16

リンク

BLOG::broomie.net: 機械学習の勉強を始めるには

thriftとかhadoopなど，何やらいろいろと手を出してしまい，ここのところブログの更新が滞ってしまっていますが，今日は前から書きたかったトピックについて自分へのメモの意味も含めて記しておきたいと思います．はじめに最近，といっても結構前からなのですが，海外のブログなどで「機械学習の勉強を始めるガイドライン」についてのエントリーがいくつか見られ，かつ，議論も少し盛り上がっています．僕は機械学習が好きなだけで，専門というにはほど遠いのですが，僕も一利用者としてはこのトピックに関してはとても興味があります．機械学習というと，色々な数学的な知識が必要であったり，統計学や人工知能の知識も必要になったりしまったりと，専門的に学ぶ機会が無かった人にとっては興味が湧いてもなかなか始めるには尻込みしてしまうことかと思います．今日紹介するエントリーは，そんな方々にヒントになるような内容になっていると

basi 2010/08/16

algorithm

リンク

Chokudai's Labo

About 本名高橋直大（たかはし　なおひろ）ＨＮ chokudai 所属慶應義塾大学環境情報学部３年実績 2009年度 TopCoder Marathon Match 54 ３位天下一プログラマーコンテスト　特別賞 TopCoder Marathon Match 56 ４位 NASA-TopCoder Challenge 個人４位 2008年度 2008年度慶応義塾大学塾長奨励賞受賞 Imagine Cup 2008 Algorithm部門世界３位 TopCoder Marathon Match 49 世界２位 2007年度 Imagine Cup 2007 Algorithm部門２次予選進出 2006年度 Imagine Cup 2006 Algorithm部門２次予選進出 SuperCon 2006 ６位書いたもの最強最速アルゴリズマー養成講座第１回　あなた

basi 2010/08/08

algorithm

リンク

はてなブックマーク

タグ

関連タグで絞り込む (138)

algorithmに関するbasiのブックマーク (104)

お知らせ

月間はてなブックマーク数ランキング（2025年11月）

今週のはてなブックマーク数ランキング（2025年11月第5週）

今週のはてなブックマーク数ランキング（2025年11月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス