[B! algorithm] [5ページ] masa0x80のブックマーク

algorithm - correction - 最近点検索 : 404 Blog Not Found

2009年04月29日07:45 カテゴリMathアルゴリズム百選 algorithm - correction - 最近点検索これ、「素直な解答」の方が間違っている。 404 Blog Not Found:algorithm - 最近点検索ぬじゃらだーさんのコメントこのアルゴリズムって点が原点から等距離に分布している場合はまったく働かないですよね。その通り。その一方で、「近い順にソート」は合っている。しかしこれだとO(n log n)。 TSさんのコメントもとの最近点探索の問題を解くには、点集合Pのボロノイ図データを作っておいて問い合わせに答えるのが正攻法ではないでしょうかこれだと確かに高速。点がすべて格子点上にある場合(たとえばビットマップ)、ボロノイ図があらかじめ用意してある場合はO(1)で判定できる。たとえば各格子点にあらかじめどの点が一番近いかを記録しておき、それを読

masa0x80 2009/04/29

リンク

algorithm - 最近点検索 : 404 Blog Not Found

2009年04月28日23:30 カテゴリMathLightweight Languages algorithm - 最近点検索食後のデザートにちょうどよいサイズの問題。二次元の値(x, y)をもつ集合P から任意の点p の近似点を検索するアルゴリズムを考えています高速、低負荷で検索するにはどうしたらいいでしょうか？条件は次の通りです .. - 人力検索はてな条件は次の通りです集合Pはあらかじめ、任意の順番でソートしておける点ｐの近似点にする条件は、margin範囲内で一番近いものとするが、margin値はそのときどきで変わるまずは素直に答えを。点集合は、あらかじめ原点からの距離順にソートしておく。その集合を、検索したい点の原点からの距離を使って二分探索(binary search)する。二分探索は exact match でなくてもいいので、この方法でOKです。O(

masa0x80 2009/04/29

リンク

B木の Copy-Modify 方式での実験的コード - Tociyuki::Diary

id:naoya さんの Python 版B木に触発されて、Ruby 版の insert・delete だけを実装した B 木を書いてみました。実装にあたり、標準的な教科書に良く掲載されている Overwrite 方式ではなく、現代的な Copy-Modify 方式、すなわち B 木の葉から根に向かって更新のおこなわれるノードを複製してから修正をおこなっていき、最後に根をすげ替える方式に挑戦してみました。こうすることにより、更新の途中でなんらかの例外が発生したとしても、直前の B 木を壊さずにすみ、安全にロール・バックすることができるようになります。また、更新の途中の元の B 木はいっさいがっさい元のままですから、根を変更バージョンごとに持つようにすれば、現代的なデータ・ベース・マネジメント・システムに採用されている Multi-Version Concurrency Control(M

masa0x80 2009/04/21

Overwrite 方式ではなく、現代的な Copy-Modify 方式

リンク

てっく煮ブログ - 四則演算を JavaScript で実装する

aki note ≫ Google 電話面接を受けました orz （いまは消えてるけど）にて割り算が壊れました。自分で実装してみてくださいという質問が紹介されていた。せっかく(?)の機会なので、割り算だけでなく、四則演算を全部壊してみて、JavaScript で実装して見ることにした。JavaScript を選んだのは、コンパイル不要、ビット演算がある、Firebug で手軽に確認できる、という理由から。それ以上の深い意味はない。ということで、次のような問題に一般化してみた。問い四則演算を JavaScript で実装しなさい。演算子は ==、!= およびビット演算子のみ使ってよいものとします。補足例えば、for 文で for(var i = 0; i { // ... } と書くためには、++ 演算子は次のように定義できる。 function increment(i){ var c =

masa0x80 2009/04/19

リンク

B-Tree - アルゴリズム・イントロダクション 18章 - ninjinkun's diary

アルゴリズム・イントロダクション勉強会，B-Treeの章を担当しましたので，資料を公開いたします． Algorithm Introduction #18 B-Tree View more presentations from ninjinkun. B-Treeはデータ容量が主記憶に収まらないような場合に有効なデータ構造で，MySQLなどのDBや，最新のファイルシステムのインデックスとして用いられています．（MySQLはインデックス管理の方式を選択可能）主に以下の利点があります．ノードの大きさをページサイズに最適化できるページの読み込みがディスクアクセスに最適化されるページの読み込み数を木の高さhに抑えられるディスクへのアクセス回数を抑えることができる id:naoyaのブログも参考になります． B木 - naoyaのはてなダイアリー当日の発表はテンパってしまい，アレな感じになっ

masa0x80 2009/04/18

algorithm

リンク

コサイン距離ベースのLSHをRubyで - <s>gnarl,</s>技術メモ”’<marquee><textarea>￥

参考文献:Web+DB press vol.49 レコメンド特集のPart3など。アルゴリズムの概要詳細(特に数学的な)はぐぐれ。モチベーションとしては、高次元における近傍点探索を高速で行いたい。まじめにやるとどう工夫しても計算量がすごいことになるので、近似で。どうするかというと、「距離が近いと同じような値になるハッシュ関数」を使う。あるベクトルの近傍を求めたい場合、そのベクトルのハッシュと同じ(もしくは近い)値のハッシュを持つベクトルをテーブルから引いてきて返す。計算量がどうなるかはややこしいけど、とりあえず全部探すよりは速い。で、どういう関数をハッシュとするのか。これは距離の定義によって異なる。ハミング距離、コサイン距離、ユークリッド距離などにはそういった関数の存在が知られている。コサイン距離の場合、ランダムなベクトルをいくつか用意して、入力されたベクトルがそれらと似ている

masa0x80 2009/04/16

リンク

はてなブックマークFirefox拡張, JavaScript で IS 法による Suffix Array 構築 - naoyaのはてなダイアリー

昨日、はてなブックマークFirefox拡張をリリースしました。おかげさまでベータ版からダウンロード数は累積で1万ダウンロードを突破し、アクティブユーザー数も伸びています。はてなブックマークFirefox拡張で新しいインターネットを体験しよう http://b.hatena.ne.jp/guide/firefox_addon 開発者の id:secondlife が g:subtech:id:secondlife:20090415:1239804170 で技術的な側面からのちょっとした TIPS なども紹介していますので、興味のある方はご一読ください。検索では思いのほか SQLite の like 検索が高速なのに驚いた。はてブ検索では、検索ワードから URL, Title, コメントにマッチしたものを表示していて、それ専用の search_data だかかんらかの検索用カラムがある。

masa0x80 2009/04/16

リンク

B木 - naoyaのはてなダイアリー

昨年から続いているアルゴリズムイントロダクション輪講も、早いもので次は18章です。18章のテーマはB木(B Tree, Bツリー) です。B木はマルチウェイ平衡木(多分木による平衡木)で、データベースやファイルシステムなどでも良く使われる重要なデータ構造です。B木は一つの木の頂点にぶら下がる枝の本数の下限と上限を設けた上、常に平衡木であることを制約としたデータ構造になります。輪講の予習がてら、B木を Python で実装してみました。ソースコードを最後に掲載します。以下は B木に関する考察です。 B木がなぜ重要なのか B木が重要なのは、B木(の変種であるB+木*1など)が二次記憶装置上で効率良く操作できるように設計されたデータ構造だからです。データベースを利用するウェブアプリケーションなど、二次記憶(ハードディスク)上の大量のデータを扱うソフトウェアを運用した経験がある方なら、いかにディ

masa0x80 2009/04/13

リンク

連載：検索エンジンを作る｜gihyo.jp … 技術評論社

masa0x80 2009/04/13

リンク

クラスタリングの定番アルゴリズム「K-means法」をビジュアライズしてみた - てっく煮ブログ

集合知プログラミングを読んでいたら、K-means 法（K平均法）の説明が出てきました。K-means 法はクラスタリングを行うための定番のアルゴリズムらしいです。存在は知っていたんだけどいまいちピンときていなかったので、動作を理解するためにサンプルを作ってみました。クリックすると１ステップずつ動かすことができます。クラスタの数や点の数を変更して、RESET を押すと好きなパラメータで試すことができます。こうやって１ステップずつ確認しながら動かしてみると、意外に単純な仕組みなのが実感できました。K-means 法とはK平均法 - Wikipedia に詳しく書いてあるけど、もうすこしザックリと書くとこんなイメージになります。各点にランダムにクラスタを割り当てるクラスタの重心を計算する。点のクラスタを、一番近い重心のクラスタに変更する変化がなければ終了。変化がある限りは 2. に戻る。これ

masa0x80 2009/04/09

リンク

ベイズを学びたい人におすすめのサイト - download_takeshi’s diary

ベイジアンフィルタとかベイズ理論とかを勉強するにあたって、最初はなんだかよくわからないと思うので、そんな人にお勧めのサイトを書き残しておきます。 @IT スパム対策の基本技術解説（前編）綱引きに蛇口当てゲーム？！楽しく学ぶベイズフィルターの仕組み http://www.atmarkit.co.jp/fsecurity/special/107bayes/bayes01.html いくつかの絵でわかりやすく解説してあります。自分がしるかぎり、最もわかりやすく親切に解説してる記事です。数学とかさっぱりわからない人はまずここから読み始めるといいでしょう。茨城大学情報工学科の教授のページから http://jubilo.cis.ibaraki.ac.jp/~isemba/KAKURITU/221.pdf PDFですが、これもわかりやすくまとまってます。初心者でも理解しやすいし例題がいくつかあ

masa0x80 2009/04/09

リンク

Aho Corasick 法 - naoyaのはてなダイアリー

適当な単語群を含む辞書があったとします。「京都の高倉二条に美味しいつけ麺のお店がある」*1という文章が入力として与えられたとき、この文章中に含まれる辞書中のキーワードを抽出したい、ということがあります。例えば辞書に「京都」「高倉二条」「つけ麺」「店」という単語が含まれていた場合には、これらの単語(と出現位置)が入力に対しての出力になります。この類の処理は、任意の開始位置から部分一致する辞書中のキーワードをすべて取り出す処理、ということで「共通接頭辞検索 (Common Prefix Search)」などと呼ばれるそうです。形態素解析、Wikipedia やはてなキーワードのキーワードリンク処理などが代表的な応用例です。 Aho Corasick 法任意のテキストから辞書に含まれるキーワードをすべて抽出するという処理の実現方法は色々とあります。Aho Corasick 法はその方法のひと

masa0x80 2009/04/06

インターンでやりましたね

リンク

川柳の自動生成アルゴリズムの紹介（どうしたら　機械で川柳　詠めるかな）

こんにちは。エイプリルフールに 1 日だけローンチした Google 川柳、お楽しみいただけましたか？エイプリルフールが終わってしまったのでサービスはもうありませんが、せっかくなのでその裏側をすこしご紹介します。今回は、Google が人工知能 CADIE を開発し、その CADIE が世界中で面白いサービスを提供するという設定で Google 川柳を提供しました。人工知能 CADIE は架空のものですが、コンピューターによる川柳の自動生成を行ったのは、ウソではありません。ここでは、その川柳をコンピューターに生成させた手順を簡単にご紹介します。川柳とは何かを学習するまず、本物の川柳/俳句を Web 上から集めました。集めた作品を解析し、俳句/川柳にありがちな品詞の並びパターンを学習しました。「瞬間」を切り取る川柳/俳句には、「話題」が必要になります。これは、Web ページからラン

masa0x80 2009/04/04

リンク

アルゴリズムイントロダクション15章動的計画法

3. 動的計画法のアルゴリズム最適解の構造を特徴づける最適解の値を再帰的に定義するボトムアップに最適解の値を求める最適解を構成する

masa0x80 2009/03/29

algorithm
dp

リンク

教師なし単語分割の最前線。ベイズ meets 言語モデル - 武蔵野日記

今日は daiti-m さんの教師なし単語分割話と id:nokuno さんの Social IME 話を聞きに行くため、仕事を午前中で終えて一路本郷へ。第190回自然言語処理研究会(通称 NL 研、えぬえるけんと発音する)。六本木から大江戸線で麻布十番、南北線に乗り換えて東大前で降りたのだが、ちょっと失敗して10分以上 Social IME の話を聞き逃してしまう。残念。というわけで最初の発表については nokuno さん自身による発表スライドおよびshimpei-m くんのコメントを見てくれたほうがいいと思うが、個人的に思うのは(直接も言ったけど)研究発表とするならポイントを絞ったほうがいいんじゃないかなと。研究の背景と目的従来手法の問題点を指摘それらを解決できる手法を提案(3つ) までは非常にいいのだが、そこから先がそのうちの1つしか説明・評価していないので、ちょっと述べてい

masa0x80 2009/03/29

リンク

大規模データを基にした自然言語処理 - DO++

人工知能基本問題研究会 (SIG-FPAI)でタイトルの題目で一時間ほど話してきました。発表資料 [pptx] [pdf] 話した内容は - 自然言語処理における特徴ベクトルの作り方と、性質 - オンライン学習, Perceptron, Passive Agressive (PA), Confidence Weighted Learning (CW) 確率的勾配降下法 (SGD) - L1正則化, FOLOS - 索引を用いた効率化, 全ての部分文字列を利用した文書分類で、スライドで70枚ぐらい。今までの発表とかぶっていないのはPA CW SGD FOLOSあたりでしょうかオンライン学習、L1正則化の話がメインになっていて、その両方の最終形の確率的勾配降下法 + FOLOSの組み合わせは任意の損失関数に対してL1/L2正則化をかけながらオンライン学習をとても簡単にできるという一昔前

masa0x80 2009/03/14

algorithm

リンク

人工知能基本問題研究会(SIG-FPAI)での岡野原さんの発表のときに取ったメモ - yasuhisa's blog

hillbig.cocolog-nifty.com ということで僕が取ったメモも出してみようと思う。内容としては大体3つでオンライン学習 L1正則化索引を用いた効率化, 全ての部分文字列を利用した文書分類という感じだったんだけど、最後の索引の付近はid:syou6162の勉強不足によりよく分からなかった。が、最初の二つはなんとか付いていけたので、出してみます。主に自分用のメモですが。オンライン学習自然言語処理のデータは3つの特徴がある。高次元疎冗長で、あとはデータがばかでかいので、いわゆるバッチ処理だとメモリに乗り切らなかったりとかということがある。それでオンライン学習というのが今よく使われているようだ。オンライン学習の方法には下のような方法がある。簡単なものから難しいものへ。 perceptron 自然言語処理と相性がよい色んなもののベースになる線形分離できるときには

masa0x80 2009/03/14

algorithm

リンク

PDL で PageRank - naoyaのはてなダイアリー

id:smly さんが PageRank や HITS を Python で実装されているのに触発されて、自分も PageRank を Perl で実装してみました。 PageRank の計算の中心になるのは Power Method (べき乗法) です。べき乗法では行列とベクトルの積を計算しますので、手軽に使える行列演算ライブラリがあると楽でしょう。色々調べてみたところ、PDL (The Perl Data Language) が良く使われているようでしたので、これを選択しました。PDL では各種行列演算が簡単に行える他、文字列評価をオーバーライドして行列の文字列出力を良い具合で定義してくれていたりと、なかなかに便利です。PDL は行列計算以外にも色々な科学技術計算やグラフ描写などの操作をサポートしているようです。さて、PDL を使った PageRank 計算のコードは以下のように

masa0x80 2009/03/06

リンク

アルゴリズムイントロダクション輪講動的計画法の発表資料 - てっく煮ブログ

2009年3月2日に、はてな京都オフィスで開催されたアルゴリズムイントロダクション輪講の第12回で「動的計画法」について発表しました。資料をここにおいておきます。View more presentations from nitoyon.分かりやすくしようと気合を入れてまとめたら165ページの大作になっちゃいました。無駄に長くてすいません。アルゴリズムの設計と解析手法 (アルゴリズムイントロダクション)作者: T.コルメン, R.リベスト, C.シュタイン, C.ライザーソン, Thomas H. Cormen, Clifford Stein, Ronald L. Rivest, Charles E. Leiserson, 浅野哲夫, 岩野和生, 梅尾博司, 山下雅史, 和田幸一出版社/メーカー: 近代科学社発売日: 2007/03メディア: 単行本

masa0x80 2009/03/04

algorithm

リンク

HITS, 主成分分析, SVD - naoyaのはてなダイアリー

ウェブグラフのリンク解析によるページの評価と言えば PageRank が著名ですが、もうひとつ Jon Kleinberg による HITS (Hyperlink-induced topic search)も有名です。最初の論文 Authoritative Sources in a Hyperlinked Environment は 1999年です。IIR の 21章で、この PageRank と HITS についての解説がありました。 HITS HITS はウェブページの評価に二つの軸を用います。一つが authority スコア、もう一つが hub スコアです。例えば「Perl の情報が欲しい」という検索要求に対しては CPAN や開発者である Larry Wall のホームページなどが重要度の高いページかと思います。これらのページは「Perl に関して信頼できる情報源」ということ

masa0x80 2009/03/02

リンク

はてなブックマーク

タグ

関連タグで絞り込む (52)

algorithmに関するmasa0x80のブックマーク (111)

お知らせ

今週のはてなブックマーク数ランキング（2024年10月第2週）

今週のはてなブックマーク数ランキング（2024年10月第1週）

月間はてなブックマーク数ランキング（2024年9月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス