[B! algorithm] quothのブックマーク

転置インデックスを実装しよう - mixi engineer blog

相対性理論のボーカルが頭から離れないmikioです。熱いわっふるの声に応えて今回はTokyo Cabinetのテーブルデータベースにおける検索機能の実装について語ってみたいと思います。とても長いのですが、最後まで読んだあかつきには、自分でも全文検索エンジンを作れると思っていただければ嬉しいです。デモモチベーションをあげていただくために、100行のソースコードで検索UIのデモを作ってみました。Java 6の日本語文書を対象としているので、「stringbuffer」とか「コンパイル」とか「倍精度浮動小数」とかそれっぽい用語で検索してみてください。インデックスがちゃんとできていれば、たった100行で某検索エンジン風味の検索機能をあなたのデータを対象にして動かすことができます。ソースコードはこちら（テンプレートはこちら）です。でも、今回はUIの話ではないのです。ものすごく地味に、全文検索

quoth 2009/07/10

リンク

株式会社エス・スリー・フォー » STLport のハッシュ・コンテナ

STLport のハッシュ・コンテナ標準C++ライブラリが提供するコンテナは、vector, list, deque, set, multiset, map, multimap の7種です。これらコンテナから特定の要素を検索するとき、その時間計算量は vector, list, deque では O(N), set, multiset, map, multimap では O(logN) となります。これ以上に高速な検索が可能なコンテナとしてハッシュ表(hashtable)を利用すれば、適切なハッシュ関数を与えることによって検索に要する時間計算量をコンテナ内の要素数に関わらず O(1) に近づけることができますが、残念ながら標準C++ライブラリにはハッシュ表で実装されたコンテナ(ハッシュ・コンテナ)を提供していません。 SGI(Silicon Graphics社)のSTL実装をベースに

quoth 2009/04/26

algorithm

リンク

emit.jp

This domain may be for sale!

quoth 2009/04/26

algorithm

リンク

ベイズを学びたい人におすすめのサイト - download_takeshi’s diary

ベイジアンフィルタとかベイズ理論とかを勉強するにあたって、最初はなんだかよくわからないと思うので、そんな人にお勧めのサイトを書き残しておきます。 @IT スパム対策の基本技術解説（前編）綱引きに蛇口当てゲーム？！楽しく学ぶベイズフィルターの仕組み http://www.atmarkit.co.jp/fsecurity/special/107bayes/bayes01.html いくつかの絵でわかりやすく解説してあります。自分がしるかぎり、最もわかりやすく親切に解説してる記事です。数学とかさっぱりわからない人はまずここから読み始めるといいでしょう。茨城大学情報工学科の教授のページから http://jubilo.cis.ibaraki.ac.jp/~isemba/KAKURITU/221.pdf PDFですが、これもわかりやすくまとまってます。初心者でも理解しやすいし例題がいくつかあ

quoth 2009/04/10

リンク

アルゴリズムイントロダクション輪講動的計画法の発表資料 - てっく煮ブログ

2009年3月2日に、はてな京都オフィスで開催されたアルゴリズムイントロダクション輪講の第12回で「動的計画法」について発表しました。資料をここにおいておきます。View more presentations from nitoyon.分かりやすくしようと気合を入れてまとめたら165ページの大作になっちゃいました。無駄に長くてすいません。アルゴリズムの設計と解析手法 (アルゴリズムイントロダクション)作者: T.コルメン, R.リベスト, C.シュタイン, C.ライザーソン, Thomas H. Cormen, Clifford Stein, Ronald L. Rivest, Charles E. Leiserson, 浅野哲夫, 岩野和生, 梅尾博司, 山下雅史, 和田幸一出版社/メーカー: 近代科学社発売日: 2007/03メディア: 単行本

quoth 2009/03/15

algorithm

リンク

MIT's Introduction to Algorithms, Lectures 20 and 21: Parallel Algorithms

This is the thirteenth post in an article series about MIT's lecture course "Introduction to Algorithms." In this post I will review lectures twenty and twenty-one on parallel algorithms. These lectures cover the basics of multithreaded programming and multithreaded algorithms. Lecture twenty begins with a good overview of multithreaded programming paradigm, introduces to various concepts of paral

quoth 2009/03/09

algorithm

リンク

Regular Expression Matching Can Be Simple And Fast

Regular Expression Matching Can Be Simple And Fast (but is slow in Java, Perl, PHP, Python, Ruby, ...) Russ Cox rsc@swtch.com January 2007 Introduction This is a tale of two approaches to regular expression matching. One of them is in widespread use in the standard interpreters for many languages, including Perl. The other is used only in a few places, notably most implementations of awk and grep.

quoth 2009/02/05

リンク

アルゴリズム設計講義資料 2005

Algorithm Design Course Materials 2013 Oct 7: Introduction and Computational Complexity Oct 15: Search Trees Oct 21: Combinatorial Optimization Oct 28: Heuristic Search Nov 5: Text Search Nov 11: Data Compression Nov 18: Memory Management Nov 25: Graph Algorithms 1/2 Dec 2: Graph Algorithms 2/2 Dec 9: Computational Geometry Dec 16: Concurrency Control Jan 15: Canceled Jan 20: Clustering Course Pro

quoth 2008/12/31

algorithm

リンク

新はてなブックマークでも使われてるComplement Naive Bayesを解説するよ - 射撃しつつ前転改

新はてブ正式リリース記念ということで。もうリリースから何週間も経っちゃったけど。新はてなブックマークではブックマークエントリをカテゴリへと自動で分類しているが、このカテゴリ分類に使われているアルゴリズムはComplement Naive Bayesらしい。今日はこのアルゴリズムについて紹介してみる。 Complement Naive Bayesは2003年のICMLでJ. Rennieらが提案した手法である。ICMLというのは、機械学習に関する（たぶん）最難関の学会で、採択率はここ数年は30%を切っている。2003は119/371で、32.1%の採択率だったようだ。 Complement Naive Bayesの位置づけは実装が簡単学習時間が短い性能もそこそこよいという感じで、2003年段階にあっても、絶対的な性能ではSVMに負けていた。しかし、学習が早いというのは実アプリケーシ

quoth 2008/12/18

algorithm

リンク

d.y.d. 文字コード＆ベイズ推定

12:21 06/05/28 うたひめ先日の記事に書いたように KOKIA にハマりまして、とりあえず片っ端から聴いてみることにしました。まずは 1st アルバムの『songbird』から … …４曲目の "白い雪" ヤバい。超ヤバい。なんだこれ。ツボすぎる。ベスト盤を聴いたとき感じた揺らぎなく落ち着いた歌唱力的な曲を期待して聴きはじめたら、予想外の声質の歌が飛び込んできてびっくりしました。もちろん抜群に巧いのにかわりはないんですが、ずっと儚げな、ガラス細工みたいなイメージの、ああ、その、つまり白い雪みたいな雰囲気の綺麗な声で。その声と奇跡的にマッチしたメロディ。すごいなあ。９曲目の "ありがとう…" もベスト盤でのリテイクと比べて同じ印象で、 Amazonのreview で TenderBerry さんという方が近いことを書いておられました。しかし書いてて自分の語彙の

quoth 2008/12/11

algorithm

リンク

ESMAJ

Contents EXACT STRING MATCHING ALGORITHMS Animation in Java Christian Charras - Thierry Lecroq Laboratoire d'Informatique de Rouen Université de Rouen Faculté des Sciences et des Techniques 76821 Mont-Saint-Aignan Cedex FRANCE

quoth 2008/11/21

リンク

著名ソーシャルメディアが使っているアルゴリズムを大公開！ | Moz - SEOとインバウンドマーケティングの実践情報

“アルゴリズム”は、もっとも非人間的なものの代表だともいえる。ソーシャルメディアにとって、そのアルゴリズムが不可欠だというのは、実に皮肉めいている。僕はこの間、グーグルがどうやってユーザーデータを集めているかについて書いた記事を掲載した（前編、後編）。今回は、著名なソーシャルメディアサイトが、ユーザーデータを活用する上でどのようにアルゴリズムを用いているのか、白日の下にさらそう。ソーシャルメディアを成り立たせているのは人間の力だが、ユーザーが入力したデータを利用できる状態にする仕組みは、アルゴリズムによって作られている。現在活動している無数のソーシャルメディアサイトで実証済みのことだが、ユーザーの関与とアルゴリズムによる処理ルールの上手いバランスを見出すことは、とても難しくなりがちだ。これから紹介するアルゴリズムは、悪意のないユーザーと結びついて初めてうまくいくものだ。人気ソーシャル

quoth 2008/08/20

algorithm

リンク

Knuth-Morris-Pratt in Haskell - 21 thoughts

A request that comes up regularly on the Haskell mailing list is for a function to determine whether one string (the needle) is a substring of another one (the haystack). While there is no such function in the Haskell standard library†, it is easy enough to implement: import Data.List as `isSubstringOf` bs = any (as `isPrefixOf`) (tails bs) Unfortunatly, this function has a worst case time complex

quoth 2008/07/29

algorithm

リンク

Bloom Filters: Designing a Spellchecker

quoth 2008/06/10

algorithm

リンク

Scalable Reader-Writer Locks

Scala ble Reader-Writer Synchronization for Shared-Memory Multiprocessors Pseudocode from article of the above name, PPoPP '91. John M. Mellor-Crummey and Michael L. Scott. The queue-based locks below perform well in tests on machines with scores of processors. Simple, non-scala ble reader-preference lock. For maximum throughput on small machines. Starves writers under continuous reader load. Starva

quoth 2008/05/23

algorithm

リンク

1日で作る全文検索エンジン - Building a full-text search engine in "ONE" day - - とあるはてな社員の日記

最近、「Introduction to Information Retrieval」というStanfordの大学院向け教科書のドラフトを読んでいます。id:naoyaあたりが勉強会で読んでいる教科書です。この教科書には、効率のいい全文検索システムを作るにはどうすればいいか、という(まさに)教科書的手法が網羅的に書いてあり、そのあたりに興味がある人には、非常に興味深く読めるお勧めの本です。ただ、面白い面白いと言っているだけでは、エンジニアとしては価値半減ですので、GW中にrubyで一日かけて実装してみました。さすがに実装は、一日で作ったものですから、非常に素朴です。マルチバイト文字はbi-gramで、シングルバイトはスペースなどの区切り記号で認識しています。インデックスは、rubyの処理系のHashやArrayで保持しており、外部にMarshallで書き出す、というものです。検索エンジン

quoth 2008/05/14

algorithm

リンク

文字列検索アルゴリズム - lethevert is a programmer

について探し物をしていたら、よくまとまった資料を見つけた。（PowerPoint資料） http://www-ikn.ist.hokudai.ac.jp/ikn-tokuron/LN_H16_IKNtokuron-pattern_matching.ppt - bit-parallelismという手法があることを知った。非決定性有限オートマトンを状態を１bitで表して、１ワードの中に３２状態（３２bitマシンの場合）を同時に保持させ、ビット演算を用いて複数の状態を同時並行で計算するという手法だということ。有名なアルゴリズムにShift-Orというアルゴリズムがある。http://www-igm.univ-mlv.fr/~lecroq/string/node6.html 今、興味を持っているのは、BNDMというアルゴリズムで、検索文字列を反転させてsuffix automatonを作り、そ