[B! Algorithm][algorithm] [4ページ] hiroyadoraemonのブックマーク

LSH (Locality Sensitive Hashing) を用いた類似インスタンスペアの抽出 - mixi engineer blog

GW 中の長距離移動のために体調が優れない takahi-i です. 今回は巨大なデータをマイニングする一つの技術として LSH (Localtiy Sensitive Hashing) を紹介させていただきます. LSH とは LSH は大量なデータから類似度が高いインスタンスのペアを高速に抽出してくれるアルゴリズムです. ここでインスタンスはデータ集合の一つの要素を表します. たとえば扱うデータが E-コマースサイトの購買ログであれば, インスタンスは各ユーザですし, 画像データ集合であれば, インスタンスは個々の画像データです. LSH の詳しい解説については以下のサイトがあります. Wikipedia のエントリ LSH に関する論文がまとめられているページ本稿ではE-コマースサイトの購買履歴データを基に LSH の機能について述べてゆきます. 以下のような E-コマースサイトの

hiroyadoraemon 2010/05/07

リンク

Jimmy Lin » Data-Intensive Text Processing with MapReduce

hiroyadoraemon 2010/04/21

リンク

mixi Engineers’ Blog javascript

hiroyadoraemon 2010/04/20

algorithm

リンク

「ガベージコレクションのアルゴリズムと実装」という本を書きました。

gcbook, gcai, GCGCLoverのみなさん、お待たせしました。「ガベージコレクションのアルゴリズムと実装」の情報公開です。書名：ガベージコレクションのアルゴリズムと実装著者：中村　成洋／相川　光監修：竹内　郁雄ページ数：472ページ本体価格：3,200円発売開始日：2010年3月17日（水） ※地域・書店によって遅れることがあります ISBN：978-4-7980-2562-9 C3055 読み所本書は次の2つのテーマを扱います。 1.GCのアルゴリズム（アルゴリズム編） 2.GCの実装（実装編）アルゴリズム編では、これまでに考案されてきた数多くのGCアルゴリズムの中から、重要なものを厳選して紹介します。伝統的かつ基本的なものから、やや高度なアルゴリズムを選定しています。GC独特の考え方や各アルゴリズムの特性などを理解していただくのがアルゴリズム編の最大

hiroyadoraemon 2010/03/04

algorithm
GC

リンク

トップクラスだけが知る「このアルゴリズムがすごい」――「探索」基礎最速マスター

トップクラスだけが知る「このアルゴリズムがすごい」――「探索」基礎最速マスター：最強最速アルゴリズマー養成講座（1/4 ページ）プログラミングにおける重要な概念である「探索」を最速でマスターするために、今回は少し応用となる探索手法などを紹介しながら、その実践力を育成します。問題をグラフとして表現し、効率よく探索する方法をぜひ日常に生かしてみましょう。まだまだ活用可能な探索前回の「知れば天国、知らねば地獄――『探索』虎の巻」で、「探索」という概念の基礎について紹介しました。すでに探索についてよく理解している方には物足りなかったかと思いますが、「問題をグラフとしてうまく表現し、そのグラフを効率よく探索する」というアルゴリズマー的な思考法がまだ身についていなかった方には、得るものもあったのではないでしょうか。前回は、「幅優先探索」と「深さ優先探索」という、比較的単純なものを紹介しましたが

hiroyadoraemon 2010/02/06

リンク

Bayesian Sets - mots quotidiens.

Bayesian Sets (Ghahramani and Heller, NIPS 2005)は Google Sets と同じようなことをベイズ的に行うアルゴリズムです。いくつかアイテムを入れると, それを「補完する」ようなアイテムを返してくれます。これは NIPS の accepted papers が出た去年の8月から気になっていて, 本会議ではオーラルの発表もあって大体のやっていることはわかったものの, 何と(本会議の時も!)論文がなく, 直接Hellerに連絡してもらえるように頼んでいたところ, Online proceedings の締切りがあった時に連絡があって, 読めるようになりました。(リンクは下のページ参照) 岡野原君に先に紹介されてしまいましたが, 以下は, 岡野原君が書いていない話。 Bayesian Sets は, アイテム集合 D に対して,

hiroyadoraemon 2010/02/05

リンク

「最強最速アルゴリズマー養成講座」関連の最新ニュース・レビュー・解説記事まとめ - ITmedia Keywords

最強最速アルゴリズマー養成講座：そのアルゴリズム、貪欲につき――貪欲法のススメアルゴリズムの世界において、欲張りであることはときに有利に働くことがあります。今回は、貪欲法と呼ばれるアルゴリズムを紹介しながら、ハードな問題に挑戦してみましょう。このアルゴリズムが使えるかどうかの見極めができるようになれば、あなたの論理的思考力はかなりのレベルなのです。（2010/9/4）最強最速アルゴリズマー養成講座：病みつきになる「動的計画法」、その深淵に迫る数回にわたって動的計画法・メモ化再帰について解説してきましたが、今回は実践編として、ナップサック問題への挑戦を足がかりに、その長所と短所の紹介、理解度チェックシートなどを用意しました。特に、動的計画法について深く掘り下げ、皆さんを動的計画法マスターの道にご案内します。（2010/5/15）最強最速アルゴリズマー養成講座：アルゴリズマーの登

hiroyadoraemon 2010/01/17

リンク

KENJI

更新履歴 DNS拡張EDNS0の解析 Linuxカーネルをハッキングしてみよう Windowsシステムプログラミング Part 3 64ビット環境でのリバースエンジニアリング Windowsシステムプログラミング Part2 Windowsシステムプログラミング Part1 Contents インフォメーション「TCP/IPの教科書」サポートページ「アセンブリ言語の教科書」サポートページ「ハッカー・プログラミング大全　攻撃編」サポートページブログ（はてな）　BBS　メールこのサイトについてテキスト暗号詳解 RSA暗号化アルゴリズム詳解 DES暗号化アルゴリズム crypt() アルゴリズム解析 MD5 メッセージダイジェストアルゴリズム crypt() アルゴリズム解析（MD5バージョン） TCP/IP IP TCP UDP Header Format（IPv4） Ch

hiroyadoraemon 2010/01/15

algorithm

リンク

white page

blog めったに更新しないブログ。Suffix Arrayの構築法やデータ圧縮についてちょこっと書いてます。 memo 旧メモ。blogに全て移したので、そのうち消す予定です。 junk 過去に書いたソースコートやテスト中のものが放り込んであります。 software 自作のプログラム・ライブラリ置き場です。 links of data compression データ圧縮や接尾辞配列などに関するリンク集です。 my bookmarks お気に入りのサイト集です。

hiroyadoraemon 2010/01/13

リンク

Welcome to WWW8

Welcome to WWW8. The website where you get your questions about web design, web development and best practices answered by professionals. All answers are written by people who have atleast 10 years of professional experience in a relevant field. We want to make sure that the answers we provide are easy to understand and easy to implement. Do you have a question that you want us to answer? If so yo

hiroyadoraemon 2010/01/07

リンク

転置インデックスの圧縮 - tsubosakaの日記

Managing Gigabytes勉強会で転置インデックスの圧縮の話が出たので実際に圧縮を行った場合にどれくらいのサイズになるかを計測してみた。利用したデータは英語版Wikidiaの全記事で文書数 2,872,589 単語数 2,735,620 転置インデックスのポインタの数 397,603,176 ぐらいのサイズのデータです。無圧縮の転置インデックスのフォーマットは単語ID,文書数,文書1,....文書N, 単語ID,...で各項目4byteとなっており、1.5Gぐらいのサイズになっています。これに対して各圧縮アルゴリズムを適用した結果はアルゴリズム無圧縮 Variable Byte Code unary符号 γ符号 δ符号 Rice Coding pforDelta(仮) サイズ 1537MB 497MB 239475MB 474MB 407MB 367MB 455MB

hiroyadoraemon 2010/01/07

リンク

liris.org

This domain may be for sale!

hiroyadoraemon 2010/01/06

リンク

横着プログラミング第9回: sary: Suffix Array のライブラリとツール

最終更新日: 2002-12-18 (公開日: 2002-12-18) Unix Magazine 誌に 2002年1月号から 2003年2月号にかけて連載していた記事の元の原稿です。私にフローチャートだけを見せて、テーブルは見せないとしたら、私はずっと煙に巻かれたままになるだろう。逆にテーブルが見せてもらえるなら、フローチャートはたいてい必要なくなる。 -- Frederick P. Brooks Jr. *1 プログラミングにおいてはデータ構造が重要であり、正しいデータ構造を選択すればアルゴリズムは自明なものとなる、という主張がある。Rob Pike*2 の "Notes on Programming in C" *3 によると、現実的なプログラムに必要なデータ構造は次の 4つであるという。配列 (array) 連結リスト (linked list) ハッシュテーブル

hiroyadoraemon 2010/01/06

リンク

サービス終了のお知らせ

サービス終了のお知らせいつもYahoo! JAPANのサービスをご利用いただき誠にありがとうございます。お客様がアクセスされたサービスは本日までにサービスを終了いたしました。今後ともYahoo! JAPANのサービスをご愛顧くださいますよう、よろしくお願いいたします。

hiroyadoraemon 2010/01/05

リンク

サービス終了のお知らせ

サービス終了のお知らせいつもYahoo! JAPANのサービスをご利用いただき誠にありがとうございます。お客様がアクセスされたサービスは本日までにサービスを終了いたしました。今後ともYahoo! JAPANのサービスをご愛顧くださいますよう、よろしくお願いいたします。

hiroyadoraemon 2010/01/05

リンク

Algorithms with Python

サービス終了のお知らせいつもYahoo! JAPANのサービスをご利用いただき誠にありがとうございます。お客様がアクセスされたサービスは本日までにサービスを終了いたしました。今後ともYahoo! JAPANのサービスをご愛顧くださいますよう、よろしくお願いいたします。

hiroyadoraemon 2009/12/28

リンク

ブルームフィルタ - Wikipedia

この項目では、確率的データ構造について説明しています。画像にぼかし効果を付加する画像フィルタについては「川瀬のブルームフィルター」をご覧ください。ブルームフィルタ（英語: Bloom filter）は、1970年に Burton H. Bloom が考案した空間効率の良い確率的データ構造であり、あるデータが集合の要素である（集合に含まれている）かどうかの判定に使われる。ただし判定は正確ではなくて、含まれていないのに含まれていると誤って判定すること偽陽性（false positive）の可能性がある。しかし含まれているものを含まれていないと誤判定すること偽陰性（false negative）はない。なお集合に要素を追加することはできるが、集合から要素を削除することはできない（ただし、拡張をした counting filter であれば削除もできる）。集合に要素を追加していくにつれて偽陽性の

hiroyadoraemon 2009/12/18

リンク

Hash table - Wikipedia

A small phone book as a hash table In computer science, a hash table is a data structure that implements an associative array, also called a dictionary or simply map; an associative array is an abstract data type that maps keys to values.[3] A hash table uses a hash function to compute an index, also called a hash code, into an array of buckets or slots, from which the desired value can be found.

hiroyadoraemon 2009/12/14

リンク

Least Recently Used - Wikipedia

Least Recently Used (LRU) とは、データが最後に使われたのはいつであるかを記録し、最近最も使われなかったデータをキャッシュから削除するキャッシュアルゴリズムのこと。CPUのキャッシュメモリや仮想メモリが扱うデータのリソースへの割り当てなどにも使われる。対義語はMost Recently Used (MRU)。和訳すると「最近最も使われなかったもの」つまり「使われてから最も長い時間が経ったもの」「参照される頻度が最も低いもの」である。小容量で高速な記憶装置（例えば、CPUのキャッシュメモリ）がいっぱいになったとき、その中にあるデータのうち、未使用の時間が最も長いデータを大容量で低速な記憶装置（例えば、主記憶装置）に保存する、というのが基本のアルゴリズムである。なお、上の括弧内の例はCPUのキャッシュメモリの場合である。仮想メモリの場合は、小容量で高速な記憶装置を

hiroyadoraemon 2009/12/08

algorithm

リンク

ALGORITHM NOTE

X×Y個のセルから成るグリッド上のスタート地点から出発し、全５種類のパチクリ（生物）を捕まえた状態でゴール地点まで行く最短コストを求める問題です。各パチクリはそれぞれ、火、氷、木、土、水の属性を持ち、火のパチクリは氷のパチクリを捕まえることができ、氷のパチクリは木のパチクリを捕まえることができ、といったように火→氷→木→土→水→火というような属性の関連があります。スタート地点で最初に持つパチクリを１つ選ぶことができます。グリッドのサイズx, y はそれぞれ2以上1000以下で、各属性のパチクリの数はそれぞれ0以上1000以下です（全体の数は5000以下）。最初に１つのパチクリを選んだ後のパチクリを捕まえる順番は、上記属性の関連の順番になります。例えば最初に火の属性をもつパチクリを持っていれば、氷、木、土、水の属性をもつパチクリを順番に捕まえてゴールに行けばよいので、下図に示すDAG（Di

hiroyadoraemon 2009/12/08

algorithm

リンク

はてなブックマーク

タグ

関連タグで絞り込む (81)

Algorithmとalgorithmに関するhiroyadoraemonのブックマーク (132)

お知らせ

月間はてなブックマーク数ランキング（2025年8月）

今週のはてなブックマーク数ランキング（2025年8月第5週）

今週のはてなブックマーク数ランキング（2025年8月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス