[B! algorithm] amayanのブックマーク

amayan id:amayan

algorithmに関するamayanのブックマーク (20)

diffの動作原理を知る～どのようにして差分を導き出すのか | gihyo.jp
UNIXの基本的なコマンドの1つであるdiff。これに実装されているアルゴリズムは実に興味深い世界が広がっています。本稿では、筆者が開発した独自ライブラリ「dtl」をもとに「diffのしくみ」を解説します。はじめに diffは2つのファイルやディレクトリの差分を取るのに使用するプログラムです。ソフトウェア開発を行っている方であれば、SubversionやGitなどのバージョン管理システムを通して利用していることが多いかと思います。本稿ではそのdiffの動作原理について解説します。差分の計算の際に重要な3つの要素差分を計算するというのは次の3つを計算することに帰結します。編集距離 2つの要素列の違いを数値化したもの LCS（Longest Common Subsequence） 2つの要素列の最長共通部分列 SES（Shortest Edit Script）ある要素列を別の要
amayan 2011/03/11
[a

diff

algorithm

patch
リンク
Google Code Archive - Long-term storage for Google Code Project Hosting.
Code Archive Skip to content Google About Google Privacy Terms
amayan 2010/08/16
memcached

algorithm

backup
リンク
カリー化 - Wikipedia
カリー化 (currying, カリー化された=curried) とは、複数の引数をとる関数を、引数が「もとの関数の最初の引数」で戻り値が「もとの関数の残りの引数を取り結果を返す関数」であるような関数にすること（あるいはその関数のこと）である。クリストファー・ストレイチーにより論理学者ハスケル・カリーにちなんで名付けられたが、実際に考案したのはMoses Schönfinkelとゴットロープ・フレーゲである。ごく簡単な例として、f(a, b) = c という関数 f があるときに、F(a) = g（ここで、g は g(b) = c となる関数である）という関数 F が、f のカリー化である。関数 f がの形のとき、をカリー化したものをとすると、の形を取る。uncurryingは、これの逆の変換である。理論計算機科学の分野では、カリー化を利用すると、複数の引数をとる関数を、一つ
amayan 2009/06/03
curry

haskell

programming

algorithm
リンク
Practical Scheme
Shiro Kawai まだ下書き Schemeの特徴をあげるときに、「継続」や「call/cc」が出て来ないことはない。でも、R5RSのcall/ccの項をいくら読んでも、どうもよくわからない。 call/ccを使えばC言語のbreakみたいなのとか、コルーチンとかいうスレッドもどきとかが書ける、というのはわかったけど、一体そういうのが書けて何が嬉しいのか、そこんとこがピンと来ないんだ。今、そこにある継続プログラミングの世界の概念には、禅の公案のようなものがある。それを説明する文章はほんの一文なのに、最初に目にする時、その文は全く意味をなさない、暗号のように感じられる。だがひとたびその概念を理解すると、その概念の説明は確かにその一文で説明されているのがわかるのだ。そんな、「分かれば分かる」という禅問答の中でも「継続」は最も謎めいたものの一つと言えるだろう。文献を紐
amayan 2009/05/09
programming

algorithm

scheme

longjmp
リンク
思考実験: returnを関数と思ってみる話 - d.y.d.
21:07 09/03/26 zipWithN twitterでいけがみさんが張ってらした論文が面白かったです。 map f [a1, a2, ..., an] ==> [f a1, ..., f an] zipWith f [a1, ..., an] [b1, ..., bn] ==> [f a1 b1, ..., f an bn] zipWith3 f [a1, ..., an] [b1, ..., bn] [c1, ..., cn] ==> [f a1 b1 c1, ..., f an bn cn] ... zipWith7 f [a1, ..., an] [b1, ..., bn] ... [g1, ..., gn] ==> [f a1 b1 … g1, ..., f an bn … gn] Haskell98 の標準ライブラリの関数ですけど、１引数関数 f と１つのリスト as
amayan 2009/05/09
return

function

algorithm
リンク
関数引数の遅延評価 - プログラミング言語 D (日本語訳)
遅延評価とは、ある式を、その結果が本当に必要になる時点までは評価しないでおくテクニックです。論理演算子 &&, || や三項演算子 ?: は、従来からある遅延評価を行う手法です: void test(int* p) { if (p && p[0]) ... } 二番目の式 p[0] は p null でないときに限り評価されます。もし仮に二番目の式が遅延評価されないとすると、 p が null のときには実行時エラーとなってしまうでしょう。遅延評価演算子は実に有益なものではありますが、同時に、無視できない制限も存在します。ログ取り関数を考えてみましょう。メッセージのログをとるもので、グローバルな設定値によって実行時に ON/OFFを切り替えられるものとします: void log(char[] message) { if (logging) fwritefln(logfile,
amayan 2009/01/25
programming

delay

chienhyouka

遅延評価

algorithm
リンク
DO++ : 透過的データ圧縮
可逆データ圧縮分野で、現在研究が盛んな分野の一つが、データを圧縮した状態のまま定数時間でランダムアクセスをサポートするデータ圧縮方式です（word RAMモデルでO(log n)サイズの復元が定数時間)。これは、データをあたかも圧縮していないかのように扱えるため、透過的データ圧縮/構造と呼ばれています（英語だとまだ決まってない？)。例えば1GBのデータを圧縮した状態で、途中300MB目から4Byteだけ復元しようというのが定数時間で実現できるわけです。これは理論的にもかなり強いことをいっていて，例えば今あるデータ構造やアルゴリズムが、O(T)時間である問題を解けるというのがあったら、それを全く同じO(T)時間のままデータ構造を圧縮し作業領域量を減らすことができます (一応データ構造に対し読み込み操作しか無い場合。書き込みもある場合はまたちょっと面倒になる）このデータを圧縮したまま扱う
amayan 2008/10/02
algorithm

compression
リンク
著名ソーシャルメディアが使っているアルゴリズムを大公開！ | Moz - SEOとインバウンドマーケティングの実践情報
“アルゴリズム”は、もっとも非人間的なものの代表だともいえる。ソーシャルメディアにとって、そのアルゴリズムが不可欠だというのは、実に皮肉めいている。僕はこの間、グーグルがどうやってユーザーデータを集めているかについて書いた記事を掲載した（前編、後編）。今回は、著名なソーシャルメディアサイトが、ユーザーデータを活用する上でどのようにアルゴリズムを用いているのか、白日の下にさらそう。ソーシャルメディアを成り立たせているのは人間の力だが、ユーザーが入力したデータを利用できる状態にする仕組みは、アルゴリズムによって作られている。現在活動している無数のソーシャルメディアサイトで実証済みのことだが、ユーザーの関与とアルゴリズムによる処理ルールの上手いバランスを見出すことは、とても難しくなりがちだ。これから紹介するアルゴリズムは、悪意のないユーザーと結びついて初めてうまくいくものだ。人気ソーシャル
amayan 2008/08/19
algorithm
リンク
mixi Engineers’ Blog » 圧縮データベースを使おう
チャリンコ通勤による滝のような汗で、朝からTシャツがシースルーになってしまうmikioです。さて今回は、Tokyo Cabinet（TC）のデータベースを各種のアルゴリズムで圧縮して利用する方法についてご紹介します。圧縮B+木 B+木とは、比較関数の値による順序が近いレコード群を単一のページにまとめ、各ページにB木（multiway balanced treeの略であり、二分木（binary tree）とは違います）の索引を張ったものです。理論的にはレコードの探索も更新も O(log n) の時間計算量で行え、内部ノード（B木）の操作をキャッシュすると実質的には O(1) の時間計算量で探索や更新が行えるという、かなり安定した性能を備えるデータ構造です。その上、レコードが一定の順序に基づいて並べられているので、数値の範囲検索や文字列の前方一致検索が高速に行えたり、カーソルによって順序に基
amayan 2008/07/29
compress

algorithm

programming

mixi

database

compression
リンク
GoogleのMapReduceアルゴリズムをJavaで理解する
GoogleのMapReduceアルゴリズムをJavaで理解する：いま再注目の分散処理技術（前編）（1/2 ページ）最近注目を浴びている分散処理技術「MapReduce」の利点をサンプルからアルゴリズムレベルで理解し、昔からあるJava関連の分散処理技術を見直す特集企画（編集部）いま注目の大規模分散処理アルゴリズム最近、大規模分散処理が注目を浴びています。特に、「MapReduce」というアルゴリズムについて目にすることが多くなりました。Googleの膨大なサーバ処理で使われているということで、ここ数年の分散処理技術の中では特に注目を浴びているようです（参考「見えるグーグル、見えないグーグル」）。MapReduceアルゴリズムを使う利点とは、いったい何なのでしょうか。なぜ、いま注目を浴びているのでしょうか。その詳細は「MapReduce : Simplified Data Proc
amayan 2008/07/09
google

hadoop

mapreduce

java

algorithm
リンク
連載：検索エンジンを作る｜gihyo.jp … 技術評論社
運営元のロゴ Copyright © 2007-2024 All Rights Reserved by Gijutsu-Hyoron Co., Ltd. ページ内容の全部あるいは一部を無断で利用することを禁止します⁠。個別にライセンスが設定されている記事等はそのライセンスに従います。
amayan 2008/05/04
algorithm

programming

searchengine

全文検索

プログラミング

自然言語処理
リンク
Tx: Succinct Trie Data Structure
English 概要 TxはコンパクトなTrieを構築するためのライブラリです．従来のTrieの実装（darts等）に比べ1/4〜1/10の作業領域量で辞書を保持することができ、数億〜十億キーワードなど大規模な辞書を扱うことが可能です．Trieは文字列からなるキー集合を処理するデータ構造で、キーが辞書に含まれているかのみではなく、キーのPrefixが含まれているかを高速に求めることができます．内部データ構造にはSuccinct Data StructureであるLevel-Order Unary Degree Sequence (LOUDS)を利用しています．ダウンロード Txはフリーソフトウェアです．BSD ライセンスに従って本ソフトウェアを使用,再配布することができます. tx-0.12.tar.gz: HTTP Archives tx-0.11.tar.gz: HTTP tx
amayan 2007/11/19
algorithm

programming

library

tx

trie
リンク
きまぐれ日記: Autolink: 前方最長一致ではなく最長キーワード優先一致を実現する
Hatena のキーワード置換アルゴリズムがTRIE ベースの手法に変更になったようです。以前に AC法でやる方法の記事を書いたのですが、それと似たことをやってるのでしょうか。 AC法のやり方は単純で、前方から最長一致でキーワードを見つけていきます。これまでは長いキーワードから順番に見つけていく方法(最長キーワード優先一致)だったそうですが、前方から見つけていく方法だと短いキーワードが優先される場合があります。 http://d.hatena.ne.jp/ita/20060119/p1 http://d.hatena.ne.jp/hatenadiary/20060119/1137667217 本文：あいうえおかきくけこさしすせそ KW1 いう KW2 うえおかき KW3 かきく KW4 きくけこさしという文でKW1-KW4のキーワードがマッチする場合、新しくなった方法では「いう」と「かき
amayan 2007/11/19
mecab

keyword

algorithm

programming

自然言語処理
リンク
きまぐれ日記: はてなキーワードを高速に付与
amayan 2007/11/14
algorithm

ac法

programming

regex

自然言語処理

正規表現

アルゴリズム

形態素解析
リンク
辞書不要の形態素解析エンジン「マリモ」とは − ＠IT
2007/08/15 検索サービスを提供するベンチャー企業のムーターは8月1日、辞書を必要としない形態素解析エンジン「マリモ」の提供を開始した。従来、形態素解析では品詞情報を含む日本語辞書を用意するのが常識だったが、マリモでは、そうした辞書を不要とした。新技術のアプローチと特性について、開発元のムーターに話を聞いた。統計処理で単語部分を推定形態素解析とは、与えられた文を、文法上意味のある最小の単位（形態素）に区切る処理。「今日は晴れています」なら、「今日（名詞）／は（助詞）／晴れ（動詞）／て（助詞）／い（助詞）／ます（助動詞）」と分ける。検索エンジンをはじめ、さまざまな自然言語処理の場面で必要となる基礎技術だ。形態素解析を行うには、あらかじめ品詞情報が付加された数十万語からなる辞書を用意する必要がある。また、新語や造語、専門用語に対応するには、個別に人力で単語を登録する必要がある。
amayan 2007/08/19
algorithm

形態素解析

marimo
リンク
データ圧縮法概説　目次
最終更新日：2001年7月2日第1章へ webmaster@snap-tck.com Copyleft (C) 2000 SNAP(Sugimoto Norio Art Production)
amayan 2007/06/27
algorithm

compression

programming

開発
リンク
mixi Engineers’ Blog » mixi日記キーワードランキングの秘密
皆さん、先月の半ば頃からmixiのトップページの3列目に「日記キーワードランキング」というコーナーが登場していたのをご存じでしょうか。手前味噌ながら、これはとても面白い機能で、毎日ランキングが更新される度に素敵なランキングが作られていて悦に入っているmikioです。今回は日記キーワードランキングの秘密についてお話します。日記キーワードランキングとは、日記に書かれた言葉の使用頻度を統計的に処理して、今話題になっている度合を算出し、その上位をランキング形式で表示する機能です。トップページには5位までが表示されるので、それをチェックするだけで最新の流行を把握することができます。さらに「30位までを読む」に進むと30位までのキーワードとその関連日記が表示されます。詳細を知りたい場合はキーワードをクリックすると、そのキーワードで日記検索をした結果を見ることができます。一通り見るのに10分くらいでし
amayan 2007/06/21
algorithm

mixi

形態素解析
リンク
スペル修正プログラムはどう書くか
Peter Norvig / 青木靖訳先週、2人の友人(ディーンとビル)がそれぞれ別個にGoogleが極めて早く正確にスペル修正できるのには驚くばかりだと私に言った。たとえば speling のような語でGoogleを検索すると、0.1秒くらいで答えが返ってきて、もしかして: spelling じゃないかと言ってくる(YahooやMicrosoftのものにも同様の機能がある)。ディーンとビルが高い実績を持ったエンジニアであり数学者であることを思えば、スペル修正のような統計的言語処理についてもっと知っていて良さそうなものなのにと私は驚いた。しかし彼らは知らなかった。よく考えてみれば、別に彼らが知っているべき理由はないのだった。間違っていたのは彼らの知識ではなく、私の仮定の方だ。このことについてちゃんとした説明を書いておけば、彼らばかりでなく多くの人に有益かもしれない。Googleの
amayan 2007/04/29
google

programming

python

perl

自然言語処理

algorithm

ベイズの定理
リンク
文書比較（diff）アルゴリズム
文書比較（diff）アルゴリズム前のドキュメント次のドキュメントＶｉＶｉの文書比較（diff）機能で使用しているアルゴリズムについて解説する。これらのアルゴリズムは Myers 氏らの論文によるもので、氏は筆者のためにわざわざ論文をＷｅｂサイトで入手可能な形式にしてくださった。この場を借りてお礼申し上げる。オリジナル論文は以下のＷｅｂサイトから入手可能である。 http://www.cs.arizona.edu/people/gene [1] E.W.Myers, "An O(ND) Difference Algorithm and Its Variations", Algorithmica, 1 (1986), pp.251-266 [2] S. Wu, U. Manber, G. Myers and W. Miller, "An O(NP) Sequence Comparis
amayan 2007/03/20
algorithm

prog

diff

programming

text

データマイニング
リンク
Kazuho@Cybozu Labs: キーワード抽出モジュールを作ってみた
« IIS のログを tail -f | メイン | Lingua::JA::Summarize 0.02 » 2006年04月26日キーワード抽出モジュールを作ってみた一昨日、同僚の竹迫さんに、文書内からのキーワード抽出技術について教えてもらっていた時、わざわざ TF-IDF注1 用に別のコーパスを用意しなくても、MeCab だったら生起コストを辞書内に持っているんだから、それを使えばいいのではないか、という話になりました。竹迫さんがその日のうちに作ってくれたプロトタイプで、アルゴリズムの改善とパラメータのチューニングを行ったところ、十分な品質が出そうなので、書き直して公開することにしました。普通の Perl モジュールなので、 perl Makefile.PL && make && make install すれば使うことができます (15:50追記: すみません。 MeCab
amayan 2007/03/08
algorithm

keyword

mecab

形態素解析

programming

perl

tool

キーワード抽出
リンク
1