[B! algorithm][programming] [4ページ] HeavyFeatherのブックマーク

HeavyFeather id:HeavyFeather

algorithmとprogrammingに関するHeavyFeatherのブックマーク (87)

DBMによるテーブルデータベースその弐 - mixi engineer blog
インフルエンザで休んだ影響で仕事が鬼のように溜まって消化不良のmikioです（こんな記事を書いている場合じゃない）。さて今回は、Tokyo Cabinetでリレーショナル風データベースを実現したテーブルデータベース（TCTDB）の実装について説明します。 SQLiteとの違いは？ SQLiteはアプリケーション組み込み型のSQL対応リレーショナルデータベースのライブラリです。TCのテーブルデータベースよりもはるかに高機能で、それでいて性能も大変優れています。いわゆるデスクトップアプリケーションに組み込むデータベースをお探しであれば、TCなんかではなく、断然SQLiteがおすすめです。一方で、TCなどのDBMは、より単純なデータ操作をより高速に実行できるように設計および実装されています。典型的なユースケースとして、大規模Webサイトのアカウント管理や、データマイニングに伴う集計操作が挙げら
HeavyFeather 2009/01/29
db

mixi

performance

programming

algorithm
リンク
新はてなブックマークでも使われてるComplement Naive Bayesを解説するよ - 射撃しつつ前転改
新はてブ正式リリース記念ということで。もうリリースから何週間も経っちゃったけど。新はてなブックマークではブックマークエントリをカテゴリへと自動で分類しているが、このカテゴリ分類に使われているアルゴリズムはComplement Naive Bayesらしい。今日はこのアルゴリズムについて紹介してみる。 Complement Naive Bayesは2003年のICMLでJ. Rennieらが提案した手法である。ICMLというのは、機械学習に関する（たぶん）最難関の学会で、採択率はここ数年は30%を切っている。2003は119/371で、32.1%の採択率だったようだ。 Complement Naive Bayesの位置づけは実装が簡単学習時間が短い性能もそこそこよいという感じで、2003年段階にあっても、絶対的な性能ではSVMに負けていた。しかし、学習が早いというのは実アプリケーシ
HeavyFeather 2008/12/24
hatena

technology

algorithm

bayes

nlp

programming

search
リンク
アルゴリズムコンテストの挑み方 (3) - d.y.d.
17:19 08/11/27 TopCoder Code Jam の練習に……と思ってしばらく前から TopCoder のSRMに参加してたのですが、せっかくなので cafelier@SRM に記録をつけることにしました。どういう試行錯誤をしながら提出した時のコードにいたったのかを、できるだけ詳細にメモろうと思っています。 426以前のは記憶から掘り起こして書いたのでちょい大ざっぱですが。これまで何回かここで書いたような整然とした考え方を本当に自分がしているかいうと、してないよなー、と薄々思ってしまっているので、じゃあどういう風にやっているんだろうかと。自分のふり見て我がふり直す。 20:26 08/11/24 論文 PLAN-X 2009 通ったみたいです。ばんざい。ただでさえD論まったく間に合う気がしないのに、camera ready版なんて作ってる時間が… オートマトン
HeavyFeather 2008/11/14
algorithm

graph

programming
リンク
正規表現エンジンを作ろう（1）
はじめにこんにちは。hirataraです。私が初めて正規表現を使ったのは、PerlによるCGIでの文字列処理でした。それから私はPerlを使い続け、今では正規表現なしのコーディングは考えられないほど、正規表現を当たり前の機能として日常的に使っています。昔は標準では正規表現をサポートしていなかったJavaも、今では正規表現をサポートするようになりました。Javaだけではなく、今日ではほとんどの高級言語にとって、正規表現はなくてはならない機能であると言っても過言ではないほどメジャーな機能となっています。本記事では、この正規表現の舞台裏に光を当てます。一見すると作ることが難しそうな正規表現エンジンですが、その根底には数学的な概念があり、その概念さえ知っていれば基礎となる機能の実装はそんなに難しくありません。この連載ではその数学的な概念をPythonを使って表現しながら、実際に動作する正規表
HeavyFeather 2008/11/07
regex

programming

algorithm
リンク
Burrows Wheeler Transform と Suffix Array - naoyaのはてなダイアリー
,. -‐'''''""¨¨¨ヽ (.＿＿_,,,... -ｧァﾌ|　　　　　　　　　　あ…ありのまま今日　起こった事を話すぜ！ |i i|　　 }!　}} /／| |l､{　　j}　/,,ｨ//｜　　　　　　　『BWT について調べていたら Suffix Array のライブラリができていた』 i|:!ヾ､_ﾉ／ u {:}//ﾍ |ﾘ u' }　 ,ﾉ　_,!V,ﾊ | ／´fト､_{ﾙ{,ィ'ｅﾗ　, ﾀ人　　　　　　　　な…　何を言ってるのか　わからねーと思うが /' 　ヾ|宀| {´,)⌒`/ |<ヽﾄiゝ　　　　　　　　おれも何をされたのかわからなかった… ,ﾞ　／ )ヽ iLﾚ　u' |　| ヾｌﾄﾊ〉 |／_／　ﾊ !ニ⊇　'／:} 　V:::::ヽ　　　　　　　　頭がどうにかなりそうだった… /／二二二7'T'' ／u'　__ /:::::::/｀ヽ /'
HeavyFeather 2008/10/18
perl

programming

algorithm

sort
リンク
著名ソーシャルメディアが使っているアルゴリズムを大公開！ | Moz - SEOとインバウンドマーケティングの実践情報
“アルゴリズム”は、もっとも非人間的なものの代表だともいえる。ソーシャルメディアにとって、そのアルゴリズムが不可欠だというのは、実に皮肉めいている。僕はこの間、グーグルがどうやってユーザーデータを集めているかについて書いた記事を掲載した（前編、後編）。今回は、著名なソーシャルメディアサイトが、ユーザーデータを活用する上でどのようにアルゴリズムを用いているのか、白日の下にさらそう。ソーシャルメディアを成り立たせているのは人間の力だが、ユーザーが入力したデータを利用できる状態にする仕組みは、アルゴリズムによって作られている。現在活動している無数のソーシャルメディアサイトで実証済みのことだが、ユーザーの関与とアルゴリズムによる処理ルールの上手いバランスを見出すことは、とても難しくなりがちだ。これから紹介するアルゴリズムは、悪意のないユーザーと結びついて初めてうまくいくものだ。人気ソーシャル
HeavyFeather 2008/08/22
social

web

programming

algorithm
リンク
アルゴリズムイントロダクション輪講@京都 - naoyaのはてなダイアリー
社内エンジニアの間に、計算機科学をマジメにやろうという機運が高まっています。それを受けはてな社内で計算機科学に関する教科書の輪講をやろうという話になりました。という訳でまずはアルゴリズムの教科書「アルゴリズムイントロダクション第1巻改訂2版 (1)」を輪講してみることにします。はてなスタッフだけでなく社外からの参加も募集しているので、京都オフィスに近い方はぜひご参加下さい。 id:motemen がコンピュータサイエンス関連書籍の輪講を開催するとのこと。もちろん自分も参加します。教科書は何が良いか色々考えたようですが、まずはアルゴリズムイントロダクションに決まったようです。アルゴリズムイントロダクション、ちょうど今日届いたのでざっと見てみた所、数学的な観点からアルゴリズム/データ構造についての基礎を論じている良い書籍だと思いました。アルゴリズムとデータ構造は最も重要な基礎ですが、これ
HeavyFeather 2008/08/16
book

algorithm

hatena

programming
リンク
mixi Engineers’ Blog » 圧縮データベースを使おう
チャリンコ通勤による滝のような汗で、朝からTシャツがシースルーになってしまうmikioです。さて今回は、Tokyo Cabinet（TC）のデータベースを各種のアルゴリズムで圧縮して利用する方法についてご紹介します。圧縮B+木 B+木とは、比較関数の値による順序が近いレコード群を単一のページにまとめ、各ページにB木（multiway balanced treeの略であり、二分木（binary tree）とは違います）の索引を張ったものです。理論的にはレコードの探索も更新も O(log n) の時間計算量で行え、内部ノード（B木）の操作をキャッシュすると実質的には O(1) の時間計算量で探索や更新が行えるという、かなり安定した性能を備えるデータ構造です。その上、レコードが一定の順序に基づいて並べられているので、数値の範囲検索や文字列の前方一致検索が高速に行えたり、カーソルによって順序に基
HeavyFeather 2008/08/01
programming

algorithm

compression

db

mysql
リンク
GoogleのMapReduceアルゴリズムをJavaで理解する
GoogleのMapReduceアルゴリズムをJavaで理解する：いま再注目の分散処理技術（前編）（1/2 ページ）最近注目を浴びている分散処理技術「MapReduce」の利点をサンプルからアルゴリズムレベルで理解し、昔からあるJava関連の分散処理技術を見直す特集企画（編集部）いま注目の大規模分散処理アルゴリズム最近、大規模分散処理が注目を浴びています。特に、「MapReduce」というアルゴリズムについて目にすることが多くなりました。Googleの膨大なサーバ処理で使われているということで、ここ数年の分散処理技術の中では特に注目を浴びているようです（参考「見えるグーグル、見えないグーグル」）。MapReduceアルゴリズムを使う利点とは、いったい何なのでしょうか。なぜ、いま注目を浴びているのでしょうか。その詳細は「MapReduce : Simplified Data Proc
HeavyFeather 2008/07/14
google

hadoop

mapreduce

java

algorithm

scalability

programming
リンク
第2回　memcachedのメモリストレージを理解する | gihyo.jp
株式会社ミクシィ研究開発グループの前坂です。前回の記事でmemcachedは分散に長けた高速なキャッシュサーバであることが紹介されました。今回はmemcachedの内部構造がどう実装されているのか、そしてメモリがどう管理されているのかをご紹介します。また、memcachedの内部構造の事情による弱点も紹介します。メモリを整理して再利用するSlab Allocationメカニズム昨今のmemcachedはデフォルトでSlab Allocatorというメカニズムを使ってメモリの確保・管理を行っています。このメカニズムが登場する以前のメモリ確保の戦略は、単純にすべてのレコードに対してmallocとfreeを行うといったものでした。しがしながら、このアプローチではメモリにフラグメンテーション（断片化）を発生させてしまい、OSのメモリマネージャに負荷をかけ、最悪の場合だとmemcachedのプ
HeavyFeather 2008/07/12
memcached

server

algorithm

programming
リンク
ガベージコレクションの実装法と評価
1.はじめにプログラミング言語とはシステム化する対象物を抽象化し、コンピュータで処理可能なコードを記述するために用いる人工言語である。プログラミング言語はコンピュータの機械語と一対一の対応をもったアセンブラから始まり、コンパイラを用いて機械語に翻訳することを前提としたコンパイラ言語、インタプリタと呼ばれるプログラムがソースコードを解釈し実行するスクリプト言語と、記述できる抽象度を高める方向へと進化してきた。プログラミング言語はその存在理由から、より抽象度の高い記述が行えること、すばやい開発を行える事が求められる。抽象度の高い記述とは、プログラムがどういう処理を行うか(HOW)ではなく何の処理を行うか(WHAT)を記述しやすい構文、機能を持っていることを、すばやい開発とは記述性の高さ、コードの密度の高さ、バグの発生しにくい構文、機能を持っていることをさす。この抽象度の高い記述、すばやい
HeavyFeather 2008/06/30
gc

c

programming

algorithm
リンク
Animated Sorting Algorithms
Discussion These pages show 8 different sorting algorithms on 4 different initial conditions. These visualizations are intended to: Show how each algorithm operates. Show that there is no best sorting algorithm. Show the advantages and disadvantages of each algorithm. Show that worse-case asymptotic behavior is not the deciding factor in choosing an algorithm. Show that the initial condition (inp
HeavyFeather 2008/06/27
algorithm

programming

sort
リンク
MapReduce - naoyaのはてなダイアリー
"MapReduce" は Google のバックエンドで利用されている並列計算システムです。検索エンジンのインデックス作成をはじめとする、大規模な入力データに対するバッチ処理を想定して作られたシステムです。 MapReduce の面白いところは、map() と reduce() という二つの関数の組み合わせを定義するだけで、大規模データに対する様々な計算問題を解決することができる点です。 MapReduce の計算モデル map() にはその計算問題のデータとしての key-value ペアが次々に渡ってきます。map() では key-value 値のペアを異なる複数の key-value ペアに変換します。reduce() には、map() で作った key-value ペアを同一の key で束ねたものが順番に渡ってきます。その key-values ペアを任意の形式に変換すること
HeavyFeather 2008/05/13
google

algorithm

search

programming
リンク
spiteful.com
Get a price in less than 24 hours Fill out the form below. One of our domain experts will have a price to you within 24 business hours.
HeavyFeather 2008/03/24
programming

algorithm

tips
リンク
アルゴリズムとデータ構造演習
本演習の目的は、プログラミング言語C及びSchemeの基礎を習得し、それらの言語を通じて、講義「アルゴリズムとデータ構造」の理解を深めることにあります。重要なお知らせ特に重要な連絡事項はここに掲載されます。課題について課題には、A課題とB課題があります。（課題番号の末尾が種類を表します。） B課題が基礎的な課題で、A課題が発展的な課題となっています。 B課題を全問解くことが、単位取得の目安です。 C入門第1回（10月10日） C入門第2回（10月17日） C入門第3回（10月24日） C入門第4回（10月31日） C第1回（11月7日） C第2回（11月14日） C第3回（11月21日） C第4回（11月28日） C第5回（12月5日） Scheme第1回（12月12日） Scheme第2回（12月19日） Scheme第3回（1月9日） Scheme第4回（1月16日） C補講
HeavyFeather 2008/01/28
algorithm

c

study

scheme

programming
リンク
GC - GCアルゴリズム詳細解説 - livedoor Wiki（ウィキ）
GCアルゴリズム詳細解説日本語の資料がすくないGCアルゴリズムについて詳細に解説しますトップページページ一覧メンバー編集 × GC 最終更新： author_nari 2010年03月14日(日) 20:47:11履歴 Tweet このWikiが目指す所 GCとは？ GCを学ぶ前に知っておく事実行時メモリ構造基本アルゴリズム編 Reference Counter Mark&Sweep Copying 応用アルゴリズム編 IncrementalGC 世代別GC スナップショット型GC LazySweep TwoFinger Lisp2 Partial Mark and Sweep -Cycle Collection- Mostly Parallel GC train gc MostlyCopyingGC(Bartlett 1989) TreadmillGC(Barker 1992)
HeavyFeather 2008/01/21
algorithm

programming

gc

wiki
リンク
文書比較（diff）アルゴリズム
文書比較（diff）アルゴリズム前のドキュメント次のドキュメントＶｉＶｉの文書比較（diff）機能で使用しているアルゴリズムについて解説する。これらのアルゴリズムは Myers 氏らの論文によるもので、氏は筆者のためにわざわざ論文をＷｅｂサイトで入手可能な形式にしてくださった。この場を借りてお礼申し上げる。オリジナル論文は以下のＷｅｂサイトから入手可能である。 http://www.cs.arizona.edu/people/gene [1] E.W.Myers, "An O(ND) Difference Algorithm and Its Variations", Algorithmica, 1 (1986), pp.251-266 [2] S. Wu, U. Manber, G. Myers and W. Miller, "An O(NP) Sequence Comparis
HeavyFeather 2007/11/27
algorithm

programming

technology
リンク
あなたが一番好きなアルゴリズムを教えてください。また、その理由やどんな点が好きなのかも教えてください。 - 人力検索はてな
あなたが一番好きなアルゴリズムを教えてください。また、その理由やどんな点が好きなのかも教えてください。
HeavyFeather 2007/11/27
programming

algorithm
リンク
livedoor Developers Blog:String::Trigram でテキストの類似度を測る - livedoor Blog（ブログ）
こんにちは。検索グループ解析チームの nabokov7 です。今回は、livedoor キーワードでの事例より、テキストの類似度を測るのに便利な手法を紹介します。 livedoor キーワードは、livedoor ブログでその日その日で話題になった語をランキング表示するサービスです。当初、はてなキーワードやWikipediaを足して2で割ったようなサービスを作れといった開き直った指示のもとで開発が開始されたともいう、分社化前の芸風の名残で、キーワードの検索結果にはユーザが自由に解説を書き込める Wikipedia 的スペースもついています。で、この解説部分に、さまざまなサイトから文章をまる写ししちゃう人がとても多いのですね。特に多いウィキペディア日本語版からの剽窃を防止するために、livedoor キーワードでは以下のような対策を講じることにしました。ウィキペディア日本語版の解説
HeavyFeather 2007/10/19
algorithm

programming

text

perl
リンク
最速インターフェース研究会 :: Mozilla24でしゃべってきました
9/15日にMozilla 24 出張Shibuya.js 24でしゃべってきました。 http://shibuyajs.org/articles/2007/08/24/Shibuya-js-24 資料はこちら。 http://ma.la/files/shibuya.js/mozilla24.html JavaScriptでBloom　filterのデモ。今のところ実用性が無い。仕組みを理解するのには良いかも。 http://la.ma.la/misc/js/bloomfilter/ Bloom Filterについてはここら辺が詳しい。 http://chasen.org/~taku/blog/archives/2006/01/bloom_filter_1.html http://ja.wikipedia.org/wiki/%E3%83%96%E3%83%AB%E3%83%BC%E3%83
HeavyFeather 2007/10/01
algorithm

javascript

programming

tips
リンク
前のページ 1 2 3 4 5 次のページ