[B! algorithm] [2ページ] f99aqのブックマーク

データマイニングで使われるトップ10アルゴリズム - 『企業成長の方程式 ― AIDグロースコミットによる成長戦略』

2006年のデータマイニング学会、IEEE ICDMで選ばれた「データマイニングで使われるトップ10アルゴリズム」に沿って機械学習の手法を紹介します（この論文は@doryokujin君のポストで知りました、ありがとうございます！）。必ずしも論文の内容には沿っておらず個人的な私見も入っていますので、詳細は原論文をご確認下さい。また、データマイニングの全体観をサーベイしたスライド資料がありますので、こちらも併せてご覧下さい。データマイニングの基礎 View more presentations from Issei Kurahashi 1. C4.5 C4.5はCLSやID3といったアルゴリズムを改良してできたもので、決定木を使って分類器を作ります。決定木といえばCARTが良く使われますが、CARTとの違いは以下のとおりです。 CARTは2分岐しかできないがC4.5は3分岐以上もできる C

f99aq 2012/08/06

リンク

冬のLock-Free祭り

Please select the category that most closely reflects your concern about the presentation, so that we can review it and determine whether it violates our Terms of Use or isn't appropriate for all viewers.

f99aq 2012/07/22

リンク

誤り許容カウント法(lossy count method)のサンプルプログラム

誤り許容カウント法(lossy count method)のサンプルプログラム 2010-05-12-1 [Programming][Algorithm] 1行1ラベル形式で、 1万種類のラベルを持つ、 100万行のデータがあるとします（ラベルの頻度分布はジップの法則にだいたい準拠するとします）。各ラベルの頻度をハッシュを使ってカウントするとなると、ハッシュエントリ1万個分のメモリ容量が必要になります。（1万じゃたいしたことないな、という人はもっと大きな数に置き換えて読んでください。）しかし、カウント後に高頻度のものしか使わないということも多いと思います。例えば頻度5000以上のもののみ取り出してあとはいらない、とか。そうなると、全部のラベルのカウントデータを最後まで保持するのは無駄に思えます。そこで登場するのが「誤り許容カウント法(lossy count method)」。低

f99aq 2012/06/18

algorithm

リンク

MySQLの自前strtod実装がタコすぎる - hnwの日記

MySQL5.1のソースコードを確認していたところ、浮動小数点数の10進表記から浮動小数点数への変換処理に実装上の問題点を見つけました。浮動小数点数処理の典型的な落とし穴にはまっていて、計算の途中で精度を落としてしまっています。これは古くから知られているバグのようで、下記URLから判断すると2007年末頃には修正コードが開発系ブランチに入っていたようです。しかし、その後のんびりしていたのか、2010年4月のMySQL5.5.3で初めて安定版としてリリースされました。また、今のところ5.1系へのバックポートは出来ていないようです。 Worklog :: WL#2934 >> Make/find library for doing float/double to string conversions and vice versa MySQL Lists: commits: bk commit

f99aq 2012/04/10

リンク

30分でわかる高性能な圧縮符号vertical code - EchizenBlog-Zwei

検索エンジンの転置インデックスなどデータ列を小さいデータサイズで持たせたい、という状況がある。こういう場合圧縮符号を使うのが一般的でunary符号やgamma符号、delta符号など様々な種類がある。圧縮符号の中でイチオシなのがvertical code(vcode)。これは岡野原(@hillbig)氏によって提案された圧縮符号で単純な仕組みでdelta符号並の性能を誇っている。本記事ではvcodeのポイントを絞って30分でわかるように解説してみる。 vcodeは本棚に本を並べる作業を連想すると理解しやすい。本棚は予め高さが決まっているので全ての本が入るような本棚を用意する。つまりというようなものを想像する。この本棚は8冊の本が並んでいるが左から5冊目の本が他よりも背が高い。このため5冊目の本に合わせて背の高い本棚が必要になる。だが他の本は5冊目の本ほどに背が高くないので、5冊目が

f99aq 2011/10/31

algorithm

リンク

Bloom filter の気持ち - アスペ日記

Bloom filter について書いてみる。実装例についてはBloom filterのシンプルな実装 - 西尾泰和のはてなダイアリー等があるので、ここでは「気持ち」中心に。前提:ハッシュ関数と key-value store の知識注意:途中、説明のために実際の Bloom filter とは違う実装を導入している。次の 4点はお互いに関連しているため、適当に混ぜながら書く。 1. Bloom filter でできることはどういうことか 2. Bloom filter はどのように実装されているのか 3. Bloom filter はどのような計算量的特性を持っているか 4. Bloom filter を使うと、どういう時にうれしいかまず、「Bloom filter でできることはどういうことか」について、key-value store (KVS) , set との違いという観

f99aq 2011/08/16

リンク

ソフトウェアトランザクショナルメモリ - Wikipedia

計算機科学において、ソフトウェアトランザクショナルメモリ（英: software transactional memory, STM）は、データベーストランザクションに似た並行性制御機構であり、並列計算を行う際の共有メモリへのアクセス法である。この機構はロックベースの同期を用いた並行性制御の代替手段として機能し、ノンブロッキングな方法で実装される物もある。ここでいうトランザクションとは、共有メモリに対する一連の読み出しと書き込みを実行するコードを意味する。論理的にはこれらの読み出しと書き込みは、時間的なある一点で行われ、他のトランザクションからはその間の状態は見えない。トランザクションを行うためにハードウェアにサポートさせるアイデア(ハードウェアトランザクショナルメモリ)は、1986年に Tom Knight により論文と特許として出された。そのアイデアを普及させたのが Maurice H

f99aq 2011/06/21

algorithm

リンク

正規表現しちへんげ！　第二夜

09:25 10/12/31 年末まとめ今年何やったっけ、と日記を読み返していました。何もやってないな…。 Polemy 作りました、くらい。言語処理系作るのはやっぱり楽しいですね。汎用言語として使う本格的なものを作ろうとすると懲りすぎて一歩も進まなくなってしまう自分が見えるので、来年は、そうだなあ、TopCoder/ICPC風コンテストに特化した言語というかC++へのトランスレータ、くらいに絞って作ってみようかなあ。書いた記事だと最短性チェックの話が自分では割と気に入っています。これのもっとバグを許容するバージョン作れないか。読んだ論文で面白かったのは "A Pearl on SAT Solving in Prolog" と "When Simulation Meets Antichains" (PDF) など。あとは、今年読んで面白かった本ベスト５（順不同）：『

f99aq 2011/02/20

リンク

d.y.d. 初Bitsの出：解答編

17:35 11/02/14 TLE '11 変則コードゴルフ大会 TLE に参加していました。 7位でした。無念…。終了１時間前には3位だったんですよ！（言い訳）問題はこちらです。自分のソースコードは sub/TLE11 こんな感じでした。以下、ネタバレ感想など。短いコードが知りたい方は優勝者の解説をご覧あれ。 COUNTI 自然数 i が入力されたら、「自分のソースコードの i バイト目に出てくる文字は、自分のソースコードの中に、何回出現するか」を出力しよう。できるだけ短いコードで。基本的にゴルフ大会なので、どの問題も短く書ければ短いほど点数が高いです。 main(){...いつでも4を表示するコード...}//どの文字も4文字ずつになるよう足りない字をここで補充というのを即座に思いついて、submit 開始直後に投入。したら、主催者さんがこれでは面白くないなーと

f99aq 2011/02/20

algorithm

リンク

Gmail優先トレイ論文メモ - kisa12012の日記

元論文 “The Learning Behind Gmail Priority Inbox”, Douglas Aberdeen, Ondrey Pacovsky, Andrew Slater, LCCC : NIPS 2010 Workshop on Learning on Cores, Clusters and Clouds. http://research.google.com/pubs/archive/36955.pdf Gmail Priority InboxにはPAが利用されていると話題になっているので，読んでみました．簡単にまとめ PA + transfer learning + logistic model ランキング学習では，thresholdが非常に重要な働きを持つ Gmail Priority Inboxはあなたのメール処理の時間を6%短縮してくれます 1.The

f99aq 2011/02/13

リンク

クラスカルのアルゴリズム - naoyaのはてなダイアリー

昨年からはじめたアルゴリズムイントロダクションの輪講も終盤に差し掛かり、残すところ数章となりました。今週は第23章の最小全域木でした。辺に重みのあるグラフで全域木を張るとき、その全域木を構成する辺の合計コストが最小の組み合わせが最小全域木です。アルゴリズムイントロダクションでは、クラスカルのアルゴリズム、プリムのアルゴリズムの二点が紹介されています。いずれも20世紀半ばに発見された古典的なアルゴリズムです。二つのうち前者、クラスカルのアルゴリズムは、コスト最小の辺から順番にみていって、その辺を選んだことで閉路が構成されなければ、それは安全な辺であるとみなし、最小全域木を構成する辺のひとつとして選択します。これを繰り返しているうちに最小全域木が構成されるというアルゴリズムです。今日はクラスカルのアルゴリズムを Python で実装してみました。扱うグラフは書籍の例を使ってみました。以下

f99aq 2011/01/29

algorithm

リンク

Burrows Wheeler Transform と Suffix Array - naoyaのはてなダイアリー

,. -‐'''''""¨¨¨ヽ (.＿＿_,,,... -ｧァﾌ|　　　　　　　　　　あ…ありのまま今日　起こった事を話すぜ！ |i i|　　 }!　}} /／| |l､{　　j}　/,,ｨ//｜　　　　　　　『BWT について調べていたら Suffix Array のライブラリができていた』 i|:!ヾ､_ﾉ／ u {:}//ﾍ |ﾘ u' }　 ,ﾉ　_,!V,ﾊ | ／´fト､_{ﾙ{,ィ'ｅﾗ　, ﾀ人　　　　　　　　な…　何を言ってるのか　わからねーと思うが /' 　ヾ|宀| {´,)⌒`/ |<ヽﾄiゝ　　　　　　　　おれも何をされたのかわからなかった… ,ﾞ　／ )ヽ iLﾚ　u' |　| ヾｌﾄﾊ〉 |／_／　ﾊ !ニ⊇　'／:} 　V:::::ヽ　　　　　　　　頭がどうにかなりそうだった… /／二二二7'T'' ／u'　__ /:::::::/｀ヽ /'

f99aq 2011/01/22

リンク

軽量データクラスタリングツールbayon - mixi engineer blog

逆転検事を先日クリアして、久しぶりに逆転裁判1〜3をやり直そうか迷い中のfujisawaです。シンプルなデータクラスタリングツールを作成しましたので、そのご紹介をさせていただきます。クラスタリングとはクラスタリングとは、対象のデータ集合中で似ているもの同士をまとめて、いくつかのグループにデータ集合を分割することです。データマイニングや統計分析などでよく利用され、データ集合の傾向を調べたいときなどに役に立ちます。例えば下図の例ですと、当初はデータがゴチャゴチャと混ざっていてよく分からなかったのですが、クラスタリングすることで、実際は3つのグループのデータのみから構成されていることが分かります。様々なクラスタリング手法がこれまでに提案されていますが、有名なところではK-means法などが挙げられます。ここでは詳細については触れませんが、クラスタリングについてより詳しく知りたい方は以下の

f99aq 2011/01/15

リンク

SPYSEEのつながりマイニングのはなし。 - TMBのおぼえがき

オーマ×クックパッド勉強会に参加しましたごはんが美味しかった。まえおき http://spysee.jp/のなかのひとです。フロントエンドやインフラ系はシャッチョーやid:amachangがやっているので、それ以外のところやってます。主にアルゴリズム。つながりの抽出手法や同姓同名処理手法を開発しました。時々、なかのひととしていろんな会合に出没してます。そのたびに、「つながりどうやってできてんのー？」「同姓同名どうなってんのー？」など聞かれますが、詳細に答えたことはありませんでした。about SPYSEE的な話はIVSのLaunch Pad(動画)などで話したことはありますが、アルゴリズムの詳しいところまでは時間なくて話しておりません。さて先日、オーマ×クックパッド合同勉強会を開催しました。そこでお時間いただき、「SPYSEEのつながりマイニング手法」という題目で講演させ

f99aq 2011/01/10

リンク

The Art of Multiprocessor Programmin Chapter 05 with Japanese comment.

f99aq 2010/06/02

algorithm

リンク

Paxosアルゴリズム - Wikipedia

Paxosとは信頼性が低いプロセッサのネットワークにおいて合意の問題を解決するためのプロトコルの集合である。合意とは参加者のグループにおいて単一の結果について合意を得るプロセスである。参加者や通信手法に障害が起きる可能性がある場合、この問題は困難なものとなる[1]。合意プロトコルは分散コンピューティングにおける状態機械アプローチの基礎であり、これはレスリー・ランポート[2]により提案され、Fred Schneiderによってサーベイがなされている[3]。 Paxosプロトコルは1990年に登場し命名されたが、論文として出版されたのは1998年であった[4]。これ以前に、ナンシー・リンチ、Cynthia Dwork、Larry Stockmeyerは"部分同期"システムの広い範囲における合意形成方法を例証している。Paxosは分散トランザクションの文脈において、1988年にOkiとBa

f99aq 2010/05/30

algorithm

リンク

最強最速アルゴリズマー養成講座：アルゴリズマーの登竜門、「動的計画法・メモ化再帰」はこんなに簡単だった (1/5) - ITmedia エンタープライズ

動的計画法とメモ化再帰今回は、非常によく用いられるアルゴリズムである、「動的計画法」「メモ化再帰」について説明します。この2つはセットで覚えて、両方使えるようにしておくと便利です。なお、メモ化再帰に関しては、第5・6回の連載の知識を踏まえた上で読んでいただけると、理解が深まります。まだお読みになっていない方は、この機会にぜひご覧ください。中学受験などを経験された方であれば、こういった問題を一度は解いたことがあるのではないでしょうか。小学校の知識までで解こうとすれば、少し時間は掛かるかもしれませんが、それでもこれが解けないという方は少ないだろうと思います。この問題をプログラムで解こうとすると、さまざまな解法が存在します。解き方によって計算時間や有効範囲が大きく変化しますので、それぞれのパターンについて考えます。以下の説明では、縦h、横wとして表記し、プログラムの実行時間に関しては、

f99aq 2010/04/06

algorithm

リンク

ConsistentHashing - コンシステント・ハッシュ法

ConsistentHashing - コンシステント・ハッシュ法目次この文書についてコンシステント・ハッシュ法実例実装用途コンシステント・ハッシュ法この文書について "Tom White's Blog: Consistent Hashing" の日本語訳です. http://weblogs.java.net/blog/tomwhite/archive/2007/11/consistent_hash.html 推敲歓迎: 誤訳, タイポ, 訳語の不統一, そのほか... 原文のライセンス: http://creativecommons.org/licenses/by-nc-sa/2.0/ 私は今までに何度かコンシステント・ハッシュ法にとりくんだことがある。このアイデアをあらわした論文 ( David Karger らによる Consistent Hashing and R

f99aq 2010/04/06

algorithm

リンク

EventuallyConsistent - 結果整合性

EventuallyConsistent - 結果整合性目次この文書について結果整合性歴史の話クライアント側の整合性サーバ側の整合性まとめ結果整合性この文書について Werner Vogels "Eventually Consistent" の日本語訳です. http://www.allthingsdistributed.com/2007/12/eventually_consistent.html 推敲歓迎: 誤訳, タイポ, 訳語の不統一, そのほか... 近年, データ複製の文脈で結果整合性(eventual consistency) に関する議論が盛んだ. この記事では大規模データの複製における原則や抽象, 高可用性とデータ整合性のトレードオフに関する話題をいくつか集めてみたいと思う. 現在進行中の分野であり, 全ての定義が最初から明快であるとは思わないでほ

f99aq 2010/04/06

algorithm

リンク

String::Dictionary - naoyaのはてなダイアリー

String::Dictionary という Perl のライブラリを作ってみました。 http://github.com/naoya/perl-String-Dictionary/tree/master String::Dictionary は検索エンジンその他を作る時に必要になる「辞書」のためのデータ構造 + API です。辞書は単語の集まりですが、これを配列やハッシュなどで持つのではなく、単語をすべて繋げた一つの大きな文字列として保持することでメモリ領域を節約したものです。単語は単に文字列連結で持つだけでなく、Front Coding で圧縮しています。以下簡単な解説です。辞書は例えば [0] ･･･ jezebel [1] ･･･ jezer [2] ･･･ jezerit [3] ･･･ jeziah [4] ･･･ jeziel ...という風に単語を配列で持つことで実現でき

f99aq 2010/02/13

リンク

はてなブックマーク

タグ

関連タグで絞り込む (69)

algorithmに関するf99aqのブックマーク (95)

お知らせ

今週のはてなブックマーク数ランキング（2025年11月第4週）

はてなブックマーク一部機能のメンテナンスに関するお知らせ

今週のはてなブックマーク数ランキング（2025年11月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス