[B! Algorithm] publichtmlのブックマーク

Amazon.co.jp: アルゴリズムクイックリファレンス: George T. Heineman (著), Gary Pollice (著), Stanley Selkow (著), 黒川利明 (翻訳), 黒川洋 (翻訳): 本

publichtml 2010/06/04

リンク

アルゴリズムの紹介

ここでは、プログラムなどでよく使用されるアルゴリズムについて紹介したいと思います。元々は、自分の頭の中を整理することを目的にこのコーナーを開設してみたのですが、最近は継続させることを目的に新しいネタを探すようになってきました。まだまだ面白いテーマがいろいろと残っているので、気力の続く限りは更新していきたいと思います。今までに紹介したテーマに関しても、新しい内容や変更したい箇所などがたくさんあるため、新規テーマと同時進行で修正作業も行なっています。アルゴリズムのコーナーで紹介してきたサンプル・プログラムをいくつか公開しています。「ライン・ルーチン」「円弧描画」「ペイント・ルーチン」「グラフィック・パターンの処理」「多角形の塗りつぶし」を一つにまとめた GraphicLibrary と、「確率・統計」より「一般化線形モデル」までを一つにまとめた Statistics を現在は用意して

publichtml 2009/11/08

Algorithm

リンク

「1000のアルゴリズムを持つ男」vs.「やわらか頭脳」

「1000のアルゴリズムを持つ男」vs.「やわらか頭脳」：最強最速アルゴリズマー養成講座（1/3 ページ）典型的なアルゴリズムをたくさん知っている人間が最強か――？　いいえ、典型的なアルゴリズムを知らなくても、違ったアプローチで答えに迫る方法はいくらでも存在します。短い実行時間で正確な答えを導き出せるかを考える習慣をつけましょう。アルゴリズマー養成講座と銘打ってスタートした本連載。もしかすると読者の方の興味は、はやりのアルゴリズムや汎用的なアルゴリズムを知ることにあるのかもしれません。しかし、今回は、いわゆる「典型的なアルゴリズム」を用いずに進めていきたいと思います。なぜ典型的なアルゴリズムを用いないのか。それは、典型的なアルゴリズムばかりを先に覚え、それだけでTopCoderなどを戦っていこうとした場合、それに少しでもそぐわない問題が出た場合に、まったく太刀打ちできなくなってしまう

publichtml 2009/10/10

Algorithm

リンク

クラスタリング (クラスター分析) - Toshihiro Kamishima

クラスタリング (clustering) とは，分類対象の集合を，内的結合 (internal cohesion) と外的分離 (external isolation) が達成されるような部分集合に分割すること [Everitt 93, 大橋 85] です．統計解析や多変量解析の分野ではクラスター分析 (cluster analysis) とも呼ばれ，基本的なデータ解析手法としてデータマイニングでも頻繁に利用されています．分割後の各部分集合はクラスタと呼ばれます．分割の方法にも幾つかの種類があり，全ての分類対象がちょうど一つだけのクラスタの要素となる場合(ハードなもしくは，クリスプなクラスタといいます)や，逆に一つのクラスタが複数のクラスタに同時に部分的に所属する場合(ソフト，または，ファジィなクラスタといいます)があります．ここでは前者のハードな場合のクラスタリングについて述べます．

publichtml 2009/05/21

Algorithm

リンク

「日本語テキストを分類するベイジアンフィルタ」を簡単につくるyo - download_takeshi’s diary

数週間前の話になりますが、「はてブのリニューアル会見」の記事を読んでいたところ、はてブにも「自動カテゴライズによる記事分類」の機能が搭載されるとか。。。同じようなタイミングで「似たようなモノ」というか「ほぼ同じようなモノ」を作っていたので、すごーくインスパイアされてしまいました。ジュワ〜。（アドレナリンの放出音）数週間たってもいまだ興奮冷めやらぬ状態なので、今日はその件について書いてみようと思います。 Lingua::JA::Categorize - a Naive Bayes Classifier for Japanese document. http://search.cpan.org/~miki/Lingua-JA-Categorize-0.00001/ 「はてブのパクリ」ではありません。「ベイジアンによる日本語テキスト分類器」を「簡単に作る」ことを目的としたモジュールです。も

publichtml 2009/04/17

Algorithm

リンク

B木 - naoyaのはてなダイアリー

昨年から続いているアルゴリズムイントロダクション輪講も、早いもので次は18章です。18章のテーマはB木(B Tree, Bツリー) です。B木はマルチウェイ平衡木(多分木による平衡木)で、データベースやファイルシステムなどでも良く使われる重要なデータ構造です。B木は一つの木の頂点にぶら下がる枝の本数の下限と上限を設けた上、常に平衡木であることを制約としたデータ構造になります。輪講の予習がてら、B木を Python で実装してみました。ソースコードを最後に掲載します。以下は B木に関する考察です。 B木がなぜ重要なのか B木が重要なのは、B木(の変種であるB+木*1など)が二次記憶装置上で効率良く操作できるように設計されたデータ構造だからです。データベースを利用するウェブアプリケーションなど、二次記憶(ハードディスク)上の大量のデータを扱うソフトウェアを運用した経験がある方なら、いかにディ

publichtml 2009/04/15

18章 "B Tree"

リンク

Amazon.co.jp：アルゴリズム・サイエンス:出口からの超入門: 本: 岩間一雄

publichtml 2009/03/06

http://d.hatena.ne.jp/naoya/20090305/1236255363

リンク

naoyaのはてなダイアリー

ときどき、たまたま自分がそのとき考えていたことについてそれを補強するような材料が偶然たくさん集まってくる、なんてことがあります。そんな出来事があったので、ちょっとブログを書いてみようかなと。以前に HBFav を作ったときこんなことを書きました。 Mark Zuckerberg は、いずれみんな、ニュースは友人知人経由で知ることになるだろうと言っていました。自分もそうなるだろうと思います。 4年ぐらいが経ちましたが、その思いは以前よりも増して確信めいたものになってきています。ところで先日、Twitter の iOS アプリに「ニュース」という機能が追加されました。人によっては出てないそうなのでまだテスト中か、もしくは既に削除されているのかもしれないですが。この機能についての自分の感想は以下のようなものでした。もうすこし補足します*1。 Facebook や Twitter のような

publichtml 2009/03/01

18章 "Matrix decompositions and latent semantic indexing"

リンク

Latent Semantic Indexing - naoyaのはてなダイアリー

情報検索におけるベクトル空間モデルでは、文書をベクトルとみなして線形空間でそれを扱います。この文書ベクトルは、文書に含まれる単語の出現頻度などを成分に取ります。結果、以下のような単語文書行列 (term document matrix) が得られます。 d1 d2 d3 d4 Apple 3 0 0 0 Linux 0 1 0 1 MacOSX 2 0 0 0 Perl 0 1 0 0 Ruby 0 1 0 3 この単語文書行列に対して内積による類似度などの計算を行って、情報要求に適合する文書を探すのがベクトル空間モデルによる検索モデルです。見ての通り、単語文書行列の次元数は索引語の総数です。文書が増えれば増えるほど次元は増加する傾向にあります。例えば索引語が100万語あって検索対象の文書が 1,000万件あると、100万次元 * 1,000万という大きさの行列を扱うことになりますが、単

publichtml 2009/02/12

Algorithm

リンク

Introduction to Information Retrieval #17 の復習資料 - naoyaのはてなダイアリー

Introduction to Information Retrieval 輪読会 17章の復習資料を以下にアップロードしました。 http://bloghackers.net/~naoya/iir/ppt/iir_17.ppt 17章のテーマは "Hierarchical clustering" で、前回 16 章の非階層型クラスタリングに続き、階層型クラスタリングの話です。階層型クラスタリング階層型クラスタリングはその名の通り、階層構造を伴ったクラスタリングの手法です。例えば「はてなダイアリー」に関するクラスタと、「はてなブックマーク」に関するクラスタは、二つが合わさって上位に「はてな」というクラスタを形成し、更に上位に「ウェブサービス」というクラスタを形成するかもしれません。こうして階層構造はデンドログラムと呼ばれる二分木を構成します。ウェブサービス -+- はてな -+- は

publichtml 2009/02/10

第17章 "Hierarchical clustering" (階層型クラスタリング)

Algorithm

リンク

Introduction to Information Retrieval #16 の復習資料 - naoyaのはてなダイアリー

しばらく間が空いてしまいました。Introduction to Information Retrieval 輪読会 16章の復習資料を以下にアップロードしました。 http://bloghackers.net/~naoya/iir/ppt/iir_16.ppt 16章のテーマは、"Flat Clustering" で話題はクラス分類からクラスタリングへと移ります。16章ではクラスタとクラスタの間に関係性がないフラットクラスタリングを扱い、続く 17章ではクラスタ間に階層的構造を見出す階層型クラスタリング (Hierachical clustering) を扱います。クラスタリング 13章から15章までは Naive Bayes や SVM などによる "Classification" が話の主題でした。クラスタリングも同様に情報のグルーピングを行うものですが、Classification

publichtml 2009/01/22

16章 "Flat Clustering"

Algorithm

リンク

GC - GCアルゴリズム詳細解説 - livedoor Wiki（ウィキ）

GCアルゴリズム詳細解説日本語の資料がすくないGCアルゴリズムについて詳細に解説しますトップページページ一覧メンバー編集 × GC 最終更新： author_nari 2010年03月14日(日) 20:47:11履歴 Tweet このWikiが目指す所 GCとは？ GCを学ぶ前に知っておく事実行時メモリ構造基本アルゴリズム編 Reference Counter Mark&Sweep Copying 応用アルゴリズム編 IncrementalGC 世代別GC スナップショット型GC LazySweep TwoFinger Lisp2 Partial Mark and Sweep -Cycle Collection- Mostly Parallel GC train gc MostlyCopyingGC(Bartlett 1989) TreadmillGC(Barker 1992)

publichtml 2008/12/14

Algorithm

リンク

第 7 回アルゴリズムイントロダクション輪講会資料: Days on the Moon

すでにニュースでも伝えられている通り、12 月 1 日に第 7 回アルゴリズムイントロダクション輪講会がありました。今回の担当は私だったので、その発表資料を公開します。中央値と順序統計量 (その 1) 予定順序統計量とは選択問題とは最小値と最大値平均線形時間選択アルゴリズム中央値と順序統計量 (その 2) 最悪線形時間選択アルゴリズム 3 つずつのグループに分割した場合 7 つずつのグループに分割した場合参考文献中央値と順序統計量 (補足) 4 つずつのグループに分割した場合 6 つずつのグループに分割した場合 Lazy-Select Randomized-Partition スタッフロール「どうせ後から Web で公開するんだから、PDF とか見るのに手間がかかるものは使ってられないよね。やっぱ時代は XML 複合文書でしょ!」と、数式を表現するのに MathML を使

publichtml 2008/12/06

中央値と順序統計量。第7回アルゴリズムイントロダクション輪講会資料。

Algorithm

リンク

Introduction to Information Retrieval #12 の復習資料 - naoyaのはてなダイアリー

Introduction to Information Retrieval 輪読会 12章の復習資料を以下にアップロードしました。 http://bloghackers.net/~naoya/iir/ppt/iir_12.ppt 12章は、は "Language models for information retrieval" ということで、確率的言語モデルを情報検索に適用する話でした。確率的言語モデル確率的言語モデルとは、自然言語を数学的に扱うモデルに単語列、文字列が起こる確率を与えたものです。例えば "frog said that toad likes dog" という単語列 s があったとして、それぞれの単語の生起確率が与えられているとします。 frog said that toad likes that dog M1 0.01 0.03 0.04 0.01 0.02 0.04

publichtml 2008/10/02

12章 "Language models for information retrieval"

リンク

講義資料配列解析アルゴリズム特論I 情報生命科学基礎/演習他 -渋谷哲朗

平成20年度東京大学大学院情報理工学系研究科・コンピュータ科学専攻配列解析アルゴリズム特論I 4/10 4/17 4/24 5/1 5/8 5/15 5/22 5/29 (The probl em to be reported - in English) 6/5 6/12 6/19 7/3 7/10 7/17 東京大学理学部・情報科学科情報科学特別講義３　（情報科学とバイオインフォマティクス） 6/10 7/15 7/22 東京大学大学院新領域創成科学研究科・情報生命科学専攻情報生命科学基礎/演習 5/27 6/17 京都大学大学院薬学研究科・医薬創成情報科学専攻情報科学概論 6/3 中央大学大学院理工学系研究科・物理学専攻物理学特別講義第二 TBA 創価大学工学部生命情報工学科 TBA TBA 戻る Copyright (c) 2004- Tetsuo

publichtml 2008/09/22

リンク

Introduction to Information Retrieval #11 の復習資料 - naoyaのはてなダイアリー

Introduction to Information Retrieval 輪読会 11章の復習資料を以下にアップロードしました。 http://bloghackers.net/~naoya/iir/ppt/iir_11.ppt 11章は、は "Probabilistic information retrieval" すなわち確率的検索モデルです。 IIR 10章までにあつかった検索モデル IRシステムをどのような概念を用いて実現するかが「検索モデル」であり、IIR ではここまで以下の2つのモデルを扱いしました。ブーリアンモデルベクトル空間モデルブーリアンモデルは比較的単純な検索モデルで、ブール代数を基礎とした論理式によりクエリを組み立て、検索するモデルです。基本的にスコアリングは行いません。ベクトル空間モデルは、クエリや文書を索引語の重みベクトルで表現して、クエリベクトルと文書ベ

publichtml 2008/09/09

「11章は、 "Probabilistic information retrieval" すなわち確率的検索モデルです」

リンク

Array::Gap - naoyaのはてなダイアリー

明日は一ヶ月ぶりのIIR輪読会です。主催のたつをさんから「教科書の話題から何か適当に実装せよ」という課題が出ていたので、5章のインデックスの圧縮の所で見た Variable byte codes (以下 VB code) を使った圧縮の実装を作ってみました。整列済みの整数を圧縮する手法ここでの圧縮のポイントは二つ。昇順に並べられた整数を、整数そのままの数で扱うのではなく、一つ前の要素との差で扱う。差で扱うと 21,314,156 → 21,314,157 という数は "1" というより小さい数で表現することができる。(整列済みなので、差が分かれば逆の操作で復元が可能) 32 ビット int の整数を固定長 32 ビットで表現するのではなく可変長バイトで表現する。(これが VB code) VB code なら小さな数字は 32ビット = 4バイトよりも小さなビット数で表現できる

publichtml 2008/09/08

IIR関連の夏休みの宿題。インデックスの圧縮手法を実装。

リンク

Good Programmers learn Mathematics

良いプログラマは数学を学ぶ、方が良いと思うこの文章は 2003 年 2 月 28 日（金曜日）に株式会社 ACCESS の研究開発室のメンバ向けに行われた講義のために準備されたものです。目次はじめにアルゴリズム　―　数学によって可能になること数学とプログラミングの美学　―　（多分）一番たいせつなこと質問と回答文献表はじめにこれから何回か皆さんの前で数学の話をさせてもらうことになりましたが、今回はまず、その手始めとして「どうして皆さんが数学を学んだ方が良いのか」、いいえ、「どうして皆さんに数学を学んでほしいと私が思っているのか」というお話をさせて下さい。もちろん、それは皆さんに、より良いプログラマになって欲しいからですが、また、私の経験によれば、コンピュータサイエンスの教育の現場では、何故か数学が軽視されることが多いことを残念に思っているからでもあります。

publichtml 2008/08/27

良いアルゴリズムのためには数学が必要。"良いコードが良いデザインに基づく"

リンク

著名ソーシャルメディアが使っているアルゴリズムを大公開！ | Moz - SEOとインバウンドマーケティングの実践情報

“アルゴリズム”は、もっとも非人間的なものの代表だともいえる。ソーシャルメディアにとって、そのアルゴリズムが不可欠だというのは、実に皮肉めいている。僕はこの間、グーグルがどうやってユーザーデータを集めているかについて書いた記事を掲載した（前編、後編）。今回は、著名なソーシャルメディアサイトが、ユーザーデータを活用する上でどのようにアルゴリズムを用いているのか、白日の下にさらそう。ソーシャルメディアを成り立たせているのは人間の力だが、ユーザーが入力したデータを利用できる状態にする仕組みは、アルゴリズムによって作られている。現在活動している無数のソーシャルメディアサイトで実証済みのことだが、ユーザーの関与とアルゴリズムによる処理ルールの上手いバランスを見出すことは、とても難しくなりがちだ。これから紹介するアルゴリズムは、悪意のないユーザーと結びついて初めてうまくいくものだ。人気ソーシャル

publichtml 2008/08/19

記事やSBMのスコア付けアルゴリズム

Algorithm

リンク

Introduction to Information Retrieval #10 の復習資料 - naoyaのはてなダイアリー

Introduction to Information Retrieval 輪読会 10章の復習資料を以下にアップロードしました。 http://bloghackers.net/~naoya/iir/ppt/iir_10.ppt 10章は、は "XML retrieval" です。XML が題材になっては居ますが、実際には XML がどうこうというよりも、構造化されたドキュメント (structured document) に対して IR システムを拡張しようとすると、どのような困難があるか、それをどのように解決すべきか、拡張された IR システムはどう評価されるべきか、という話が主だったところです。対象が structured な物である場合「その構造の中のどの部分を検索結果として返却すれば良いか」など、自明でない点が出てきます。XML retrieval であれば、XML docum

publichtml 2008/08/04

#10 XML retrieval

リンク

はてなブックマーク

タグ

関連タグで絞り込む (9)

Algorithmに関するpublichtmlのブックマーク (32)

お知らせ

今週のはてなブックマーク数ランキング（2025年11月第5週）

今週のはてなブックマーク数ランキング（2025年11月第4週）

はてなブックマーク一部機能のメンテナンスに関するお知らせ

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス