[B! algorithm] hide-Kのブックマーク

クラスタリングの定番アルゴリズム「K-means法」をビジュアライズしてみた - てっく煮ブログ

集合知プログラミングを読んでいたら、K-means 法（K平均法）の説明が出てきました。K-means 法はクラスタリングを行うための定番のアルゴリズムらしいです。存在は知っていたんだけどいまいちピンときていなかったので、動作を理解するためにサンプルを作ってみました。クリックすると１ステップずつ動かすことができます。クラスタの数や点の数を変更して、RESET を押すと好きなパラメータで試すことができます。こうやって１ステップずつ確認しながら動かしてみると、意外に単純な仕組みなのが実感できました。K-means 法とはK平均法 - Wikipedia に詳しく書いてあるけど、もうすこしザックリと書くとこんなイメージになります。各点にランダムにクラスタを割り当てるクラスタの重心を計算する。点のクラスタを、一番近い重心のクラスタに変更する変化がなければ終了。変化がある限りは 2. に戻る。これ

hide-K 2009/04/09

リンク

suffix array

更新履歴 2004/01/07 　O(N) 構築アルゴリズム三種追加（Ko &Alulu, Kim & al., Karkkainen & Sanders) Suffix Arrayは、最近注目を集めているデータ構造です。その理由として、 (1)大規模なデータに対して、高速に検索、情報抽出を行うことができる (2)BWTとしてデータ圧縮に用いることができる。ことが挙げられます。(1)に関しては自然言語処理において、膨大な量のコーパスから情報（例えば、単語の出現回数など）を調べるときににSuffix Arrayを用いると非常に高速に求めることができます。膨大な量のコーパスに基づいた自然言語処理が盛んになってきている今、Suffix Arrayが注目を集めています。また、ゲノム情報を調べるバイオインフォマティクスにおいても、ここの配列と似ている部分（例えばCCAG）を調べるといった場合

hide-K 2008/11/21

リンク

全文検索エンジンSedue - テクノロジー

全文検索では検索要求に対し、「漏れなく」「高速」かつ「正確」に結果を返す必要があります。この前者二つの実現のためにSedueではCompressed Suffix Arrays（CSA）と呼ばれる索引を利用しています。また、「正確」な結果を実現するために形態素解析や文書情報を解析した結果を利用したランキングを利用しています。これらを順に解説していきます。 Compressed Suffix Arrays Sedueは全文検索を実現するのにCompressed Suffix Arrays (CSA)を利用しています。従来の全文検索システムでは前もって辞書などで決めておいた各単語の出現位置を記録した転置ファイル方式、または、全ての長さNの部分文字列の出現位置を記録したn-gram方式が利用されていました。転置ファイル方式では高速な検索が実現できる一方、検索漏れが生じる恐れがあり、またn-g

hide-K 2008/11/21

リンク

接尾辞配列 - Wikipedia

接尾辞配列（せつびじはいれつ）やサフィックス・アレイ（英: suffix array）とは、文字列の接尾辞（開始位置を異にし終端位置を元の文字列と同じくする部分文字列）の文字列中の開始位置を要素とする配列を、接尾辞に関して辞書順に並べ替えて得られる配列である。接尾辞木の配列版。主に文字列探索、全文検索などに利用される。1990年に Udi Manber と Gene Myers が発表した[1]。

hide-K 2008/11/21

suffix array

リンク

Consistent Hashing を試す

Consistent Hashing は、複数のノードにレコードを分散させる方法として、 Amazon Dynamo や Cache::Memcached::Fast などで使われているアルゴリズムです。この文章では、Perl で実際に Consistent Hashing を実装し、その特徴を理解することを目的とします。更新履歴 2008-06-01: 公開サーバー台数で割った余り (mod) を使用するまず Consistent Hashing と比較するために、レコードに対して整数のハッシュ値を求め、ハッシュ値をノード数で割った余り (mod) で、ノードを選択するという方法を書いてみます。ここでは、ハッシュ値の算出に CRC (Cyclic Redundancy Check) を使用しています。 use strict; use String::CRC; use Pe

hide-K 2008/10/27

リンク

著名ソーシャルメディアが使っているアルゴリズムを大公開！ | Moz - SEOとインバウンドマーケティングの実践情報

“アルゴリズム”は、もっとも非人間的なものの代表だともいえる。ソーシャルメディアにとって、そのアルゴリズムが不可欠だというのは、実に皮肉めいている。僕はこの間、グーグルがどうやってユーザーデータを集めているかについて書いた記事を掲載した（前編、後編）。今回は、著名なソーシャルメディアサイトが、ユーザーデータを活用する上でどのようにアルゴリズムを用いているのか、白日の下にさらそう。ソーシャルメディアを成り立たせているのは人間の力だが、ユーザーが入力したデータを利用できる状態にする仕組みは、アルゴリズムによって作られている。現在活動している無数のソーシャルメディアサイトで実証済みのことだが、ユーザーの関与とアルゴリズムによる処理ルールの上手いバランスを見出すことは、とても難しくなりがちだ。これから紹介するアルゴリズムは、悪意のないユーザーと結びついて初めてうまくいくものだ。人気ソーシャル

hide-K 2008/08/20

リンク

DO++: 機械学習による自然言語処理チュートリアル

自然言語処理のときに使う機械学習手法のテクニックをざーっと２時間程度で紹介してほしいとのことだったので今日話してきました。基本的に、そんなに頑張らなくても効果が大きいものを中心に説明（特にパーセプトロンとか）を説明してます。紹介した手法はパーセプトロン、最大エントロピー、正則化、多クラス分類、系列分類（CRF, Structured Perceptron）などなどです。どれも一かじりする感じで網羅的に見る方を優先してます。個々の詳しい話はそれぞれの文献や実装などを当たってみてください。スライド [ppt] [pdf] ここで話しているのは線形識別モデルの教師有り学習が中心で教師無し学習（クラスタリングなど）など他の自然言語処理を支える技術は省いてます。こういうのを使って（使わなくてもいいけど）どんどんアプリケーション作らないといかんね。 Tarot is not used to ma

hide-K 2008/08/04

リンク

Kikker の学習の仕組みと Rocchio アルゴリズム - naoyaのはてなダイアリー

先日のソーシャルブックマーク研究会では id:kanbayashi さんによる発表がありました。id:kanbayashi さんは Kikker やはてブまわりのひとなどの開発をされている方です。最近情報検索理論に入門した自分にとっては、非常に面白い発表でした。発表の中で Kikker の学習の仕組みについての解説もありました。Kikker は Cosine similarity で推薦するドキュメントを検索しているそうですが、ユーザーのクリックデータを使って、ユーザーごとに推薦対象を最適化するようにしているそうです。この学習は、ユーザーが見たページのベクトルを、そのユーザーの趣向ベクトルに足し込むことで実現している、とのことでした。 SBM研究会で発表した"私がチャレンジしたSBMデータマイニング"のスライド - Ryoの開発日記 Neo! 発表ではベクトルを加算することについて「

hide-K 2008/07/23

リンク

あなたが一番好きなアルゴリズムを教えてください。また、その理由やどんな点が好きなのかも教えてください。 - 人力検索はてな

あなたが一番好きなアルゴリズムを教えてください。また、その理由やどんな点が好きなのかも教えてください。

hide-K 2007/11/26

algorithm

リンク

SQLで木と階層構造のデータを扱う――入れ子集合モデル

サービス終了のお知らせいつもYahoo! JAPANのサービスをご利用いただき誠にありがとうございます。お客様がアクセスされたサービスは本日までにサービスを終了いたしました。今後ともYahoo! JAPANのサービスをご愛顧くださいますよう、よろしくお願いいたします。

hide-K 2007/11/26

リンク

mixi Engineers’ Blog » Mixi::Music->recommend_music();

ミクシィ開発部アプリ開発チームのk_joeです。今回は先日『極秘裏に』改善されたmixiミュージックのアルゴリズムについて紹介したいと思います。このブログを読んでる方々はmixiミュージックって使ったことあるのでしょうか？僕は心配症なので使ったことない人のために(宣伝ついでに)軽く説明からさせていただきたいと思います。mixiミュージックは「音楽で人をつなぐ by mixiミュージック担当」を理念として、個人が聞いた音楽をベースにいろいろな繋がり・関連性を生み出そうというサービスです。自分の聞いてる音楽についての情報をみんなで共有できて、その繋がりから新しい音楽との出会いがあるってすばらしいことですよね。(/宣伝終) mixiミュージックには自分の聞いている音楽からお勧めの音楽を提示するサービスとアーティストのリスナーがよく聴いている他のアーティストを提示するサービスがあります。ユーザが

hide-K 2007/07/03

リンク

アルゴリズム/画像処理 - osdev-j (MMA)

このサイトについて major PC section... AT互換機 PC-98x1 FM-TOWNS minor PC section... 8Bit PC 16Bit PC 32Bit PC 68kFamilyPC other technical... 家庭用ゲーム機携帯用ゲーム機その他のコンピュータ CPU/コントローラ他プロトコル/拡張子アルゴリズムライブラリ/API other section... ツールプログラミング言語 UI/フォント OS一覧興味深い Information/Fun 書籍 Communication... けいじばん/一言 Resource... ScreenShot DiskImage Link... projects 関連サイト最新の30件

hide-K 2007/02/22

リンク

はてなブックマーク

タグ

関連タグで絞り込む (15)

algorithmに関するhide-Kのブックマーク (12)

お知らせ

今週のはてなブックマーク数ランキング（2025年8月第3週）

はてなブックマークは20周年を迎えました

今週のはてなブックマーク数ランキング（2025年8月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス