muranoki3のブックマーク - はてなブックマーク

多次元尺度法で遊んでみる（オレ流 R入門） - ダウンロードたけし（寅年）の日記
多次元データをクラスタリングする際に、それらのデータを2次元データに落とし込んで可視化させたいことがあります。そんな時に便利なのが「多次元尺度法」という手法です。個々のデータ間の距離／類似度が分かっている場合に、それらのデータの座標を求めて、データ構造を復元するようなものです。詳しい説明は割愛します。知りたい人はwikipediaと金先生の連載を読んで下さい。体で覚えるタイプなので、とにかく何かデータを処理してみます。「山手線」の地図を再現さっそく試してみます。山手線の各駅同士の直線距離を測っておいて、そのデータから実際の位置関係を復元できるか実験してみます。山手線全駅の距離を測るのはめんどいので、適当に抜粋してしらべました。以下のような表になりました。単位はメートルです。さてさて、この距離表からどのようなデータ構造が再現されるでしょうか？このデータを統計解析ソフトRで
muranoki3 2011/09/09
R

機械学習
リンク
perlで高速な類似検索エンジンを構築できるようにしてみた - download_takeshi’s diary
すみません。タイトルはやや釣り気味です。類似検索エンジンというか、そのアイデア程度の話なんですが、以前から考えていた類似検索エンジン風のネタがあったので、ちょっとperlで書いてみたので、そいつを晒してみます。 Luigi 　 https://github.com/miki/Luigi 類似検索なのでLuigi。ルイージとか読みたい人はそう読んじゃっても良いです。（冷）考え方と仕組み類似文書の検索、となりますと一般的には超高次元での空間インデックスとかが必要になります。昔からR-TreeやSR-Treeなど、いろいろと提案されていますが、より高次元になると「次元の呪い」によりパフォーマンスが出なくなる、なんて言われていますね。そこで最近ではLSHに代表されるような、より高度な「近似」型のインデキシング手法が人気を集めているようです。で、今回考えたLuigiも実は近似型のインデッ
muranoki3 2011/05/23
機械学習
リンク
1

はてなブックマーク

タグ

ブックマーク / download-takeshi.hatenablog.com (2)

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第2週）

月間はてなブックマーク数ランキング（2024年8月）

今週のはてなブックマーク数ランキング（2024年9月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

ブックマーク / download-takeshi.hatenablog.com (2)

多次元尺度法で遊んでみる（オレ流 R入門） - ダウンロードたけし（寅年）の日記

perlで高速な類似検索エンジンを構築できるようにしてみた - download_takeshi’s diary

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第2週）

月間はてなブックマーク数ランキング（2024年8月）

今週のはてなブックマーク数ランキング（2024年9月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス