tks_periodのブックマーク - はてなブックマーク

大規模データ処理のための行列の低ランク近似 -- SVD から用例ベースの行列分解まで -- - 武蔵野日記
id:naoya さんのLatent Semantic Indexing の記事に触発されて、ここ1週間ほどちょくちょく見ている行列の近似計算手法について書いてみる。ここでやりたいのは単語-文書行列(どの単語がどの文書に出てきたかの共起行列)や購入者-アイテム行列(どの人がどの本を買ったかとか、推薦エンジンで使う行列)、ページ-リンク行列(どのページからどのページにリンクが出ているか、もしくはリンクをもらっているか。PageRank などページのランキングの計算に使う)、といったような行列を計算するとき、大規模行列だと計算量・記憶スペースともに膨大なので、事前にある程度計算しておけるのであれば、できるだけ小さくしておきたい(そして可能ならば精度も上げたい)、という手法である。行列の圧縮には元の行列を A (m行n列)とすると A = USV^T というように3つに分解することが多いが、も
tks_period 2009/02/15
SVDの特徴や欠点、CURの紹介。　面白そうだけど手が出せないなぁ…

情報理論

検索
リンク
日本語が工学の言語になろうとしていた時期 - 武蔵野日記
昨日のエントリに関して何人かから「研究者」として紹介されたのがちょっと嬉しかった。国語問題に関しては4年前の研究で、しかも続きをやっていないので、なんとも言えないけど……。アイデアはいくつかあって、特に関心があったのは、大東亜共栄圏の学術語(前述の本で言えば「共通語」)として日本語が生き残る、という筋道は、日本が植民地時代の言語政策にもう少し関心があれば、ありえたと思うし、それについてもっと検証したい、と言うのが一番大きい。たとえばトラックバックいただいたが英語とかガラパゴスとかフラット化とかで、つらつらと考えること。で他の国が多くの分野で一番になったら、その国の言語が共通言語になることがあるかもしれない。しかし、アメリカが建前であっても自由の国で他の国からどんどん人を集める限り、アメリカが一番であり続けるだろう。ロシアや中国は政治的に、フランスや日本は面積的にアメリカと同じことはで
tks_period 2008/11/17
メモ
リンク
1

はてなブックマーク

タグ

ブックマーク / komachi.hatenablog.com (2)

お知らせ

今週のはてなブックマーク数ランキング（2025年4月第3週）

今週のはてなブックマーク数ランキング（2025年4月第2週）

今週のはてなブックマーク数ランキング（2025年4月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

ブックマーク / komachi.hatenablog.com (2)

大規模データ処理のための行列の低ランク近似 -- SVD から用例ベースの行列分解まで -- - 武蔵野日記

日本語が工学の言語になろうとしていた時期 - 武蔵野日記

お知らせ

今週のはてなブックマーク数ランキング（2025年4月第3週）

今週のはてなブックマーク数ランキング（2025年4月第2週）

今週のはてなブックマーク数ランキング（2025年4月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス