タグ

ブックマーク / komachi.hatenablog.com (2)

  • 大規模データ処理のための行列の低ランク近似 -- SVD から用例ベースの行列分解まで -- - 武蔵野日記

    id:naoya さんのLatent Semantic Indexing の記事に触発されて、ここ1週間ほどちょくちょく見ている行列の近似計算手法について書いてみる。ここでやりたいのは単語-文書行列(どの単語がどの文書に出てきたかの共起行列)や購入者-アイテム行列(どの人がどのを買ったかとか、推薦エンジンで使う行列)、ページ-リンク行列(どのページからどのページにリンクが出ているか、もしくはリンクをもらっているか。PageRank などページのランキングの計算に使う)、といったような行列を計算するとき、大規模行列だと計算量・記憶スペースともに膨大なので、事前にある程度計算しておけるのであれば、できるだけ小さくしておきたい(そして可能ならば精度も上げたい)、という手法である。 行列の圧縮には元の行列を A (m行n列)とすると A = USV^T というように3つに分解することが多いが、も

    大規模データ処理のための行列の低ランク近似 -- SVD から用例ベースの行列分解まで -- - 武蔵野日記
    tks_period
    tks_period 2009/02/15
    SVDの特徴や欠点、CURの紹介。 面白そうだけど手が出せないなぁ…
  • 日本語が工学の言語になろうとしていた時期 - 武蔵野日記

    昨日のエントリに関して何人かから「研究者」として紹介されたのがちょっと嬉しかった。国語問題に関しては4年前の研究で、しかも続きをやっていないので、なんとも言えないけど……。 アイデアはいくつかあって、特に関心があったのは、大東亜共栄圏の学術語(前述ので言えば「共通語」)として日語が生き残る、という筋道は、日が植民地時代の言語政策にもう少し関心があれば、ありえたと思うし、それについてもっと検証したい、と言うのが一番大きい。 たとえばトラックバックいただいたが英語とかガラパゴスとかフラット化とかで、つらつらと考えること。で 他の国が多くの分野で一番になったら、その国の言語が共通言語になることがあるかもしれない。しかし、アメリカが建前であっても自由の国で他の国からどんどん人を集める限り、アメリカが一番であり続けるだろう。ロシア中国政治的に、フランスや日は面積的にアメリカと同じことはで

    日本語が工学の言語になろうとしていた時期 - 武蔵野日記
  • 1