研究に関するmarin72_comのブックマーク (6)

  • 大規模データ処理のための行列の低ランク近似 -- SVD から用例ベースの行列分解まで -- - 武蔵野日記

    id:naoya さんのLatent Semantic Indexing の記事に触発されて、ここ1週間ほどちょくちょく見ている行列の近似計算手法について書いてみる。ここでやりたいのは単語-文書行列(どの単語がどの文書に出てきたかの共起行列)や購入者-アイテム行列(どの人がどのを買ったかとか、推薦エンジンで使う行列)、ページ-リンク行列(どのページからどのページにリンクが出ているか、もしくはリンクをもらっているか。PageRank などページのランキングの計算に使う)、といったような行列を計算するとき、大規模行列だと計算量・記憶スペースともに膨大なので、事前にある程度計算しておけるのであれば、できるだけ小さくしておきたい(そして可能ならば精度も上げたい)、という手法である。 行列の圧縮には元の行列を A (m行n列)とすると A = USV^T というように3つに分解することが多いが、も

    大規模データ処理のための行列の低ランク近似 -- SVD から用例ベースの行列分解まで -- - 武蔵野日記
  • 論文等、書き物を他人に見せる前のチェックリスト – 上田ブログ

    研究室で必要だと思ってチェックリスト化してみました。 2016/12/16加筆: 分野によって違うとかいろいろ言う人がいたので、GitHubにリストを移植しておきました。CCライセンスの下、ご自由に変更ください。あと、日語でもテクニカルライティングではパラグラフライティングが必須です。 学生さんへ: チェックリストに書いてあることがなんで必要なのか分からないときは、遠慮なく質問しましょう。また、チェックリストは互いに無駄な時間を作らないための工夫であり、規則ではないので、チェックリスト通りでなくてもどうしていいか分からない場合は積極的に質問しましょう。

  • Denoising Autoencodersにおける確率的勾配降下法(数式の導出) - Yusuke Sugomori's Blog

    Extracting and Composing Robust Features with Denoising Autoencoders [Vincent 2008] では、Deep Learning の一手法である、Denoising Autoencoders(DA)による学習手法が提案されています。 DAでは、入力データの一部をあえて損傷させ、損傷したデータを復元するような訓練を行います。その際、[Vincent 2008]には確率的勾配降下法(stochastic gradient descent, SGD)を用いればよい、との旨が書かれていますが、いざ実装しようとした時、数式が少し複雑でしたので、その導出過程についてまとめたいと思います。 記号等はなるべく文献に合わせてあるので、細かな説明は省いてあります。 また、[Vincent 2008]に従って、入力データがとる値は、0 or

    Denoising Autoencodersにおける確率的勾配降下法(数式の導出) - Yusuke Sugomori's Blog
  • SVMにおける損失と正則化 - 射撃しつつ前転 改

    前に書いたSVMの記事で、「L1とかL2というのは間違えたときのペナルティをどう定義するかを意味しており」と書いていたが、L1とかL2って正則化項の話なんじゃないの、と疑問に思った。1ヶ月ほど時間をおいてのセルフツッコミである。確認しようとしてカーネル多変量解析を読むと、やはり正則化項についてはL1とL2の両方の説明が書いてあるが、損失に関しては普通のHinge Loss(=L1 Loss)しか書いてない。 と言う訳で、ああ、間違えちゃったなぁ、と暗澹たる気持ちで"A dual coordinate descent method for large-scale linear SVM"を読み直してみたところ、やっぱりL1-SVMというのは損失が普通のHinge Lossで、L2-SVMというのはHinge Lossの2乗を損失とすると書いてあった。両方とも正則化項についてはL2正則化を使って

    SVMにおける損失と正則化 - 射撃しつつ前転 改
  • ディープラーニングのサマースクールで学んだ26のこと | POSTD

    (訳注:2015/11/4、いただいた翻訳フィードバックを元に記事を修正いたしました。) 8月の初めに、モントリオールでディープラーニングのサマースクールに参加することができました。サマースクールは10日間にわたるもので、著名なニューラルネットワークの研究者の講演で構成されていました。この10日間で、私は1件のブログ投稿にはまとめきれないほど多くの事を学びました。ここで私は、60時間で得られたニューラルネットワークの知識をそのままお伝えしようと試みるのではなく、1パラグラフに要約できるようなちょっとした面白い情報のリストを作ることにしました。 これを書いている現在、 サマースクールのウェブサイト は現存しており、全てのプレゼンテーションのスライドが載せられています。全ての情報とイラストはこれらのスライドから利用しており、権利はそれぞれのオリジナルの著者に帰属するものです。またサマースクール

    ディープラーニングのサマースクールで学んだ26のこと | POSTD
  • Pythonによる機械学習実験の管理

    Python をつかったアルゴリズムの実験で,実験条件の設定や,その記録など実験管理,epydoc を用いたソフトの文書化,そして gxp を使ったクラスタ環境下での実行について簡単に紹介します. Tokyo.Scipy #1 http://partake.in/events/3ab83ec0-e987-4956-b726-faf7777a2c83Lire moins

    Pythonによる機械学習実験の管理
  • 1