自然言語処理でSequence to Sequenceモデルを学習する時や、単純にLSTMで入力文を固定次元ベクトルを計算したい時に、 入力が可変長であるため、ミニバッチ学習をする時に工夫が必要です。 他のフレームワーク(TensorFlowやTheano)でも同じような工夫は必要だと思われます。 例えば、 A B C D E F G A B C D E F G H I J 上記のような2つの入力があるとします。 1つ目は長さ7のSequenceで 2つ目は長さ10のSequenceとします。 オンライン学習で学習する場合は特に可変の入力でも問題ありません。 ミニバッチ学習する時に問題になるのは、 入力をmatrixで表現する時に 0 1 2 3 4 5 6 -1 -1 -1 0 1 2 3 4 5 6 7 8 9 このように1つ目の長さ7のデータに対して-1で空白を埋める必要があります。
ちょっと技術的な話になる。 私の知人に、かつてはアルファベット三文字の某有名SI会社に在籍していて、今はどういう訳か某ネットゲームの会社に勤めている変り種がいる。 彼はネットワークとDBの専門家である。ゲーム業界には元来DB周りに詳しい人があまり多くなかったらしく、しかしネットゲームの開発にはDBやネットワークのアーキテクチャに関する知識が必須で、要は引き抜かれたらしいのだが、当人それ程ゲーム好きでもないのに面白いルートに行くなーと思っていた。 機会があったら金融業界とネットゲーム業界のシステム周りの違いについて聞いてみたいなーと思ってたんだが、この前久々に会ったら色んな話が聞けた。特定されない程度においおい書いてみよう。ぼかして書く為、ところどころいー加減だが勘弁して頂きたい。 今日はサーバとかデータのやり取りとか、技術的な話。 まず、前提。オンラインシステムの肝の一つに、「誰がデータを
OSC2013 Kansai@Kyotoで話したZabbixを使ったクラウド環境監視の資料です。 ZABBIX-JP
2016 - 05 - 29 Robust Extreme Multi-Label Learning (KDD2016)を読んだ マル チラベル 分類を少し勉強しているので読んだ. もう一つ読んだので,近々もう一本マル チラベル 関連で読んだので投稿するかも...(自分の研究があまり進んでないのでしないかも 今回は ラベル行列の次元縮約(行列分解)をすることでマル チラベル 分類の精度を上げる手法(去年,私がIBISに投稿しようとして諦めたのと同じ部類に属する手法 ラベル行列をRobust PCAのような形で,Outlier行列を設けて分解する.ただそれだけ.そうすると,従来のPCAを用いた手法やSamplingによる行列分解と比べてよい結果になるらしい. それと,列毎に分解するんで超大規模にも対応しているということで,この題名. モチベーション 大規模なマル チラベル 分類(一つのサンプ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く