タグ

ブックマーク / jetbead.hatenablog.com (6)

  • AutoEncoderで遊ぶ - Negative/Positive Thinking

    はじめに 次元圧縮がマイブーム化しているので、最近はやりのAutoEncoderで遊んでみる。 べ、別に深い何かのためにやろうとしてるわけじゃn AutoEncoderとは 入力と出力が近くなるように学習するニューラルネットワーク (枠組みをさすだけでニューラルネットワークに限らないのかも?) 基は、入力層、隠れ層、出力層の3層で構成し、教師信号は入力信号と同じにして学習させる 特徴や内部表現の構成を学習することができる 入力&出力の次元より隠れ層の次元を小さくして構成する 入力セットの圧縮された表現を学習する意味で、(非線形な)次元圧縮器とみなせる AutoEncoderの種類 いくつか種類があるぽい。名前だけメモしておく。 Basic AutoEncoder Regularized AutoEncoder Sparse AutoEncoder Denoising AutoEncode

    AutoEncoderで遊ぶ - Negative/Positive Thinking
  • DSIRNLP#6で発表させていただきました&懺悔とNaiveBayes教入信 - Negative/Positive Thinking

    DSIRNLP#6 10/11にデンソーアイティーラボラトリさんで行われたDSIRNLP#6勉強会で発表させていただきました 聴いていただいた方、ありがとうございました。 勉強会のページ http://partake.in/events/38e416b0-5e64-4bd4-8388-4e19acd0ef97 発表資料 一部、発表時の資料を修正しています 主だって参考にした論文は以下になります Zheng&Webb, Semi-naive Bayesian Classification, 2008 http://www.csse.monash.edu.au/~webb/Files/ZhengWebb08a.pdf No Bayes No Life -Naive Bayesは今でも進化しているようです。- from phyllo 補足(2014/10/12追記修正しました) 質問への回答で、

    DSIRNLP#6で発表させていただきました&懺悔とNaiveBayes教入信 - Negative/Positive Thinking
    aidiary
    aidiary 2014/10/12
  • 単語の数学的表現メモ - Negative/Positive Thinking

    はじめに 単語をベクトルや確率分布などの数学的表現で扱いたい場合があったりする。 しかし、「どのようなベクトル・確率分布にすべきか?」などはタスクに依存したりして、自明じゃない。 たくさんあって、派生や新しいものもどんどんでていると思うので、どんなものがあるか調べたかぎりメモ。 One hot表現 各次元が「その単語か否か」を表すベクトルで表現 次元の大きさ=ボキャブラリ数 例: スカイツリー = (「船」か否か, 「スカイツリー」か否か, ... ) = (0,1,0,...) 素性のどれか1つしか1にならなくてスパースネスの問題がでる 未知語はゼロベクトルになってしまう 文字nグラムによる表現 単語の表層から得られる情報を利用 単語に出現している文字nグラムを利用 カタカナ語とか有効そう 例: スカイツリー = (「スカ」の出現回数, 「カイ」の出現回数, 「イツ」の出現回数, 「アア

    単語の数学的表現メモ - Negative/Positive Thinking
  • ウェーブレット木を試す - Negative/Positive Thinking

    はじめに 巨大な文字列でも高速にクエリ処理できる噂の木を、挙動を確認するため作ってみた。 コード アルファベット(a〜z)の文字列を扱う場合 完備辞書の操作が愚直、ビット列がvector を参考にしたけど、2か所間違ってる? #include <iostream> #include <vector> #include <queue> #include <cmath> //top_kのためのタプル struct ST { int t; size_t st, en; ST(int t, size_t st, size_t en):t(t),st(st),en(en){} }; bool operator<(const ST& a, const ST& b){ return (a.en-a.st) < (b.en-b.st); } //アルファベット([a-z]+)用のウェーブレット木 cla

    ウェーブレット木を試す - Negative/Positive Thinking
    aidiary
    aidiary 2013/02/02
  • Aho-Corasick法による複数文字列(パターン)検索を試す - Negative/Positive Thinking

    はじめに Rabin-Karp法による複数文字列検索に続いて、同様に複数の文字列検索を行えるAC法を試しに書いてみた。 AhoCorasick法 えいほこらしっくほう 文字列探索するときに、パターンマッチオートマトン(PMA)を使い、状態を遷移させながらO(n)でパターンマッチを行う方法 入力文字列を一文字ずつ読み込みながらPMAの状態を遷移 PMAは与えられるパターンを表現する ノードは状態、辺は対応する文字、を表す PMA構築アルゴリズムは、 パターン文字列のTrieを作成 根から幅優先探索で各ノードで遷移が失敗した場合の遷移先を決定 そこへ辺を張る、を繰り返す 失敗時の遷移先の決定 trieと違って、葉ノードまでたどりきったら終了ではなく、失敗したときに遷移するノードを決めておくことで、連続して探索を行える (図1) パターン文字列「ab」と「bcd」に対して、入力「abcde」を考

    Aho-Corasick法による複数文字列(パターン)検索を試す - Negative/Positive Thinking
    aidiary
    aidiary 2012/10/29
  • 系列ラベリング問題メモ - Negative/Positive Thinking

    はじめに 系列ラベリング問題についてちょっと調べてみたのでメモ。 系列ラベリング(系列分類)問題とは ある系列xの各要素に適切なラベル列yを付与する問題 例えば「This is a pen」という文書の各単語に「This(代名詞) is(動詞) a(冠詞) pen(名詞)」のように品詞ラベルをつける問題(品詞タグ付け) 系列だけでなく木構造などへの適用もされている 構造学習 ラベル、木、グラフ、順序集合など 応用 品詞分類 形態素解析(ラティスのコスト計算なども) チャンキング(基名詞句(Base NP)同定、固有表現抽出、文節まとめあげなど) 系列セグメンテーション問題 時系列解析や画像認識 など 系列ラベリング問題の特徴 普通の多値分類との違いは、「注目している要素xi以外の情報も使えること」と「クラスの数が膨大になりやすいこと」がある。 注目している要素以外の情報も使える 多値分類

    系列ラベリング問題メモ - Negative/Positive Thinking
    aidiary
    aidiary 2011/12/02
  • 1