タグ

ブックマーク / jetbead.hatenablog.com (6)

  • 文書分類メモ - Negative/Positive Thinking

    はじめに 文書分類マスターを目指して修行の旅に出るために必要そうな知識を、ざっとメモしておく。(かなり雑だけど・・・) 文書分類とは テキスト分類、Text Classification あらかじめ決められたカテゴリ集合に基づき、与えられた文書に適切なカテゴリを付与する事 排他的分類 : 1つのテキストにカテゴリを1つだけ付与される場合 マルチラベル分類 : 1つのテキストに複数のカテゴリ付与を許す場合 基的には、目的の分類をどのような分類手法に落とし込むか?を考えることになる 主なアプローチとして、以下のような流れで処理する(教師あり分類) 学習データから素性(なんらかの特徴)を抽出し、それらの規則を見つけだす 規則に基づく分類モデルを作成 未知の文書に対して素性を抽出したものにモデルを適用し、分類結果を返す 利用例 内容に関する分類 ニュースジャンル分類 SPAMフィルタ 属性に関す

    文書分類メモ - Negative/Positive Thinking
  • 逐次確率比検定を試す - Negative/Positive Thinking

    はじめに あらかじめ標サイズを決めるのではなく、十分と判断されるまでダイナミックに判断を繰り返す逐次確率比検定を参考に、 チョコボールの銀のエンジェルの出現確率について判断するとどうなるか試してみる。 逐次確率比検定とは ベイズ統計学の枠組みで、ベイズ更新の機能を通して1つずつ標抽出していきながら同時に検定にも用いる事ができる 逐次決定過程 : 標抽出をするたびに判断を行い、結論がでたと認められるタイミングで停止する過程 行動 action0 : 結論を保留し、標抽出を再度行う action1 : 帰無仮説H1を採択 action2 : 対立仮説H2を採択 尤度比検定(Likelihood Ratio Test) 「尤度比」を検定統計量として行う統計学的検定の総称 尤度比λ=(Π^n_{i=1}{f(Xi|θ1}) / (Π^n_{i=1}{f(Xi|θ2}) 帰無仮説H1 : θ

    逐次確率比検定を試す - Negative/Positive Thinking
  • HyperLogLogで遊ぶ - Negative/Positive Thinking

    はじめに 「さぁ、お前の罪の異なり数を数えろ!」と言われたときに使えそうな「HyperLogLog」という異なり数をカウントする方法を教えてもらったので、遊んでみた。 いつもながら論文ちゃんと読んでないので、条件やコード間違ってるかも。。。 HyperLogLogとは cardinalityと呼ばれる、要素の異なり数を決定する問題 かなり省メモリで精度のよい異なり数を推定できる方法 要素をそのまま保存せず、ハッシュ値に変換したものをうまくレジスタに保存しておく ので、レジスタサイズ程度しかメモリを使わない 並列化もできて、最近のbigdataとかで注目されている また、googleが並列計算用に改善したHyperLogLogを提案してるみたい http://blog.aggregateknowledge.com/2013/01/24/hyperloglog-googles-take-on-

    HyperLogLogで遊ぶ - Negative/Positive Thinking
  • ウェーブレット木を試す - Negative/Positive Thinking

    はじめに 巨大な文字列でも高速にクエリ処理できる噂の木を、挙動を確認するため作ってみた。 コード アルファベット(a〜z)の文字列を扱う場合 完備辞書の操作が愚直、ビット列がvector を参考にしたけど、2か所間違ってる? #include <iostream> #include <vector> #include <queue> #include <cmath> //top_kのためのタプル struct ST { int t; size_t st, en; ST(int t, size_t st, size_t en):t(t),st(st),en(en){} }; bool operator<(const ST& a, const ST& b){ return (a.en-a.st) < (b.en-b.st); } //アルファベット([a-z]+)用のウェーブレット木 cla

    ウェーブレット木を試す - Negative/Positive Thinking
  • へ、変態っ!!読めないからやめてっ!bit使ったデータ構造・アルゴリズム実装集 - Negative/Positive Thinking

    この記事はCompetitive Programming Advent Calendar Div2012の2日目の記事です。 12月20日追記: Darseinさんが20日目の記事で、ビット演算についての詳しい説明を紹介してくださっています!必読ですね!!!!:) はじめに Y^´       ∨// /,∠ ,. ' /l/// /, ' , '/ ! | l }´     〈 〉    変  〈/ , ' // ̄`>< /// /// _,.=‐|'"´l l〈  変  / 〈    態.   ∨, '/l|   ,.'-‐、`//`7/  /''"´__ | ハ l丿  態   { 人)   ! !   (/!  |ヽ〈_ ・.ノ〃  〃 /  '/⌒ヾ.! ,' !く   ! !  (_ ト、__/   ヽ、_,.イ    /l l |:::::::```/:::::/...´..

    へ、変態っ!!読めないからやめてっ!bit使ったデータ構造・アルゴリズム実装集 - Negative/Positive Thinking
  • 「言語モデル」という本を書かせていただきました - Negative/Positive Thinking

    この度、基礎から応用まで広くカバーした「言語モデル」というを書かせていただきました。(嘘でした!) 6月にオライリーさんから出版させていただく予定です。(オライリーさんに迷惑!) 言語モデルーー言語モデルの基礎と応用 (オライリーさん、あの動物の画像どうやって作ってるんですか!) Jetbead April, Phyllo Fool 著(日人じゃないじゃん!) 2112年6月23日発売予定(100年後まで生きてる自信ありません!) 314ページ(リアルな数値!) 定価3,290円(税込み)(2000円ぐらいなら買ってもいいかな!) ISBN978-9-8731145-243-2(一番最後はチェックサム!) 内容 Webテクノロジーが進化し続けている今、自然言語を処理する技術の必要性が高まっています。(なんかできるとうれしいですよね!) しかし、Webで扱われる自然言語で書かれた文書は、

    「言語モデル」という本を書かせていただきました - Negative/Positive Thinking
  • 1