InoHiroのブックマーク - はてなブックマーク

DSIRNLP#6で発表させていただきました＆懺悔とNaiveBayes教入信 - Negative/Positive Thinking

DSIRNLP#6 10/11にデンソーアイティーラボラトリさんで行われたDSIRNLP#6勉強会で発表させていただきました聴いていただいた方、ありがとうございました。勉強会のページ http://partake.in/events/38e416b0-5e64-4bd4-8388-4e19acd0ef97 発表資料一部、発表時の資料を修正しています主だって参考にした論文は以下になります Zheng&Webb, Semi-naive Bayesian Classification, 2008 http://www.csse.monash.edu.au/~webb/Files/ZhengWebb08a.pdf No Bayes No Life -Naive Bayesは今でも進化しているようです。- from phyllo 補足(2014/10/12追記修正しました) 質問への回答で、

InoHiro 2014/10/12

リンク

疎行列の格納方式メモ - Negative/Positive Thinking

はじめに巨大だけどほとんどの要素がゼロであるような疎行列は、そのまま保持するより、要素がゼロじゃないところだけをうまく保持する事でメモリや計算量を減らせたりする。扱う行列のタイプによって、効率のよい形式がいくつかあるようなので代表的なものをメモしておく。 Coodinate(COO) Format 非ゼロ要素の(row indices, column indices, value)を要素数分持たせる形式非ゼロ要素が散らばっている場合に有利 0 4 0 0 2 0 0 0 1 を row 0 1 2 column 1 1 2 value 4 2 1 のように保持する。 compressed sparse row(CSR) Format / compressed sparse column(CSC) Format Coodinate Formatにおいて、左から右、上から下へ順番に要素を

InoHiro 2013/11/07

matrix

リンク

TF-IDF - Negative/Positive Thinking

TF-IDFについていくつかの文書が与えられたとき、文書中の単語の重みを決める手法の一つ。 TF(Term Frequency, 文書中の単語出現頻度) 「よくでてくる単語はその文書の主題を表しやすい」ある文書dに単語tがでてきた個数をtf(t,d)と定める tfの定義として、個数nをそのまま用いてしまうと文書サイズが大きいほどnも大きくなってしまうことがある。なので、文書中のすべての単語数で割って正規化したものをtfとして定義するのがいいかも。 IDF(Inverse Document Frequency, 単語が出現する文書数の逆数) 「どんな文書にもよくでてくる単語は、あんまり重要じゃない」単語tがでてくる文書数をdf(t)とし、全文書数をNとしたとき、以下の式で決まる TF-IDF 上記の2つを組み合わせたもの。ある文書dに出現する単語tの重みを以下のように定義。 Oka

InoHiro 2013/05/20

リンク

ナイーブベイズで「日本」の読み分けを試す - Negative/Positive Thinking

はじめに「日本」は、「にほん」と「にっぽん」どちらの読み方もできる。しかし、読み分けが必要な場合も存在する。(東京の日本(にほん)橋と大阪の日本(にっぽん)橋、会社名、など) 同型異音語や多義性解消だと、よく周辺文字を素性にして分類問題を解く、というアプローチが取られるよう(参考文献)なので、この読み分けをナイーブベイズで試してみる。アプローチここでは、単語「日本」の前後のn文字ずつを使って読み分けてみる文字cとして、文は「c_0 ... c_{n-1} 日本 c_{n+1} ... c_{2n}」 ngramや単語や形態素などでも「周辺文字を素性にした分類問題」とみなせるデータの準備学習および評価用のデータはwikipediaの文を使う。 wikipediaページのダウンロード wikipediaのページのデータから、ランダムに500件取り出す http://dumps

InoHiro 2013/04/30

リンク

へ、変態っ！！読めないからやめてっ！bit使ったデータ構造・アルゴリズム実装集 - Negative/Positive Thinking

この記事はCompetitive Programming Advent Calendar Div2012の2日目の記事です。 12月20日追記： Darseinさんが20日目の記事で、ビット演算についての詳しい説明を紹介してくださっています！必読ですね！！！！：）はじめに Y＾´　　　　 ∨／／／,∠ ,. ' ／l／／／／, ' , '／ !　｜ｌ }´　　　　〈〉　　変　　〈/ , ' ／／￣｀>< ／／／／／／ _,.=‐|'"´l　ｌ〈　　変　　/ 〈　　　態.　　 ∨, '／l| 　 ,.'-‐､｀/／｀7/　／''"´__　｜　ﾊ l丿　態　 { 人）　　　! !　　　（／! 　|ヽ〈_　・.ﾉ〃　〃／　 '／⌒ヾ.!　,'　!く　　 ! !　　（_ ト､__／　ヽ､_,.イ　　／ｌ　ｌ　｜:::::::｀｀`/:::::／...´..

InoHiro 2012/12/03

リンク

はてなブックマーク

タグ

ブックマーク / jetbead.hatenablog.com (5)

お知らせ

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

月間はてなブックマーク数ランキング（2024年6月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス