tnalのブックマーク - はてなブックマーク

Graph of Word、TW-IDFとTFのnormalizationメモ - Negative/Positive Thinking

はじめに Rousseau et al., Graph-of-word and TW-IDF: New Approach to Ad Hoc IR http://www.lix.polytechnique.fr/~rousseau/papers/rousseau-cikm2013.pdf 文書dのグラフ的表現とそこから計算されるTW-IDFというTermの重み付けについて、メモ。 Graph of Word 文書を重みなし有向グラフで表現頂点: 各(unique)term 辺: 固定幅(4ぐらい?)の窓内のtermとの共起辺の向き: termの出現順序(前から後ろ方向のみ) 多重辺にはしない TW-IDF TW-IDF(t,d) = tw(t,d) / (1-b+b*|d|/avdl) * log( (N+1) / df(t) ) tw(t,d): 文書dのgraph of word表

tnal 2014/08/08

リンク

単語の数学的表現メモ - Negative/Positive Thinking

はじめに単語をベクトルや確率分布などの数学的表現で扱いたい場合があったりする。しかし、「どのようなベクトル・確率分布にすべきか？」などはタスクに依存したりして、自明じゃない。たくさんあって、派生や新しいものもどんどんでていると思うので、どんなものがあるか調べたかぎりメモ。 One hot表現各次元が「その単語か否か」を表すベクトルで表現次元の大きさ＝ボキャブラリ数例: スカイツリー = (「船」か否か, 「スカイツリー」か否か, ... ) = (0,1,0,...) 素性のどれか1つしか1にならなくてスパースネスの問題がでる未知語はゼロベクトルになってしまう文字nグラムによる表現単語の表層から得られる情報を利用単語に出現している文字nグラムを利用カタカナ語とか有効そう例: スカイツリー = (「スカ」の出現回数, 「カイ」の出現回数, 「イツ」の出現回数, 「アア

tnal 2014/05/20

リンク

日猫/猫日翻訳を試す - Negative/Positive Thinking

はじめに先日北海道で行われたNLP2014(Neko Language Processing 2014)で最優秀賞だった「ビットペア法を用いた日本語-猫語翻訳アルゴリズム」を試してみました。ネコ氏の鳴き声を分析したところ特徴的なパターンが見られ、日本語とネコ語間の変換ルールを明らかにした事で話題になりました。アルゴリズムは簡単だったので、これを用いて日ニャー/ニャー日翻訳機を作ってみました。アルゴリズム論文によると、日本語をビット列にして隣り合うビットのペアを4パターン(ニャ、ニャッ、ニャン、ニャー)の鳴き方にする事で、意思疎通できたそうです。コード日本語からネコ語へ変換 #!/usr/bin/perl use strict; use warnings; use Encode; use utf8; binmode STDIN, ":utf8"; binmode STDOUT,

tnal 2014/04/09

nlp
neko

リンク

EntityLinkingメモ - Negative/Positive Thinking

はじめに WSDM2014(WWW2013,YSS2013,SIGIR2013)のチュートリアルで「EntityLinking」といタスクが紹介されていたので、ちょっと調べてメモしておく。次元圧縮！ Entity Linkingとはテキストに出てくるエンティティ(実体)を識別・決定するタスク固有名詞抽出は「固有名詞を識別して取り出す」タスクなので、異なる雑にいうと、KnowledgeBaseと呼ばれる(識別された)エンティティ集合からテキストにでてくるエンティティを決定すること KBにない新しい固有名詞を発見することも含まれたりする(「NIL」として取り扱う) 実際の例テキスト「東京タワーに行った」固有名詞抽出「東京タワー」を取り出す Entity Linking 「東京タワー」が以下のreference(ここではWikipediaのページ)と対応することを決定する http

tnal 2014/03/26

リンク

SdAで遊ぶ - Negative/Positive Thinking

はじめに Deepな話で、簡単に試せそうだったStacked Denoising AutoEncoderを試しに遊んでみる。あんまり詳しく調べていないので、お遊びレベルという感じで・・・注意:下記では「特徴抽出器」として利用する方法を試しています。通常は事前学習として行い、それを初期値に使い、普通にニューラルネットの学習を行うことを指すと思いますが、下記のような特徴抽出器的使い方もありみたいですね(ref.機械学習プロフェッショナルシリーズ「深層学習」pp.72-74)。 Stacked AutoEncoderとは BengioやVinsentによって提案や紹介 AutoEncoderを何層も重ねたもの各層の学習は、一つ前の隠れ層を入力にAutoEncoderを学習し、出力部分を捨てて次の層を学習する Unsupervised layer-wise pre-training 層の最後

tnal 2014/01/17

リンク

ロジスティック回帰で分類を試す - Negative/Positive Thinking

はじめにそういえばliblinearよく使うのにロジスティック回帰自分で書いた事ないなぁと思ったので、ちょっと書いてみた。詳しい解説記事とてもいい感じの連載がされている。 http://gihyo.jp/dev/serial/01/machine-learning L1/L2正則化については以下も参照。 http://www.slideshare.net/guo_dong/logistic-regressionpptx 使用したデータ LIBSVMのページにあるUCIデータセットのa9aを用いた http://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/ 学習データ : a9a テストデータ : a9a.t コード結果でてるのでたぶん合ってる。 #include <iostream> #include <fstream> #inc

tnal 2013/11/29

リンク

疎行列の格納方式メモ - Negative/Positive Thinking

はじめに巨大だけどほとんどの要素がゼロであるような疎行列は、そのまま保持するより、要素がゼロじゃないところだけをうまく保持する事でメモリや計算量を減らせたりする。扱う行列のタイプによって、効率のよい形式がいくつかあるようなので代表的なものをメモしておく。 Coodinate(COO) Format 非ゼロ要素の(row indices, column indices, value)を要素数分持たせる形式非ゼロ要素が散らばっている場合に有利 0 4 0 0 2 0 0 0 1 を row 0 1 2 column 1 1 2 value 4 2 1 のように保持する。 compressed sparse row(CSR) Format / compressed sparse column(CSC) Format Coodinate Formatにおいて、左から右、上から下へ順番に要素を

tnal 2013/11/07

リンク

AutoEncoderで遊ぶ - Negative/Positive Thinking

はじめに次元圧縮がマイブーム化しているので、最近はやりのAutoEncoderで遊んでみる。べ、別に深い何かのためにやろうとしてるわけじゃn AutoEncoderとは入力と出力が近くなるように学習するニューラルネットワーク (枠組みをさすだけでニューラルネットワークに限らないのかも？) 基本は、入力層、隠れ層、出力層の3層で構成し、教師信号は入力信号と同じにして学習させる特徴や内部表現の構成を学習することができる入力&出力の次元より隠れ層の次元を小さくして構成する入力セットの圧縮された表現を学習する意味で、(非線形な)次元圧縮器とみなせる AutoEncoderの種類いくつか種類があるぽい。名前だけメモしておく。 Basic AutoEncoder Regularized AutoEncoder Sparse AutoEncoder Denoising AutoEncode

tnal 2013/10/12

リンク

逐次確率比検定を試す - Negative/Positive Thinking

はじめにあらかじめ標本サイズを決めるのではなく、十分と判断されるまでダイナミックに判断を繰り返す逐次確率比検定を参考に、チョコボールの銀のエンジェルの出現確率について判断するとどうなるか試してみる。逐次確率比検定とはベイズ統計学の枠組みで、ベイズ更新の機能を通して1つずつ標本抽出していきながら同時に検定にも用いる事ができる逐次決定過程 : 標本抽出をするたびに判断を行い、結論がでたと認められるタイミングで停止する過程行動 action0 : 結論を保留し、標本抽出を再度行う action1 : 帰無仮説H1を採択 action2 : 対立仮説H2を採択尤度比検定(Likelihood Ratio Test) 「尤度比」を検定統計量として行う統計学的検定の総称尤度比λ=(Π^n_{i=1}{f(Xi|θ1}) / (Π^n_{i=1}{f(Xi|θ2}) 帰無仮説H1 : θ

tnal 2013/10/10

リンク

標本抽出メモ - Negative/Positive Thinking

はじめに大量(または無限)のデータがあっても、人が確認するだとか、1つのデータあたりのなんらかのコストが高い場合、少量のデータを選んで利用する事が多い。(大量に収集されたログデータの分析をするとか、あるプログラムのパフォーマンスを見るために速度を測るとか) しかし、「少量のデータ」の選び方やその妥当性の判断はかなり難しい。用語などメモしておく。統計的推測母集団から標本を抽出して、その標本に対して分析し、母集団について推測すること統計学や統計的手法を適用する事で、妥当性の判断などが行えるが、適用を間違えると間違った判断を下しかねない測定量、適用方法、適用手順が適切でないと、母集団と標本が大きく異なってしまう母集団対象となるデータすべての集まり有限母集団 : データ数が有限の場合ログデータ、など無限母集団 : データ数が無限の場合プログラムの速度測定結果、などパラメトリ

tnal 2013/10/10

リンク

語義曖昧性解消メモ - Negative/Positive Thinking

はじめに意味を捉えた解析を行うためには、曖昧性のある語の意味を明確にする必要がある。語義曖昧性解消周りをちょっと調べたので、メモ。語義曖昧性解消(Word Sense Disambiguation)とは複数の意味を持つ語(例えば、plantは「植物」「工場」など)が存在する。語義曖昧性解消は、その語の周辺情報(コンテキストなど)から正しい意味を見つけるタスク。アプローチ知識ベース(Knowledge-Based) 辞書やシソーラスデータ、WordNetなどが使える場合語に関する情報・リソースを使うアプローチリソース構造化シソーラス辞書(機械処理しやすい、Machine-readable) オントロジー非構造化コーパス(タグ付き/タグなし) 連語リソース語の頻度リストストップワードドメインラベル Leskアルゴリズム初期の有名なアルゴリズム注目している単

tnal 2013/09/24

nlp
issue

リンク

Random Projectionを試す - Negative/Positive Thinking

はじめに言語処理を行う場合、単語数を考えると高次元スパースなベクトルを扱うことが多い。次元削減を行える手法の一つである、Random Projectionを試してみる。 Random Projectionとは乱数を要素に持ち、各列ベクトルの大きさが1である行列Rを用意して、行列Xをかけることで次元を落とすことができる X_rp = R * X また、このRの各要素がN(0,1)の正規乱数の場合、各列ベクトル間のユークリッド距離をできるだけ保ったまま、次元削減できることが証明されているこの乱数行列Rの作り方として、以下が提案されている Rの各要素r_ijについて、以下の近似を用いる 1/6の確率で、r_ij = sqrt(3) 2/3の確率で、r_ij = 0 1/6の確率で、r_ij = -sqrt(3) 準備ドキュメント群からcos類似度の近い文書を検索するということを、次元削

tnal 2013/09/07

リンク

liblinearで文書分類を試す - Negative/Positive Thinking

はじめにデータ整形やスケール調整、パラメータの探索を行うことでどれだけ変わるか気になったので、liblinearを使って文書分類を試してみる。 liblinear http://www.csie.ntu.edu.tw/~cjlin/liblinear/ version 1.93を利用使用するデータ http://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/multiclass.html 「news20」を使用する 20クラス学習:15935データ、テスト:3993データ素性数:学習62061、テスト62060 news20.bz2とnews20.t.bz2は、単語IDとTF値のペアっぽい #学習データの各クラスのドキュメント数 $ cut -f1 -d" " news20 | sort |uniq -c | sort -k2 -n

tnal 2013/08/05

リンク

TWCNB分類器を試す - Negative/Positive Thinking

はじめにテキスト分類でよく使われるNaive Bayesにはいくつかの厳しい仮定や条件があり、それによって性能が落ちてしまっている。経験則をいれたりして性能を向上させたTWCNB分類器を試してみる。多項モデルによるNaiveBayes l_MNB(d) = argmax_c{ log P(c) + Σ_w{f_w * log P(w|c) } } l_MNB(d) : 多項モデルでの文書dの予測クラスラベル P(c) : クラスcである確率 f_w : 文書での単語wの出現頻度 P(w|c) : クラスcでの単語wの出現確率 P(w|c)の推定値=(N_cw + α_w) / (Σ_w {N_cw} + 単語の種類数) N_cw : クラスcで単語wが出現する訓練文書数 α_w : パラメータ(=1) 【メモ】P(c)の推定値=(N_c + α_c) / (Σ_c {N_c} + ク

tnal 2013/07/05

リンク

KWICを試す - Negative/Positive Thinking

はじめに形態素解析辞書の登録単語の単位や品詞/活用などを考える時は、対象コーパスでその単語がどのような文脈で用いられているか調べたいことが多い。単純にgrepコマンドやエディタの検索とかで調べればよいけど、検索速度や見やすさの問題があったりする。 KWICという用語索引の共通フォーマットがあり、見やすいのでこれを試しに作ってみる。 KWICとは KeyWord In Contextの略語普通、辞書の後ろにある索引のような「単語」と「ページ番号」だけのでなく、「単語の前後の文章」を含むような索引のこと KWIC indexは、単語についてソート＆アラインメントされた索引リストのことを指す permuted indexとも呼ばれるらしい 1960年にLuhnによってconcordancerが作られたときにできた造語アプローチやりたいのは、任意のコーパスについて、 http://cha

tnal 2013/05/27

リンク

トピックモデルメモ - Negative/Positive Thinking

はじめにトピックモデルについてメモ。トピックモデルとは文書は、何らかの話題について書かれていたりする「ある文書内に一緒にでてくる単語は、意味的な関連性が強い」など考えられるトピックモデルは、文書から「何らかの話題(＝トピック)」を発見するための統計的なモデルのことトピックモデルのいろいろ Unigram Mixtures ナイーブベイズでクラス数kと各パラメータをEMで繰り返し推定していく http://www.kamalnigam.com/papers/emcat-mlj99.pdf Probabilistic Latent Semantic Indexing(PLSI) 検索技術であった潜在意味解析(LSI,1990年)を確率的に解析、開発された生成モデル(1999年) 各単語ごとに別なトピックから生成されたと仮定する http://cs.brown.edu/~th/pap

tnal 2013/05/18

リンク

SCWを試す - Negative/Positive Thinking

はじめに分類器の決定版(？)的なSoft Confidence Weighted Learningを試してみた。 Soft Confidence Weighted Learningとは 2012年に提案された、各重みを正規分布と考え更新時にその分布が変わるようにしたConfidence Weighted(CW)関係のノイズに強くなった版オンライン学習 http://icml.cc/2012/papers/86.pdf 詳しい解説記事 http://d.hatena.ne.jp/kisa12012/20120625/1340616659 使用したデータ LIBSVMのページにあるUCIデータセットのa9aを用いた http://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/ 学習データ : a9a テストデータ : a9a.t コード毎

tnal 2013/05/11

リンク

Locality Sensitive Hashによる類似ベクトル検索を試す - Negative/Positive Thinking

はじめに類似性が高いベクトルのハッシュ値が近い値になるようなハッシュ関数を使って、類似するものを高速に検索することができるので、それを試してみた。 Locality Sensitive Hash 類似するデータが高確率で近い値になる(Locality-Sensitive)ハッシュ関数のこと高次元データの次元圧縮を行える (P1,P2,r,cr)-sensitiveなHash族とは、 2つの特徴ベクトルp,qについて(P1>P2) ||p-q||P1 ||p-q||>crならPr[h(p)=h(q)] を満たすハッシュ関数h:R^d->U コサイン類似度に対するLSH 2つのk次元ベクトルu,vについてコサイン類似度: u*v / sqrt(|u|*|v|) d個のk次元のランダムベクトルr_iを考え、ハッシュ関数h_i(u)を h_i(u) = 1 (r*u >=0) h_i(u)

tnal 2013/05/09

リンク

時系列解析メモ - Negative/Positive Thinking

はじめに時系列解析について、簡単にメモ。時系列(time series)とは時間の経過で変動する何かの数値の列例：気象データ、株価、など時系列解析は、このデータを統計解析すること時系列の分類連続時間・離散時間時間間隔が連続的か、離散的(1時間おき、とか)か 1変量・多変量 1つの情報だけか、同じ時間の2つ以上の情報が与えられるか定常・非定常時間的に変化しない確率モデルの実現値とみなせる(定常)か、そうでないか弱定常: 分布がl時間(シフト)後と同じになるようなもの強定常: 分布が時間(シフト)に対して不変になるようなものガウス型・非ガウス型時系列の分布が正規分布に従うか、そうでないか線形・非線形線形なモデルの出力として表現できるか、そうでないか時系列解析の目的以下のようなことをやりたい。 description 図示や時系列の特徴を簡潔に表現 model

tnal 2013/04/25

リンク

構文解析メモ - Negative/Positive Thinking

はじめに「構文解析」まわりについてちょっと調べたのでメモ。ただ、資料が少なくて内容が怪しい部分が多い。構文解析とは入力された文に対して、文を構成しているそれらの構文構造を同定すること文法規則が定められたプログラミング言語、正規表現、HTML/XMLなどを解析するために使われている自然言語では、複数の単語で1つの句を形成したりある単語が別の単語を修飾するなどの現象があるので、文法を考え構文解析することで自然文を解析する構文解析器(Parser) 構文解析を行う機構・プログラム文の構造構造とは、要素同士がなんらかの相互作用によって結びついている集合と見れる「要素」と「それらがどのように関係しあっているか」が重要構文木(parse tree) 文の構成要素・修飾関係を表現する木構造一般に、構文解析は「文を入力」に「構文木を出力」する直接構成要素分析(immediate

tnal 2012/10/01

NLP

リンク

はてなブックマーク

タグ

ブックマーク / jetbead.hatenablog.com (27)

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第3週）

今週のはてなブックマーク数ランキング（2024年8月第2週）

今週のはてなブックマーク数ランキング（2024年8月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス