sleepy_yoshiのブックマーク - はてなブックマーク

テキスト自動要約メモ - Negative/Positive Thinking

はじめに前から気になっててほっといてた自動要約についてメモ。文短縮とか試してみたい。テキスト要約与えられたテキストをより短いテキストに簡潔にまとめること要約率 = (要約後の文字数or文数) / (与えらえたテキストの文字数or文数) 要約の過程以下の3つがある(とされている) 1.テキストの解析と理解 2.要約の内部表現への変換/変形 3.内部表現から要約テキストの生成ただし、これらをすべてきちんとやるのは難しい人間の場合は、以下のような行為が行われているとか不要句の削除文の結合構文的変形句の言い換え句の置き換え文の並び替え考慮すべき点長さジャンル/分野単一文/複数文なんのための要約か？利用方法出力形式重要文抽出テキストから重要な文を抜き出す要約手法なんらかの情報をもとに重要度を計算要約率などの条件を満たすまで文を選択する機械学習や確率値

sleepy_yoshi 2013/03/28

リンク

木メモ - Negative/Positive Thinking

はじめに立派な庭師になるために、木についてちょっと調べてみたので、まとめておく。木(構造)とは閉路を含まない無向グラフを「森」という連結な森を「木」という与えられた頂点が全てつながっていて、閉路を含んでいない閉路を含まない有向グラフは「DAG(Directed acyclic graph)」というある頂点を根(Root)としてもつ木を「根付き木」という 2点v,wが辺を持ち、vの方が根に近い場合、vを「親」、wを「子」という 2点v,wについて、根とvとの経路にwが存在する場合、wはvの「先祖」、vはwの「子孫」という子を持たない頂点を「葉」という根から各点への経路の長さ(1辺を1とする)を「高さ」という各点の子の数が常にn子の木を「n分木」という連結グラフGについて、閉路ができなくなるまで辺を除去し続けると、残ったものは「全域木」となる根付き木を探索などに用いるこ

sleepy_yoshi 2012/06/27

algorithm

リンク

焼きなまし法で遊ぶ - Negative/Positive Thinking

はじめに焼きなまし法について、どんな挙動で、どこを気をつけないといけないのかよくわかってないので、遊んでみる。焼きなまし法メモ : http://d.hatena.ne.jp/jetbead/20111014/1318598381 評価関数簡単のために、4次関数を使って、初期位置は小さい山の外側(x0=2.0)に配置してみる。【関数の形】 (google) (wolfram alpha) http://www.wolframalpha.com/input/?i=-3x%5E4%2B3x%5E3%2B10x%5E2-10x%2B15 best_x = argmax f(x)を求めたい。コード #include <iostream> #include <cmath> //xorshift // 注意: longではなくint(32bit)にすべき unsigned long xor1

sleepy_yoshi 2012/06/23

algorithm

リンク

決定木メモ - Negative/Positive Thinking

はじめに決定木についてちょっと調べてみたので、メモ。決定木(decision tree)とは木構造(多分木)を使って、分類・回帰問題を解く root(根)を含む各内部ノードは、「変数」を表す leaf(葉)は、変数に対する「予測値、分類値」を表す入力xを、ルートからスタートし各ノードの条件に従って葉に来て出力yが決まる連続if-thenだと見ると理解しやすい出力yは、分類ならクラス、回帰なら定数値などになる訓練データD={(x,y)}から木構造を構築することを「決定木の学習」という見た目にもわかりやすく、扱いやすい、比較的単純な機械学習法の一つサイズが小さめならば。精度はあまりでない(らしい) 空間を矩形領域でしか区分しないと考えるとそんな感じもする問題点多くの学習方法では、特徴空間の軸に平行(x_0<3.0など)なため、平行でないような場合(x_1>2x_0+3な

sleepy_yoshi 2012/05/11

ML

リンク

言語モデル構築Toolメモ - Negative/Positive Thinking

はじめに世の中には言語モデルを構築するToolkitはたくさんあるということで、簡単に探してみた。言語モデルツールキット SRILM - The SRI Language Modeling Toolkit http://www.speech.sri.com/projects/srilm/ Palmkit - a statistical language modeling toolkit http://palmkit.sourceforge.net/ Kylm - 京都言語モデルツールキット http://www.phontron.com/kylm/index-ja.html CMU SLM Toolkit http://www.speech.cs.cmu.edu/SLM_info.html KenLM - Faster and Smaller Language Model Querie

sleepy_yoshi 2012/04/06

NLP

リンク

ガンマ乱数生成 - Negative/Positive Thinking

はじめに 1次元のガンマ分布または逆ガンマ分布に従う乱数を生成したい。いろんな人が書いているのでちょっと自分も実装してみる。コード参照論文 http://www.economicsbulletin.com/2008/volume3/EB-07C10012A.pdf #include <iostream> #include <cmath> //xorshift // 注意: longではなくint(32bit)にすべき unsigned long xor128(){ static unsigned long x=123456789, y=362436069, z=521288629, w=88675123; unsigned long t; t=(x^(x<<11)); x=y; y=z; z=w; return w=(w^(w>>19))^(t^(t>>8)); } //[0,1)の

sleepy_yoshi 2012/02/28

ML

リンク

DSIRNLPで発表させていただきました - Negative/Positive Thinking

12/10にmixiさんで行われたDSIRNLP勉強会で発表させていただきました聴きにきていただいた方ありがとうございましたスライド資料 http://www.slideshare.net/phyllo/ngram-10539181 自然言語処理はじめました - Ngramを数え上げまくる View more presentations from phyllo 発表で以下のコメントをいただきました「有効なダイエット法を見つけるツールの進捗は？」現在鋭意製作中です。すいません。「Suffix ArrayはメモリじゃなくてHDDで作成することができますよ」試してみます！

sleepy_yoshi 2011/12/24

NLP
資料

リンク

Negative/Positive Thinking

はじめに焼きなまし法について、問題へ適用する際のメモ。焼きなまし法とは Simulated Annealing, SA 物理現象の焼きなましのコンセプトを組み合わせ最適化問題の探索過程に導入した、確率的近似解法の一つ現在の解の近傍から良い解に移動することを繰り返す「局所探索」に対して、悪くなる解への移動を繰り返し回数や悪化の度合いに依存する確率で許すことで、局所最適解から脱出することがポイント以前のメモ http://d.hatena.ne.jp/jetbead/20111014/1318598381 http://d.hatena.ne.jp/jetbead/20120623/1340419446 疑似コード x:=初期解, T:=初期温度, R:=初期イテレーション回数 while 終了条件 do begin for i:=1 to R do begin y:=近傍解の一つ(y