タグ

ブックマーク / jetbead.hatenablog.com (8)

  • テキスト自動要約メモ - Negative/Positive Thinking

    はじめに 前から気になっててほっといてた自動要約についてメモ。 文短縮とか試してみたい。 テキスト要約 与えられたテキストをより短いテキストに簡潔にまとめること 要約率 = (要約後の文字数or文数) / (与えらえたテキストの文字数or文数) 要約の過程 以下の3つがある(とされている) 1.テキストの解析と理解 2.要約の内部表現への変換/変形 3.内部表現から要約テキストの生成 ただし、これらをすべてきちんとやるのは難しい 人間の場合は、以下のような行為が行われているとか 不要句の削除 文の結合 構文的変形 句の言い換え 句の置き換え 文の並び替え 考慮すべき点 長さ ジャンル/分野 単一文/複数文 なんのための要約か?利用方法 出力形式 重要文抽出 テキストから重要な文を抜き出す要約手法 なんらかの情報をもとに重要度を計算 要約率などの条件を満たすまで文を選択する 機械学習や確率値

    テキスト自動要約メモ - Negative/Positive Thinking
  • 木メモ - Negative/Positive Thinking

    はじめに 立派な庭師になるために、木についてちょっと調べてみたので、まとめておく。 木(構造)とは 閉路を含まない無向グラフを「森」という 連結な森を「木」という 与えられた頂点が全てつながっていて、閉路を含んでいない 閉路を含まない有向グラフは「DAG(Directed acyclic graph)」という ある頂点を根(Root)としてもつ木を「根付き木」という 2点v,wが辺を持ち、vの方が根に近い場合、vを「親」、wを「子」という 2点v,wについて、根とvとの経路にwが存在する場合、wはvの「先祖」、vはwの「子孫」という 子を持たない頂点を「葉」という 根から各点への経路の長さ(1辺を1とする)を「高さ」という 各点の子の数が常にn子の木を「n分木」という 連結グラフGについて、閉路ができなくなるまで辺を除去し続けると、残ったものは「全域木」となる 根付き木を探索などに用いるこ

    木メモ - Negative/Positive Thinking
  • 焼きなまし法で遊ぶ - Negative/Positive Thinking

    はじめに 焼きなまし法について、どんな挙動で、どこを気をつけないといけないのかよくわかってないので、遊んでみる。 焼きなまし法メモ : http://d.hatena.ne.jp/jetbead/20111014/1318598381 評価関数 簡単のために、4次関数を使って、初期位置は小さい山の外側(x0=2.0)に配置してみる。 【関数の形】 (google) (wolfram alpha) http://www.wolframalpha.com/input/?i=-3x%5E4%2B3x%5E3%2B10x%5E2-10x%2B15 best_x = argmax f(x)を求めたい。 コード #include <iostream> #include <cmath> //xorshift // 注意: longではなくint(32bit)にすべき unsigned long xor1

    焼きなまし法で遊ぶ - Negative/Positive Thinking
  • 決定木メモ - Negative/Positive Thinking

    はじめに 決定木についてちょっと調べてみたので、メモ。 決定木(decision tree)とは 木構造(多分木)を使って、分類・回帰問題を解く root(根)を含む各内部ノードは、「変数」を表す leaf(葉)は、変数に対する「予測値、分類値」を表す 入力xを、ルートからスタートし各ノードの条件に従って葉に来て出力yが決まる 連続if-thenだと見ると理解しやすい 出力yは、分類ならクラス、回帰なら定数値などになる 訓練データD={(x,y)}から木構造を構築することを「決定木の学習」という 見た目にもわかりやすく、扱いやすい、比較的単純な機械学習法の一つ サイズが小さめならば。 精度はあまりでない(らしい) 空間を矩形領域でしか区分しないと考えるとそんな感じもする 問題点 多くの学習方法では、特徴空間の軸に平行(x_0<3.0など)なため、平行でないような場合(x_1>2x_0+3な

    決定木メモ - Negative/Positive Thinking
  • 言語モデル構築Toolメモ - Negative/Positive Thinking

    はじめに 世の中には言語モデルを構築するToolkitはたくさんあるということで、簡単に探してみた。 言語モデルツールキット SRILM - The SRI Language Modeling Toolkit http://www.speech.sri.com/projects/srilm/ Palmkit - a statistical language modeling toolkit http://palmkit.sourceforge.net/ Kylm - 京都言語モデルツールキット http://www.phontron.com/kylm/index-ja.html CMU SLM Toolkit http://www.speech.cs.cmu.edu/SLM_info.html KenLM - Faster and Smaller Language Model Querie

    言語モデル構築Toolメモ - Negative/Positive Thinking
  • ガンマ乱数生成 - Negative/Positive Thinking

    はじめに 1次元のガンマ分布または逆ガンマ分布に従う乱数を生成したい。 いろんな人が書いているのでちょっと自分も実装してみる。 コード 参照論文 http://www.economicsbulletin.com/2008/volume3/EB-07C10012A.pdf #include <iostream> #include <cmath> //xorshift // 注意: longではなくint(32bit)にすべき unsigned long xor128(){ static unsigned long x=123456789, y=362436069, z=521288629, w=88675123; unsigned long t; t=(x^(x<<11)); x=y; y=z; z=w; return w=(w^(w>>19))^(t^(t>>8)); } //[0,1)の

    ガンマ乱数生成 - Negative/Positive Thinking
  • DSIRNLPで発表させていただきました - Negative/Positive Thinking

    12/10にmixiさんで行われたDSIRNLP勉強会で発表させていただきました 聴きにきていただいた方ありがとうございました スライド資料 http://www.slideshare.net/phyllo/ngram-10539181 自然言語処理はじめました - Ngramを数え上げまくる View more presentations from phyllo 発表で以下のコメントをいただきました 「有効なダイエット法を見つけるツールの進捗は?」 現在鋭意製作中です。すいません。 「Suffix ArrayはメモリじゃなくてHDDで作成することができますよ」 試してみます!

    DSIRNLPで発表させていただきました - Negative/Positive Thinking
  • Negative/Positive Thinking

    はじめに 焼きなまし法について、問題へ適用する際のメモ。 焼きなまし法とは Simulated Annealing, SA 物理現象の焼きなましのコンセプトを組み合わせ最適化問題の探索過程に導入した、確率的近似解法の一つ 現在の解の近傍から良い解に移動することを繰り返す「局所探索」に対して、悪くなる解への移動を繰り返し回数や悪化の度合いに依存する確率で許すことで、局所最適解から脱出することがポイント 以前のメモ http://d.hatena.ne.jp/jetbead/20111014/1318598381 http://d.hatena.ne.jp/jetbead/20120623/1340419446 疑似コード x:=初期解, T:=初期温度, R:=初期イテレーション回数 while 終了条件 do begin for i:=1 to R do begin y:=近傍解の一つ(y

    Negative/Positive Thinking
  • 1