[B! algorithm][nlp] goto0のブックマーク

隠れマルコフモデルで自然言語を学習 - 西尾泰和のはてなダイアリー

隠れマルコフモデルで社内掲示板の1万個弱の書き込みを学習させてみた。まず初期値について。遷移確率はおおよそ対角行列。それだけだと差別化できないし、確率が0だと遷移が置きなくて面白く無いので対角成分を11、対角線の一つ上を2、それ以外1として確率として正しくなるように正規化した。出力確率はランダム。ただし今回、文末の構造に注目したいので最後の状態だけ句点「。」の出力確率を2倍にした。図の見方は、一番左が遷移確率の行列の値の大きさを黒四角の大きさで表現したもの。最大値と最小値で正規化しているので黒四角が見えないところは確率0ってわけではなく、小さな値だという意味。中央はその表示を2倍に拡大したもの。小さい確率値がどうしても見づらいのでね。赤く塗ってあるのは2倍にした結果1を超えたことを意味している。一番右はなんとなく黒→赤→緑→白のスケールになっている。まあ最初に作ったのがこれだったんだけ

goto0 2011/12/23

リンク

CRFがよくわからなくてお腹が痛くなってしまう人のための30分でわかるCRFのはなし - EchizenBlog-Zwei

機械学習の3大有名手法といえばSVM、CRF、LDAではないだろうか(と勝手に思っている)。 SVM(Support Vector Machine)については以前記事を書いたので今回はCRF(Conditional Random Fields)について書いてみたい。機械学習超入門IV 〜SVM(サポートベクターマシン)だって30分で作れちゃう☆〜 - EchizenBlog-Zwei といっても今回はさくっと読んでもらうのを目的にしているので手法の具体的な解説は行わない。具体的な部分は@uchumik氏の資料がとても詳しい｡ uchiumi log: 間違ってるかもしれないCRFの説明また、実装方法については高村本(言語処理のための機械学習入門)がとても詳しい。さて、具体的な解説をしないなら何をするの？ということだが、今回はそもそもCRFとは何かという話をする。過去の経験上この、そも

goto0 2011/12/06

リンク

PRML 13章の「HMM の最尤推定」を書き換えてみた - 木曜不足

@shuyo: 社内PRML読書会。今日はHMMの最尤推定。EMAによる導出部分がムダに天下りすぎる。Mステップの対数同時分布の期待値の計算に必要な事後分布の統計量E[z_nk]をγ_nkとおくと、1-of-Kゆえγ_nk=p(z_nk=1|X)がわかる、って流れの方が自然だと思うんだが。 2011-10-25 19:30:45 via Janetter2 なあんて twitter でつぶやいてみたりしたけれど、言うだけなら誰でもできるので、実際に該当箇所を「自然だと思う流れ」で試しに書き換えてみちゃった。ターゲットは PRML 下巻 p334 の式 (13.12) から (13.17) の間。ここは式 (13.12)→式 (13.17)→式 (13.15)&(13.16)→式 (13.13)&(13.14) の順序のほうがわかりやすいと思いこんでいるので、それにあわせて文章を書き換え

goto0 2011/10/28

リンク

単語と文字の話 - Preferred Networks Research & Development

4月からPFIで働いてます。海野です。今日は単語の話をします。読み物的な話なので軽く読んでください。テキストデータなどの自然文を機械処理するときには、まず最初に単語に分割するということをよく行います。一般的にはMeCabやChasenといった形態素解析エンジンに投げて行います。形態素と単語の区別という話もあるのですが、ここでは大雑把に「連続した文字列の単位」くらいの意味で話します。検索という文脈ですと形態素インデックスという言葉がありますが、これは検索の最小単位を文字単位ではなくて形態素の単位にするということです。例えば「東京都」は「東京」「都」に分かれるため、「京都」というクエリに対して見つかるのを防ぐなど、精度を上げる効果があります。反面、深刻な検索漏れを引き起こす可能性があるため嫌われることが多いです。こうした漏れは検索に限らず、テキストマイニングなどの文脈でも問題となることが

goto0 2011/05/30

リンク

ナイーブベイズを用いたブログ記事の自動分類 - 人工知能に関する断創録

カイ二乗値を用いた特徴選択（2010/6/25）の続きです。今まで使ってきた20 Newsgroupsというデータは英語文書でかつ元ネタがよく分からずあまり面白くなかったので、今回はこのブログ（人工知能に関する断想録）の記事を分類してみます。このブログの各記事には私の判断でカテゴリをつけています。たとえば、この記事は[機械学習][自然言語処理]です。カテゴリのリストはこのブログの左メニューにあります。この前、少し整理したので全部で18のカテゴリがあります。新しい記事を書いたとき自動でカテゴリを割り振ることはできるのでしょうか？（注）プログラミング言語はPythonを使っています。シリーズもので以前作ったコードを再利用してるので検索で飛んできた人はナイーブベイズを用いたテキスト分類（2010/6/13）から順に読んでください。はてなダイアリーデータのダウンロードと整形まず、はてなダイア

goto0 2011/02/04

リンク

機械の代わりに人間が学習入門

[Yang, Downey and Boyd-Graber 2015] Efficient Methods for Incorporating Knowl...

goto0 2011/01/17

リンク

Survey1

Survey1 SVMを用いた固有表現抽出に関する論文のサーベイ 1.Support Vector Machineを用いた日本語固有表現抽出 2.Support Vector Machineの多値分類問題への適用法について 3.SVMに基づく固有表現抽出の高速化 4.日本語固有表現抽出における文節情報の利用 5.Stackingの効率的な学習方法と日本語固有表現抽出での評価 6.非頻出語に対して頑健な日本語固有表現の抽出 7.大域的情報を用いた日本語固有表現認識 SVMを利用した日本語固有表現抽出に関する論文が中心です．固有表現タグを入力文の解析単位毎に正確に付与することが目的です．チャンカーは基本的にYamCha 1.Support Vector Machineを用いた日本語固有表現抽出山田寛康工藤拓松本裕治奈良先端科学技術大学院大学情報科学研究科概要

goto0 2010/04/14

リンク

EM アルゴリズム実装(勉強用) - 木曜不足

最近忙しくて*1、PRML の予習が滞り中。しかし、次の PRML 読書会に徒手空拳で行ったら、気持ちよく昇天してしまいそうなので、なんとか頑張って読んでみる。 EM アルゴリズムは何となくわかるが、変分ベイズがわからん…… というわけで、Old Faithful の混合正規分布での推論を K-means と EM と変分ベイズについて、Ｒで実装してみる。 K-means Old Faithful + K-means については、すでに前回の記事でお試し済み。その記事では、イテレーションを１行で書いてネタっぽくしてしまってたので、わかりやすく整理したのが以下のコード。距離を取るところは少し変えて短くしてある。 # Old Faithful dataset を取得して正規化 data("faithful"); xx <- scale(faithful, apply(faithful,

goto0 2010/04/14

リンク

そろそろChaIMEについて一言いっておくか - 射撃しつつ前転改

2月は割とガンガンと開発をしてきたのだが、3月に入ってさすがにエネルギーが切れてきたので、一旦、気分転換にエントリに書いてみることにする。 ChaIMEというのは主に研究目的のかな漢字変換エンジンである。奈良先の小町さん(id:mamoruk)がメインで開発していて、自分もここしばらくはアクティブに開発している。こちらでデモを試すことができる。ChaIMEの特徴はひたすらに統計情報で変換をするところなのだが、今回はそういった話ではなく、もうちょっと一般的なかな漢字変換についての話をダラダラと書いてみようと思う。デモを見て分かる通り、今までのChaIMEはステートレスで、ひらがな列を入力に対してそれっぽい変換候補を複数出力してさぁ選べ、という形だった。文節境界を変更したり、文節毎に候補を出すことはできない。これは単に実装コストの問題で、研究用途で実験をする際には文節境界を変更してどうたらこ

goto0 2009/03/02

リンク

Perlで入門テキストマイニング » SlideShare (share powerpoint...

2007.10.1 introduction to text mining with perl - Download as a PDF, PPTX or view online for free

goto0 2007/10/02

リンク

第5回 N-gramのしくみ | gihyo.jp

前回は形態素解析を使う検索エンジンのしくみについて説明しました。今回は、FINDSPOTで使用しているN-gramという検索エンジンのしくみについて説明します。 N-gramによる見出し語の切り出し前回は、形態素解析による検索エンジンでは、検索可能な最小単位が分かち書きの切り分け単位となる点を説明しました。一方、N-gramを使った検索エンジンでは、単純に文字の並びを見出し語としてインデックスを作成します。1文字を元にインデックスを作成する方法をユニグラム、2文字の並びを元にインデックスを作成する方法をバイグラム、3文字の並びを元にインデックスを作成する方法をトリグラムと呼んでいます。 1文字：ユニグラム 2文字：バイグラム 3文字：トリグラム N-gramによる見出し語の切り出しは、形態素解析のための文法解析を伴わないため、特定の自然言語に依存しないという特徴があります。 FINDS

goto0 2007/08/09

リンク

はてなブックマーク

タグ

関連タグで絞り込む (1)

algorithmとnlpに関するgoto0のブックマーク (11)

お知らせ

今週のはてなブックマーク数ランキング（2025年8月第2週）

今週のはてなブックマーク数ランキング（2025年8月第1週）

月間はてなブックマーク数ランキング（2025年7月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス