[B! N-gram][自然言語処理] stick23rdのブックマーク

stick23rd id:stick23rd

N-gramと自然言語処理に関するstick23rdのブックマーク (5)

レーベンシュタイン距離とN-gramモデルのアルゴリズム。それは擬似Google Suggestっぽい何か。 - Bug Catharsis
きっかけはレーベンシュタイン距離 - shin5papaの日記 http://d.hatena.ne.jp/shin5papa/20090311/1236745197 レーベンシュタイン距離とN-gramモデルで、擬似的なGoogle Suggestレーベンシュタイン距離を使うことによって、擬似的にGoogle先生の「もしかして」とか、 Google Suggestっぽいことができそうかなーと思って、面白そうなのでお勉強してみた。 PHPでは標準で関数があるのかー。んー、面白いですねコレ。ということで、さっそくC#で書いてみることにしました。ただ、このレーベンシュタイン距離のみの判定だけでは、距離が等しい結果が複数あるような場合の結果が、イマイチ納得のゆくものにはならなかったので、更に N-gram *1による共起頻度での判定も併用することにしました。 Wikipedia - レーベ
stick23rd 2010/10/25
N-gram

自然言語処理

アルゴリズム

nlp
リンク
言論マップ勉強会 - NAIST Computational Linguistics
概要 Web上に存在するさまざまなテキスト情報について、それらの間に暗に示されている同意、対立、弱い対立、根拠などの意味的関係を解析する技術を研究開発します個々のテキスト情報を、他の関連テキスト情報との論理的・時間的な関係の中に位置付けます情報利用者がWeb上のテキスト情報の信憑性を判断する手がかりとする http://www.nec.co.jp/press/ja/1101/3101.html 公開システム ↑ 記時間: 金曜日 13:00-15:00 場所: 松本研図書室(Polycomによる東北大との勉強会) 主な参加者：松本，乾(東北大)，松吉，佐尾，増田，渡邉(東北大), Eric(東北大)，水野(東北大), 大木詳細は言論マッププロジェクトのローカルページ（アクセス制限あり）をご覧ください ↑ 外部発表一覧言論マップ生成課題：言説間の類似・対立の構造を捉えるために村
stick23rd 2009/05/01
nlp

N-gram

自然言語処理

まとめ
リンク
Google Japan Blog: 大規模日本語 n-gram データの公開
突然ですが、穴埋めクイズです。下線部に入る単語はなんでしょう? グーグルで_____ おそらく、「検索」「調べる」「探す」といった単語を思いつくのではないでしょうか？実際に、Webにあるドキュメントをくまなく調べ、「グーグルで」の後にくる単語を調べると、「検索」が1位であるとがわかります。一般に、直前の(N-1)個の単語を見て、次の単語を予測するモデルをN-gram言語モデルといいます。さきほどは、「グーグル」と「で」の2単語から次を予想しているので、3-gram言語モデルの例となります。現時点の単語が、直前の(N-1)個のみに影響を受けるという仮説は、一見現実離れしているようですが、実際には非常に有効な場合も多く、かな漢字変換、OCRのエラー訂正、機械翻訳、音声認識などに広く用いられています。たとえば、音声認識の場合、ノイズ等で現時点の単語をシステムが聞き取れなくても、言語モデル
stick23rd 2007/11/01
google

N-gram

形態素解析

品詞抽出

自然言語処理

これは便利

あとで読む
リンク
N-gramモデルを利用したテキスト分析　―インデックスページ―
↑ページ先頭 N-gramモデルを利用した事例あるテキストから、任意のN-gram単位で共起頻度を集計し（N-gram統計を取る）、その結果を利用してテキストや言語の性格を見いだす研究によく利用される。 N-gramモデルで、ある文字列の直後に、特定の別な文字列は出現する確率を求める。「an」の後には、必ず母音（aiueo）で始まる単語が結びつく確率が100% 「q」の後には、「u」が結びつく可能性が高い。『論語』では「子」の後に「曰」が結びつく可能性が高い。「百人一首」を平仮名に開いた場合の延べ数は、上位十五位までで全体の五割の使用量を占める（全部で六十八種の異なる平仮名（濁点含む）が使われている）音声認識やOCR（原稿読みとりソフト）での利用読みにくい文字でも、共起頻度の発生確率を考慮すれば、正しく原稿を可読出来る ↑ページ先頭人文学的へのN-gramモデル導入近藤みゆ
stick23rd 2007/10/25
まとめ

品詞抽出

研究関連

自然言語処理

N-gram

lucene
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx