タグ

N-gramとnlpに関するstick23rdのブックマーク (5)

  • レーベンシュタイン距離とN-gramモデルのアルゴリズム。それは擬似Google Suggestっぽい何か。 - Bug Catharsis

    きっかけは レーベンシュタイン距離 - shin5papaの日記 http://d.hatena.ne.jp/shin5papa/20090311/1236745197 レーベンシュタイン距離とN-gramモデルで、擬似的なGoogle Suggestレーベンシュタイン距離を使うことによって、擬似的にGoogle先生の「もしかして」とか、 Google Suggestっぽいことができそうかなーと思って、面白そうなのでお勉強してみた。 PHPでは標準で関数があるのかー。んー、面白いですねコレ。ということで、さっそくC#で書いてみることにしました。 ただ、このレーベンシュタイン距離のみの判定だけでは、距離が等しい結果が複数あるような場合の結果が、 イマイチ納得のゆくものにはならなかったので、更に N-gram *1による共起頻度での判定も併用することにしました。 Wikipedia - レーベ

    レーベンシュタイン距離とN-gramモデルのアルゴリズム。それは擬似Google Suggestっぽい何か。 - Bug Catharsis
  • N-gram コーパス - 日本語ウェブコーパス 2010

    概要 ウェブページに出現する形態素 N-gram と文字 N-gram を頻度とともに収録したコーパスです.各 N-gram コーパスには,頻度 10/100/1000 以上の 1-gram から 7-gram までが収録されています. N-gram コーパスの構築においては,Google N-gram コーパスと同様の前処理を施しています.句点・感嘆符・疑問符を文の区切りとして利用しているので,「モーニング娘。」や「Yahoo!」などの固有名詞については,不適切な文の区切りがおこなわれています.また,文の区切りは削除するようになっているため,コーパス中に句点・感嘆符・疑問符は出現しません. 形態素 N-gram コーパス,文字 N-gram コーパスともに,文境界マーク(<S>,</S>)は採用していますが,未知語トークン(<UNK>)は採用していません.また,文字 N-gram コーパ

  • Google N-gram V.S. Baidu N-gram 〜ケータイウェブは本当にエロいのか?〜 - nokunoの日記

    近年検索エンジンのBaiduは不自然言語処理コンテストなるものを開催し、今日が締切のはずだったのだが24時間延長されたらしいことを聞いてBaiduコーパスをダウンロードしたid:nokunoは仕事帰りの電車で思いついたアイデアを30分ほどで実装してみたところそれなりに面白い結果がでたので応募してみることにした。そもそもBaiduのコーパスはエロいというのを最初に誰かが言ったら@mhagiwaraさんがこんなツイートをしたことに話は遡る。インターネットがエロいのは誰でも知っている。けれど、ケータイウェブが特別にエロいのか? については寡聞にして知らなかったため、検証してみることにした。今回はケータイウェブがエロいかどうかを検証するため、以下のコーパス(N-gramデータ)を相互に比較することとした。Baidu N-gram(Baidu絵文字入りモバイルウェブコーパス) 今回のメインターゲット

  • 2010-05-22

    データ http://dl.dropbox.com/u/2996612/idf.txt.bz2 集計条件 品詞は細分類を無視 文書数はタイトルの行数とし、空の文書*1でもカウントを行っている*2 定義式 : 単語のIDF値 : 総文書数 : 単語が出現する文書の総数 文書数、異なり単語数 総ドキュメント数 123,7429 単語異なり数 216,9308 データ形式と例 タブ区切り データ例 形態素 品詞 idf値 あいぞう 名詞 6.09252 あいぞめ 名詞 5.01334 あいた 感動詞 4.58737 あいたい 名詞 4.46927 あいだ 名詞 2.82231 *1:WP2TXTの変換によって文がなくなる場合がある *2:めんどくさかったので・・・ データ 1-gram http://dl.dropbox.com/u/2996612/1gram.bz2 2-gram http:

    2010-05-22
  • 言論マップ勉強会 - NAIST Computational Linguistics

    概要 Web上に存在するさまざまなテキスト情報について、それらの間に暗に示されている同意、対立、弱い対立、根拠などの意味的関係を解析する技術を研究開発します 個々のテキスト情報を、他の関連テキスト情報との論理的・時間的な関係の中に位置付けます 情報利用者がWeb上のテキスト情報の信憑性を判断する手がかりとする http://www.nec.co.jp/press/ja/1101/3101.html 公開システム ↑ 記 時間: 金曜日 13:00-15:00 場所: 松研図書室(Polycomによる東北大との勉強会) 主な参加者: 松,乾(東北大),松吉,佐尾,増田,渡邉(東北大), Eric(東北大),水野(東北大), 大木 詳細は言論マッププロジェクトのローカルページ(アクセス制限あり)をご覧ください ↑ 外部発表一覧 言論マップ生成課題:言説間の類似・対立の構造を捉えるために 村

  • 1