[B! N-gram] stick23rdのブックマーク

レーベンシュタイン距離とN-gramモデルのアルゴリズム。それは擬似Google Suggestっぽい何か。 - Bug Catharsis

きっかけはレーベンシュタイン距離 - shin5papaの日記 http://d.hatena.ne.jp/shin5papa/20090311/1236745197 レーベンシュタイン距離とN-gramモデルで、擬似的なGoogle Suggestレーベンシュタイン距離を使うことによって、擬似的にGoogle先生の「もしかして」とか、 Google Suggestっぽいことができそうかなーと思って、面白そうなのでお勉強してみた。 PHPでは標準で関数があるのかー。んー、面白いですねコレ。ということで、さっそくC#で書いてみることにしました。ただ、このレーベンシュタイン距離のみの判定だけでは、距離が等しい結果が複数あるような場合の結果が、イマイチ納得のゆくものにはならなかったので、更に N-gram *1による共起頻度での判定も併用することにしました。 Wikipedia - レーベ

stick23rd 2010/10/25

リンク

N-gram コーパス - 日本語ウェブコーパス 2010

概要ウェブページに出現する形態素 N-gram と文字 N-gram を頻度とともに収録したコーパスです．各 N-gram コーパスには，頻度 10/100/1000 以上の 1-gram から 7-gram までが収録されています． N-gram コーパスの構築においては，Google N-gram コーパスと同様の前処理を施しています．句点・感嘆符・疑問符を文の区切りとして利用しているので，「モーニング娘。」や「Yahoo!」などの固有名詞については，不適切な文の区切りがおこなわれています．また，文の区切りは削除するようになっているため，コーパス中に句点・感嘆符・疑問符は出現しません．形態素 N-gram コーパス，文字 N-gram コーパスともに，文境界マーク（<S>，</S>）は採用していますが，未知語トークン（<UNK>）は採用していません．また，文字 N-gram コーパ

stick23rd 2010/09/15

nlp
N-gram

リンク

Google N-gram V.S. Baidu N-gram　〜ケータイウェブは本当にエロいのか？〜 - nokunoの日記

近年検索エンジンのBaiduは不自然言語処理コンテストなるものを開催し、今日が締切のはずだったのだが24時間延長されたらしいことを聞いてBaiduコーパスをダウンロードしたid:nokunoは仕事帰りの電車で思いついたアイデアを30分ほどで実装してみたところそれなりに面白い結果がでたので応募してみることにした。そもそもBaiduのコーパスはエロいというのを最初に誰かが言ったら@mhagiwaraさんがこんなツイートをしたことに話は遡る。インターネットがエロいのは誰でも知っている。けれど、ケータイウェブが特別にエロいのか？については寡聞にして知らなかったため、検証してみることにした。今回はケータイウェブがエロいかどうかを検証するため、以下のコーパス（N-gramデータ）を相互に比較することとした。Baidu N-gram（Baidu絵文字入りモバイルウェブコーパス）今回のメインターゲット

stick23rd 2010/08/04

リンク

2010-05-22

データ http://dl.dropbox.com/u/2996612/idf.txt.bz2 集計条件品詞は細分類を無視文書数はタイトルの行数とし、空の文書*1でもカウントを行っている*2 定義式：　単語のIDF値：　総文書数：　単語が出現する文書の総数文書数、異なり単語数総ドキュメント数 123,7429 単語異なり数 216,9308 データ形式と例タブ区切りデータ例形態素品詞 idf値あいぞう名詞 6.09252 あいぞめ名詞 5.01334 あいた感動詞 4.58737 あいたい名詞 4.46927 あいだ名詞 2.82231 *1:WP2TXTの変換によって本文がなくなる場合がある *2:めんどくさかったので・・・データ 1-gram http://dl.dropbox.com/u/2996612/1gram.bz2 2-gram http:

stick23rd 2010/05/25

N-gram
nlp

リンク

言論マップ勉強会 - NAIST Computational Linguistics

概要 Web上に存在するさまざまなテキスト情報について、それらの間に暗に示されている同意、対立、弱い対立、根拠などの意味的関係を解析する技術を研究開発します個々のテキスト情報を、他の関連テキスト情報との論理的・時間的な関係の中に位置付けます情報利用者がWeb上のテキスト情報の信憑性を判断する手がかりとする http://www.nec.co.jp/press/ja/1101/3101.html 公開システム ↑ 記時間: 金曜日 13:00-15:00 場所: 松本研図書室(Polycomによる東北大との勉強会) 主な参加者：松本，乾(東北大)，松吉，佐尾，増田，渡邉(東北大), Eric(東北大)，水野(東北大), 大木詳細は言論マッププロジェクトのローカルページ（アクセス制限あり）をご覧ください ↑ 外部発表一覧言論マップ生成課題：言説間の類似・対立の構造を捉えるために村

stick23rd 2009/05/01

リンク

Ngram(N-gram)とは何か & 形態素解析との比較

全て 1.このサイトについて 2.作品DB開発/運用 3.ホームページ制作技術 4.Perl 5.C言語 / C++ 6.検索エンジン&SEO 7.サッカー 8.自分のこと 9.Linux 10.旅行 11.思ったこと 12.パソコン 13.Berkeley DB 14.その他技術系 15.企画 16.スマートフォン 17.鑑賞 18.皆声.jpニュース 19.インターネット業界 20.運用マニュアル(自分用) 21.技術系以外実用書 22.料理 23.ALEXA 24.アニメ 25.会計 26.漫画 27.設計書 28.色々サイト作成 29.サーバー 30.自分専用 31.生活 32.OP/ED/PV 33.ゲーム 34.DB整備 35.新規開始作品紹介 36.英語圏の話題 37.大道芸 38.映画 39.PHP 40.ダイエット 41.Mac 42.JavaScript 43.MySQ

stick23rd 2008/06/23

リンク

Google Japan Blog: 大規模日本語 n-gram データの公開

メディア関係者向けお問い合わせ先メールでのお問い合わせ: pr-jp@google.com メディア関係者以外からのお問い合わせにはお答えいたしかねます。その他すべてのお問い合わせにつきましては、ヘルプセンターをご覧ください。

stick23rd 2007/11/01

リンク

N-gramモデルを利用したテキスト分析　―インデックスページ―

↑ページ先頭 N-gramモデルを利用した事例あるテキストから、任意のN-gram単位で共起頻度を集計し（N-gram統計を取る）、その結果を利用してテキストや言語の性格を見いだす研究によく利用される。 N-gramモデルで、ある文字列の直後に、特定の別な文字列は出現する確率を求める。「an」の後には、必ず母音（aiueo）で始まる単語が結びつく確率が100% 「q」の後には、「u」が結びつく可能性が高い。『論語』では「子」の後に「曰」が結びつく可能性が高い。「百人一首」を平仮名に開いた場合の延べ数は、上位十五位までで全体の五割の使用量を占める（全部で六十八種の異なる平仮名（濁点含む）が使われている）音声認識やOCR（原稿読みとりソフト）での利用読みにくい文字でも、共起頻度の発生確率を考慮すれば、正しく原稿を可読出来る ↑ページ先頭人文学的へのN-gramモデル導入近藤みゆ

stick23rd 2007/10/25

リンク

はてなブックマーク

タグ

関連タグで絞り込む (13)

N-gramに関するstick23rdのブックマーク (9)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第4週）

今週のはてなブックマーク数ランキング（2024年7月第3週）

今週のはてなブックマーク数ランキング（2024年7月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス