[B! algorithm][nlp] totonのブックマーク

Aho Corasick 法 - naoyaのはてなダイアリー

適当な単語群を含む辞書があったとします。「京都の高倉二条に美味しいつけ麺のお店がある」*1という文章が入力として与えられたとき、この文章中に含まれる辞書中のキーワードを抽出したい、ということがあります。例えば辞書に「京都」「高倉二条」「つけ麺」「店」という単語が含まれていた場合には、これらの単語(と出現位置)が入力に対しての出力になります。この類の処理は、任意の開始位置から部分一致する辞書中のキーワードをすべて取り出す処理、ということで「共通接頭辞検索 (Common Prefix Search)」などと呼ばれるそうです。形態素解析、Wikipedia やはてなキーワードのキーワードリンク処理などが代表的な応用例です。 Aho Corasick 法任意のテキストから辞書に含まれるキーワードをすべて抽出するという処理の実現方法は色々とあります。Aho Corasick 法はその方法のひと

toton 2010/09/18

はてなキーワードを高速に付与するAC(Aho Corasick)法のやつ

リンク

N-gramモデルを利用したテキスト分析　―インデックスページ―

↑ページ先頭 N-gramモデルを利用した事例あるテキストから、任意のN-gram単位で共起頻度を集計し（N-gram統計を取る）、その結果を利用してテキストや言語の性格を見いだす研究によく利用される。 N-gramモデルで、ある文字列の直後に、特定の別な文字列は出現する確率を求める。「an」の後には、必ず母音（aiueo）で始まる単語が結びつく確率が100% 「q」の後には、「u」が結びつく可能性が高い。『論語』では「子」の後に「曰」が結びつく可能性が高い。「百人一首」を平仮名に開いた場合の延べ数は、上位十五位までで全体の五割の使用量を占める（全部で六十八種の異なる平仮名（濁点含む）が使われている）音声認識やOCR（原稿読みとりソフト）での利用読みにくい文字でも、共起頻度の発生確率を考慮すれば、正しく原稿を可読出来る ↑ページ先頭人文学的へのN-gramモデル導入近藤みゆ

toton 2008/09/14

あるテキストから、任意のN-gram単位で共起頻度を集計し（N-gram統計を取る）、その結果を利用してテキストや言語の性格を見いだす研究によく利用される。

リンク

Introduction to Information Retrieval

This is the companion website for the following book. Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press. 2008. You can order this book at CUP, at your local bookstore or on the internet. The best search term to use is the ISBN: 0521865719. The book aims to provide a modern approach to information retrieval from a co

toton 2008/04/20

stanfordのIRの授業資料。情報検索(IR)のテキスト。たつをさんの輪講資料

リンク

Collaborative filtering - Wikipedia

Collaborative filtering (CF) is, besides content-based filtering, one of two major techniques used by recommender systems.[1] Collaborative filtering has two senses, a narrow one and a more general one.[2] In the newer, narrower sense, collaborative filtering is a method of making automatic predictions (filtering) about a user's interests by utilizing preferences or taste information collected fro

toton 2008/03/23

リンク

MySQLでTF-IDFの計算、あと2つのベクトルの内積の計算 (2006-12-19)

本文を形態素分解し、必要な品詞をtfテーブルとdfテーブルに入れる。分析対象となる文書群すべてについてこの処理を行い、各形態素のTF-IDF値を求めて文書をベクトル化する。他の文書ベクトルと内積を比較し、小さい順に「似ている記事」を求めたい (クラスタリングとかは別途)。 HarmanによるTF値の正規化とSparok JonesによるDF値の正規化をする場合のTF-IDF値の計算式は以下のようになる (参考文献): tfidf(i,j) = log2(freq(i,j) + 1) / log2(NoT) * (log2(N / Dfreq(i)) + 1)

toton 2008/02/29

リンク

はてなブックマーク

タグ

関連タグで絞り込む (5)

algorithmとnlpに関するtotonのブックマーク (5)

お知らせ

はてなブックマーク一部機能のメンテナンスに関するお知らせ

今週のはてなブックマーク数ランキング（2025年11月第3週）

今週のはてなブックマーク数ランキング（2025年11月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

関連タグで絞り込む (5)

algorithmとnlpに関するtotonのブックマーク (5)

Aho Corasick 法 - naoyaのはてなダイアリー

N-gramモデルを利用したテキスト分析 ―インデックスページ―

Introduction to Information Retrieval

Collaborative filtering - Wikipedia

MySQLでTF-IDFの計算、あと2つのベクトルの内積の計算 (2006-12-19)

お知らせ

はてなブックマーク一部機能のメンテナンスに関するお知らせ

今週のはてなブックマーク数ランキング（2025年11月第3週）

今週のはてなブックマーク数ランキング（2025年11月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

N-gramモデルを利用したテキスト分析　―インデックスページ―