[B! N-gram] chezouのブックマーク

自然言語処理はじめました - Ngramを数え上げまくる

マルウェア分類に用いられる特徴量 Kaggle - Malware Classification Challenge勉強会Takeshi Ishita

chezou 2012/05/23

nlp
n-gram

リンク

Solr による N-Gram 検索 - MOYO Laboratory

日本語の文章に対して全文検索用のインデックスを作成する方法としては、形態素解析により分解した単語をインデックスする方法や、N-Gram によってインデックスを作成する方法などがあります。形態素解析はインデックスが小さく検索が早いこと、N-Gram は業界用語などの特定ドメインの言葉や日本語以外にも対応できて部分一致検索が可能であることなど、双方に利点があります。今回は Solr を使用した N-Gram 系トークナイザーについて記述します。 N-Gram 検索を行うには Solr コアの schema.xml を開いてフィールド型を定義します。 <fieldtype name="text" class="solr.textField" positionIncrementGap="100"> <analyzer> <tokenizer class="solr.CJKTokenizerFac

chezou 2012/03/05

ngramでindexする場合はWhitespaceTokenizerとLowerCaseFilterFactory,NgramFilterFactoryを組み合わせる

solr
n-gram

リンク

N-gramしてみた - hitode909の日記

昨日、はじめてのAIプログラミングという本を読んだ。それで紹介されていた、N-gramという手法がおもしろそうだったのでやってみた。はじめてのAIプログラミング―C言語で作る人工知能と人工無能作者: 小高知宏出版社/メーカー: オーム社発売日: 2006/10メディア: 単行本クリック: 85回この商品を含むブログ (23件) を見る N-gramとは日本語の文章をn文字ずつに切り出して、出現回数を数えると楽しい３文字で切るのがいいらしい(？) ソース next if token =~ /\n|\r/　のあたりがおかしいが、リンク先では正しく表示される。使い方 R echo "アメリカにはアメリカ人がいて、アメリカにはたくさん人がいて、すごいですね" | ruby ngram.rb [["メリカ", 3], ["アメリ", 3], ["がいて", 2], ["リカに", 2]

chezou 2011/10/06

n-gram

リンク

Google Code Archive - Long-term storage for Google Code Project Hosting.

Code Archive Skip to content Google About Google Privacy Terms

chezou 2011/09/12

Google N-gramを検索するためのシステム

リンク

N-gram コーパス - 日本語ウェブコーパス 2010

概要ウェブページに出現する形態素 N-gram と文字 N-gram を頻度とともに収録したコーパスです．各 N-gram コーパスには，頻度 10/100/1000 以上の 1-gram から 7-gram までが収録されています． N-gram コーパスの構築においては，Google N-gram コーパスと同様の前処理を施しています．句点・感嘆符・疑問符を文の区切りとして利用しているので，「モーニング娘。」や「Yahoo!」などの固有名詞については，不適切な文の区切りがおこなわれています．また，文の区切りは削除するようになっているため，コーパス中に句点・感嘆符・疑問符は出現しません．形態素 N-gram コーパス，文字 N-gram コーパスともに，文境界マーク（<S>，</S>）は採用していますが，未知語トークン（<UNK>）は採用していません．また，文字 N-gram コーパ

chezou 2011/04/29

リンク

はてなブックマーク

タグ

関連タグで絞り込む (6)

N-gramに関するchezouのブックマーク (5)

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第3週）

今週のはてなブックマーク数ランキング（2024年6月第2週）

月間はてなブックマーク数ランキング（2024年5月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス