マルウェア分類に用いられる特徴量 Kaggle - Malware Classification Challenge勉強会Takeshi Ishita
![自然言語処理はじめました - Ngramを数え上げまくる](https://cdn-ak-scissors.b.st-hatena.com/image/square/47c9b9878f2aa173d1f7db30ec05835342eda345/height=288;version=1;width=512/https%3A%2F%2Fcdn.slidesharecdn.com%2Fss_thumbnails%2Frandom-111209232856-phpapp02-thumbnail.jpg%3Fwidth%3D640%26height%3D640%26fit%3Dbounds)
日本語の文章に対して全文検索用のインデックスを作成する方法としては、形態素解析により分解した単語をインデックスする方法や、N-Gram によってインデックスを作成する方法などがあります。形態素解析はインデックスが小さく検索が早いこと、N-Gram は業界用語などの特定ドメインの言葉や日本語以外にも対応できて部分一致検索が可能であることなど、双方に利点があります。 今回は Solr を使用した N-Gram 系トークナイザーについて記述します。 N-Gram 検索を行うには Solr コアの schema.xml を開いてフィールド型を定義します。 <fieldtype name="text" class="solr.textField" positionIncrementGap="100"> <analyzer> <tokenizer class="solr.CJKTokenizerFac
昨日、はじめてのAIプログラミングという本を読んだ。 それで紹介されていた、N-gramという手法がおもしろそうだったのでやってみた。 はじめてのAIプログラミング―C言語で作る人工知能と人工無能 作者: 小高知宏出版社/メーカー: オーム社発売日: 2006/10メディア: 単行本 クリック: 85回この商品を含むブログ (23件) を見る N-gramとは 日本語の文章をn文字ずつに切り出して、出現回数を数えると楽しい 3文字で切るのがいいらしい(?) ソース next if token =~ /\n|\r/ のあたりがおかしいが、リンク先では正しく表示される。 使い方 R echo "アメリカにはアメリカ人がいて、アメリカにはたくさん人がいて、すごいですね" | ruby ngram.rb [["メリカ", 3], ["アメリ", 3], ["がいて", 2], ["リカに", 2]
概要 ウェブページに出現する形態素 N-gram と文字 N-gram を頻度とともに収録したコーパスです.各 N-gram コーパスには,頻度 10/100/1000 以上の 1-gram から 7-gram までが収録されています. N-gram コーパスの構築においては,Google N-gram コーパスと同様の前処理を施しています.句点・感嘆符・疑問符を文の区切りとして利用しているので,「モーニング娘。」や「Yahoo!」などの固有名詞については,不適切な文の区切りがおこなわれています.また,文の区切りは削除するようになっているため,コーパス中に句点・感嘆符・疑問符は出現しません. 形態素 N-gram コーパス,文字 N-gram コーパスともに,文境界マーク(<S>,</S>)は採用していますが,未知語トークン(<UNK>)は採用していません.また,文字 N-gram コーパ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く