[B! nlp][検索] beth321のブックマーク

beth321 id:beth321

nlpと検索に関するbeth321のブックマーク (5)

http://bonten.ninjal.ac.jp/
beth321 2017/03/07
Corpus

形態素解析

日本語

検索

コーパス

ネット

*コーパス

nlp
リンク
第6回 N-gramと形態素解析との比較 | gihyo.jp
これまでに、N-gramと形態素解析の2つの検索エンジンの、見出し語の切り出し方法を説明しました。今回は、2つの見出し語の切り出し方法を比較し、それぞれの得意な点、不得意な点を明らかにしていきます。 2つの手法の概要はじめに、2つの手法をおさらいしてみます。形態素解析検索対象のテキストを形態素解析を行い分かち書きを行う分かち書きした単位を見出し語として転置インデックスを作成する転置インデックスを元に検索を行う N-gram 検索対象のテキストをN文字単位の文字列片に分解する分解した文字列片を見出し語として転置インデックスを作成する検索語をN文字単位の文字列片に分け検索を行う文字列の出現位置情報を利用すれば、漏れのない完全一致の検索が可能大きな違いは、「⁠転置インデックスの見出し語をどのように作るか」というプロセスが異なる点です。形態素解析は構文解析を行って分かち書きを行う
beth321 2014/10/31
形態素解析

development

卒論

検索

N-gram

自然言語処理

search

全文検索

検索エンジン

NLP
リンク
第5回 N-gramのしくみ | gihyo.jp
前回は形態素解析を使う検索エンジンのしくみについて説明しました。今回は、FINDSPOTで使用しているN-gramという検索エンジンのしくみについて説明します。 N-gramによる見出し語の切り出し前回は、形態素解析による検索エンジンでは、検索可能な最小単位が分かち書きの切り分け単位となる点を説明しました。一方、N-gramを使った検索エンジンでは、単純に文字の並びを見出し語としてインデックスを作成します。1文字を元にインデックスを作成する方法をユニグラム、2文字の並びを元にインデックスを作成する方法をバイグラム、3文字の並びを元にインデックスを作成する方法をトリグラムと呼んでいます。 1文字：ユニグラム 2文字：バイグラム 3文字：トリグラム N-gramによる見出し語の切り出しは、形態素解析のための文法解析を伴わないため、特定の自然言語に依存しないという特徴があります。 FINDS
beth321 2014/10/27
ngram

nlp

DB

n-gram

algorithm

search

形態素解析

検索

programming

検索エンジン
リンク
辞書不要の形態素解析エンジン「マリモ」とは − ＠IT
2007/08/15 検索サービスを提供するベンチャー企業のムーターは8月1日、辞書を必要としない形態素解析エンジン「マリモ」の提供を開始した。従来、形態素解析では品詞情報を含む日本語辞書を用意するのが常識だったが、マリモでは、そうした辞書を不要とした。新技術のアプローチと特性について、開発元のムーターに話を聞いた。統計処理で単語部分を推定形態素解析とは、与えられた文を、文法上意味のある最小の単位（形態素）に区切る処理。「今日は晴れています」なら、「今日（名詞）／は（助詞）／晴れ（動詞）／て（助詞）／い（助詞）／ます（助動詞）」と分ける。検索エンジンをはじめ、さまざまな自然言語処理の場面で必要となる基礎技術だ。形態素解析を行うには、あらかじめ品詞情報が付加された数十万語からなる辞書を用意する必要がある。また、新語や造語、専門用語に対応するには、個別に人力で単語を登録する必要がある。
beth321 2014/01/11
形態素解析

自然言語処理

search

nlp

検索

技術

アルゴリズム

algorithm

日本語

検索エンジン
リンク
Googleのヒット件数は当てにならない - アスペ日記
（2013/11/08: 補足を書きました。Googleのヒット件数について（続き））「Googleの検索件数は当てにならない」と言うと、多くの人は「何をいまさら」という反応かもしれません。当てにならないことぐらいわかってるよ、と。でも、「当てにならない」でイメージするものがどの程度かは人によって違うと思います。結果が2倍ぐらい違ったりする、程度に思っている人もいるかもしれません。しかし、実際はそんなレベルでの話ではありません。「本当は50件なのに500,000件と返ってくる」ようなことも珍しくありません。たとえば、ツイッターで見たネタなのですが、"無い内定式" というキーワードで検索してみます。 267,000件。多いですね。ここで、10ページ目をクリックすると、次のようになります。「59 件中 6 ページ目」*1 一気に4桁も減ってしまいました。どちらが本当の数字
beth321 2013/11/07
Google

Google

統計

検索

Corpus

CogLing

SearchEngine

*あとで読む

NLP
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx