検索技術勉強会「Search Engineering Tech Talk #1」でお話した内容です。 株式会社メルカリ Director of Search Engineering Tairo Moriyama(森山 大朗) https://twitter.com/tairoRead less
![UI/UXが無意識に検索行動に与える影響について](https://cdn-ak-scissors.b.st-hatena.com/image/square/73825af19e9756922aace6ab13d2e9dd4fb131ec/height=288;version=1;width=512/https%3A%2F%2Fcdn.slidesharecdn.com%2Fss_thumbnails%2Fuiuxsearch-190226121045-thumbnail.jpg%3Fwidth%3D640%26height%3D640%26fit%3Dbounds)
Elasticsearchには類義語によるクエリ拡張機能があります。これを適用すると まどマギ と検索したときに まどかマギカ と書かれた文書もヒットするようになります。 (LuceneやSolrにもありますがここではElasticsearchの話だけします) この類義語辞書は、人手で作ること (e.g., FRILの商品検索をnGramから形態素解析にした話 - mosowave) もできますが、今回はなるべく手間をかけたくないのでWikipediaのリダイレクトデータから自動で類義語辞書を作る方法を紹介します。 (自動といってもノイズも含まれてるので実用的に使うにはある程度人手でフィルタリングする必要があります。それでも一から人手で作るよりは手間が少ないと思います) (ElasticsearchではWordNetでの類義語検索に対応しているようですが、これを書いてる2015年12月時点
以前少しだけElasticsearchを触った時に、自分流Elasticsearch入門 - $shibayu36->blog; というElasticsearchに入門した時のメモをまとめていた。しかし、その頃はElasticsearchを使って完全に一人で一つの機能を作るというところまではいけなかった。 最近になってまたElasticsearchを一から導入する仕事をすることになった。この時以前自分がまとめた記事を読みながらやっていたのだが、実践で一から導入するためにはこの記事だけでは知識が足りなかった。 そこで、前の記事の知識をベースに、一から導入するために少しずつ学んでいき、自分のブログにまとめるなどのことをしてきたので、今回はその締めくくりとして、知識ゼロからElasticsearchを使えるようになるために学習したことについて書いておきたいと思う。 今回書くこと・書かないこと 今
こんにちは、買物情報事業部の荒引 (@a_bicky) です。 業務ではクックパッド特売情報のサーバーサイドや商品検索周りを担当しています。 突然ですが、とある商品検索の機能を使っていて次のようなことが起きたら不思議ですよね。 「ねぎ」で検索したら「たまねぎ」がヒットした! 「ドレッシング」で検索したのに「たまねぎドレッシング」がヒットしない! 「豚 薄切り」で検索したのに「豚ロース肉薄切り」がヒットしない! 「たまご」と「卵」の検索結果が違う! 今回は上記の疑問を解消するために検索の基礎的な内容について説明します。 以下、特売情報の商品を検索することを例に説明しますが、一般的な内容なので「商品」を「レシピ」等に読み替えることも可能です。 大量のページから目的のページを探すための索引 たいていの本の巻末には索引が載っていますよね。特定の内容が載っているページを探す場合、1ページ目から順番に
↑ページ先頭 N-gramモデルを利用した事例 あるテキストから、任意のN-gram単位で共起頻度を集計し(N-gram統計を取る)、その結果を利用してテキストや言語の性格を見いだす研究によく利用される。 N-gramモデルで、ある文字列の直後に、特定の別な文字列は出現する確率を求める。 「an」の後には、必ず母音(aiueo)で始まる単語が結びつく確率が100% 「q」の後には、「u」が結びつく可能性が高い。 『論語』では「子」の後に「曰」が結びつく可能性が高い。 「百人一首」を平仮名に開いた場合の延べ数は、上位十五位までで全体の五割の使用量を占める(全部で六十八種の異なる平仮名(濁点含む)が使われている) 音声認識やOCR(原稿読みとりソフト)での利用 読みにくい文字でも、共起頻度の発生確率を考慮すれば、正しく原稿を可読出来る ↑ページ先頭 人文学的へのN-gramモデル導入 近藤みゆ
2010年01月19日 15:10 カテゴリPython n-gram文字列の切り出し (Python) Posted by yawamen No Comments No Trackbacks Tweet 指定されたn単位で文字列を切り出す. #!/usr/bin/env python # -*- coding: utf-8 -*- def ngram(text, n): results = [] if len(text) >= n: for i in xrange(len(text)-n+1): results.append(text[i:i+n]) return results text = u'今日はとてもいい天気です.' for e in ngram(text, 2): print e 実行結果 今日 日は はと とて ても もい いい い天 天気 気で です す. タグ :#Py
Loading… Flash Player 9 (or above) is needed to view presentations. We have detected that you do not have it on your computer. To install it, go here. スペル訂正エンジンについてのサーベイ #TokyoNLP - Presentation Transcript スペル訂正エンジンに ついてのサーベイ #tokyonlp @nokuno 自己紹介• @nokuno / id:nokuno• #TokyoNLP主催• Social IME / StaKK開発者• Web系ソフトウェアエンジニア 近況報告 近況報告その1言語処理学会で 発表しました 近況報告その2シリコンバレーに 行ってきました 近況報告その3 情報処理学会誌にTokyoNLPが載
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く