overlastのブックマーク - はてなブックマーク

WikipediaのデータからElasticsearch用類義語辞書をつくる - Qiita
Elasticsearchには類義語によるクエリ拡張機能があります。これを適用するとまどマギと検索したときにまどかマギカと書かれた文書もヒットするようになります。 (LuceneやSolrにもありますがここではElasticsearchの話だけします) この類義語辞書は、人手で作ること (e.g., FRILの商品検索をnGramから形態素解析にした話 - mosowave) もできますが、今回はなるべく手間をかけたくないのでWikipediaのリダイレクトデータから自動で類義語辞書を作る方法を紹介します。 (自動といってもノイズも含まれてるので実用的に使うにはある程度人手でフィルタリングする必要があります。それでも一から人手で作るよりは手間が少ないと思います) (ElasticsearchではWordNetでの類義語検索に対応しているようですが、これを書いてる2015年12月時点
overlast 2015/12/30
一般的な検索タスクで有益なelasticsearchのシノニムリストを得られる。便利そう。

elasticsearch
リンク
PythonでのMeCabを速くするtips - Qiita
ちゃお... Python Advent Calendar 2015 18日目の記事です... Pythonといったらデータサイエンスに強いし、データサイエンスといったら形態素解析が必要になることがあるし、形態素解析といったらMeCabだし――ということで、今回はPythonでのMeCabの処理を少しでも速くする豆知識を共有したいと思います！ parseToNodeを捨てよ parseを使おう MeCabの解析結果を得るにはparseとparseToNodeの2つのメソッドがあります。わたしはもっぱらparseToNode使ってたのですが、なんか遅いなーって思って、本当に遅いのか確かめるために処理時間測ってみました。現実的な設定でやった方が実用的だと思ったので、今回は夢野久作のドグラマグラから名詞を抽出することにします。コード import MeCab tagger = MeCab.T
overlast 2015/12/16
他人が実装した関数群はパフォーマンス測定してから使う。順序が関係ない処理をする場合は並列化する。

puthon

自然言語処理
リンク
1

はてなブックマーク

タグ

ブックマーク / qiita.com/yukinoi (2)

お知らせ

月間はてなブックマーク数ランキング（2025年7月）

今週のはてなブックマーク数ランキング（2025年7月第4週）

今週のはてなブックマーク数ランキング（2025年7月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

ブックマーク / qiita.com/yukinoi (2)

WikipediaのデータからElasticsearch用類義語辞書をつくる - Qiita

PythonでのMeCabを速くするtips - Qiita

お知らせ

月間はてなブックマーク数ランキング（2025年7月）

今週のはてなブックマーク数ランキング（2025年7月第4週）

今週のはてなブックマーク数ランキング（2025年7月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス