タグ

2015年12月30日のブックマーク (2件)

  • WikipediaのデータからElasticsearch用類義語辞書をつくる - Qiita

    Elasticsearchには類義語によるクエリ拡張機能があります。これを適用すると まどマギ と検索したときに まどかマギカ と書かれた文書もヒットするようになります。 (LuceneやSolrにもありますがここではElasticsearchの話だけします) この類義語辞書は、人手で作ること (e.g., FRILの商品検索をnGramから形態素解析にした話 - mosowave) もできますが、今回はなるべく手間をかけたくないのでWikipediaのリダイレクトデータから自動で類義語辞書を作る方法を紹介します。 (自動といってもノイズも含まれてるので実用的に使うにはある程度人手でフィルタリングする必要があります。それでも一から人手で作るよりは手間が少ないと思います) (ElasticsearchではWordNetでの類義語検索に対応しているようですが、これを書いてる2015年12月時点

    WikipediaのデータからElasticsearch用類義語辞書をつくる - Qiita
    overlast
    overlast 2015/12/30
    一般的な検索タスクで有益なelasticsearchのシノニムリストを得られる。便利そう。
  • 読むに値しないコメント

    1. 恫喝系語尾や煽り系語尾、嘲笑系語尾などで強そうな自分を演出、印象操作「だぞ」「だろ」「だな」「しろよ」「しとけ」「だろうがよ」「かよ」「すっぞ」「だよな(無意識に仲間の同意を求める)」「じゃね?」「~?(実際には聞いてない。煽る)」「!」「www」など。 2. 罵倒系の人称を使う「こいつ」「そいつ」「お前」「てめえ」「こいつら」「きさまが」「野郎」「○○なんとか(うろ覚えを装う)」など。 3. ネットスラングの使用悪ノリやイジリ、煽りに使われる事が多い。「www」「お前ら」「そっ閉じ」「あっ・・・(察し)」「ファッ!?」「モニョる」「火病る」「当に○○でした。ありがとうございました」などで何か言った気になる。 4. レッテル貼りや差別、ただの悪口「マスゴミ」「ネトウヨ」「サヨク」「ブサヨ」「○○厨」「○○信者」「DQN」「キモオタ」「キチガイ」「アスペ」「在日」「反日」「朝鮮人」「

    読むに値しないコメント