ブックマーク / zenn.dev/sorami (2)

  • Elasticsearchで日本語を同義語展開する

    全文検索における同義語展開の必要性 全文検索では、基的に文字列のマッチにより検索を行います。しかし我々が言葉を扱うときには、同じものを違う表現で指し示すことが多々あります。 例えば「独占禁止法」と呼ばれる法律があります。これは経済憲法とも言われる大変重要な法律なのですが、日では「昭和二十二年法律第五十四号(私的独占の禁止及び公正取引の確保に関する法律)」という法律がそれに該当し、独占禁止法という名前にはなっていません。これを皆、「独占禁止法」や「独禁法」といった代替可能な別表現(同義語)で呼んでいるわけです。 同法律には法令用語で言うところの「題名」は付されておらず、頭書の名称は制定時の公布文から引用したいわゆる「件名」である。独占禁止法ないし独禁法と略称されることも多い。 もし「独禁法」で検索して当該法律がヒットしなければ、ユーザーとしては不満足でしょう。検索システムのクオリティを向

    Elasticsearchで日本語を同義語展開する
    toshikish
    toshikish 2021/12/15
  • 形態素解析の可視化ツール「ViSudachi」を使ってみる

    当記事は、ViSudachiの開発初期に書かれたものです。今はより簡単に利用することができます。以下の記事もご参照ください: 概要 WorksApplications/ViSudachi: A tool for visualizing the internal structures of morphological analyzer Sudachi 形態素解析器Sudachiの解析結果を可視化するツール ViSudachi が開発中らしい GitHubで公開されていたので使ってみた(2021年11月3日。まだ公式発表はされていない) kagome や janome にもラティス可視化機能はあるよ 形態素解析の可視化とは 多くの形態素解析器では、全ての解析候補を表現する「ラティス」というデータ構造を構築し、その上での「最短経路」を探す問題として解析を定式化しています(最小コスト法)。単語の出

    形態素解析の可視化ツール「ViSudachi」を使ってみる
    toshikish
    toshikish 2021/11/06
  • 1