タグ

2024年3月12日のブックマーク (2件)

  • Elasticsearchのひらがなでの検索時のトリックについて雑談 - はてだBlog(仮称)

    はじめに Elasticsearch(kuromoji)では、アナライザーに「kuromoji_readingform」というものがあり、これを使うと「読み」に関して、表記揺れや曖昧検索相当に対応できます。 ただし、この「読み」部分については、実は、kuromojiの形態素解析(分かち書き/token化)とセットになる話なので、一番ベーシックなアナライズの設定組み合わせの範囲では実は次のようなことが発生します。 「渡辺」「渡邊」のような「端」「橋」のような、(そのようになるように検索クエリを用いれば)期待どおり互いに検索時にヒットする 一方で、 ひらがな「わたなべ」で、漢字の「渡辺」や「渡邊」を(ただしく読めていると思われるにもかかわらず)これらをヒットさせられない これは、「読み」は当てられているものの、形態素解析でトークン化されたものに対して、転置インデックスの各エントリに対して当ては

    Elasticsearchのひらがなでの検索時のトリックについて雑談 - はてだBlog(仮称)
  • ツイートはバズらない方がいい - バイブログ

    該当のツイートは削除したのですがどこまで拡散されたかもはや把握できていないので一応一連の流れなどを書いておきます。 別に釈明がしたいとかそういう訳ではなくフォロワー向けの読み物程度のものであることはご承知おきください。 はじまり ツイートの拡散、ねじ曲がる文脈 けど結局自分が悪くない? それはそれとして はじまり 2024年3月7日、自分はバーチャルYouTuberさん(迷惑がかかっても嫌なのでここでは名前は伏せます)のイベントに参加するため川崎のラチッタデッラに来ており、同時に開催されていたコラボカフェでランチべていました。 そこでコラボカフェをべながら母親とLINEをしていた時のやり取りがまさしくこれです。 前後の流れとしては今日は有給取って川崎来てるんだよね(ラチッタデッラの画像を見せる)→おしゃれな場所じゃん→パンケーキべてるよ(スクショ部分)→美味しそうだね〜→今度東京遊

    ツイートはバズらない方がいい - バイブログ
    seal2501
    seal2501 2024/03/12
    “自分のことを理解してくれないのが悪いと怒るのは流石に身勝手”