タグ

トライ木に関するshunkeenのブックマーク (1)

  • 正規表現を追い抜かせ!トライ木で複数固定文字列の探索をしてみた

    はじめに こんにちは。GMO NIKKOのshunkiです。当記事は次の記事に触発されて書いています。よろしければ先にご覧ください。 GMO NIKKOのT.Iです。今回は当社のTRUE データフィードで使用している正規表現検索の効率化についての記事となります。前提(背景と目的)まずは宣伝(笑)当社公式サイトでは上記となっていますが、簡単にいうと・クライアントからデータを預かる・預かったデータを広告媒体毎のフォーマットの変換する・変換したデータを指定された場所に送信するということをやっています。その中のデータの変換時に禁止文言が入ったデータを行ごと除外するということをやっています。大量のデータに禁止文言が入っているかをチェックする必要がある... この記事では、複数文字列の探索について、正規表現よりもトライ木を使った方が速いことを確かめます。最初に問題設定を共有します。次に忙しい人向けにベ

    正規表現を追い抜かせ!トライ木で複数固定文字列の探索をしてみた
    shunkeen
    shunkeen 2022/02/05
    セルクマ。星なしの正規表現のみを解釈する非巡回DFA型エンジンとか見てみたい
  • 1