株式会社ジーワンシステムの代表取締役。 新しいものを生み出して世の中をあっといわせたい。イノベーションってやつ起こせたらいいな。 リクエストがあったので、OracleでN-Gram(今回は2-Gram バイグラム)で顧客を抽出するSQL&ストアドプロシージャを作ってみました。 全文検索ではありますが、Googleなどであればキーワードとキー(GoogleはURL)ごとにあらかじめスコアリングしています。それで、実際には上から×××件(スコアーの低いコンテンツは無視され漏れる)という仕組みになりますが、50万人ぐらいの顧客の中から、特定の顧客を特定するような処理であれば、スコアリングはできないし漏れることはマズイのでそれほど高速にはできません。たかだか50万件ではもともと速いから、パフォーマンス的にはあまり効果はないかも。 また、N-Gramは、ゴミを拾い易い検索方式ですが、チューニングしだ