俺自身は「インタフェース」派なんだけどさ・・・ 前回の方式の問題 さて、前回のエントリ(similarityをつかったゆるいbi-gram検索 - 日々の記録 別館)で、N-gramのゆるい検索の一番基本的なパターンを示したのだけど、この方式にはまだまだ問題がある。 前回はトークン辞書内に「センヌリティウス」に類似する語が一つ(「セリヌンティウス」)だけだったので、問題はなかったのだが、類似する語が複数存在すると、サブクエリで返却されるレコードがN件になるためエラーになってしまう。 で、エラーを抑止するためにサブクエリ内でLIMIT 1で1件しか返却しないようにすれば、とりあえずの問題は回避できるのだが、そのやり方では、以下の様なケースに対応しきれない・・・ 表記ゆれが多数存在するケース 日本語外来語には、この表記ゆれが多数存在するケースがしばしば見受けられる。 例えば、代表的なものとして