検索プラットフォーム事業部エンジニアの相澤です。 普段はPostgreSQLで複数の旅行会社のデータをまとめるような処理を取り扱っています。 弊社の得意な分野はまさに旅行系の「複雑かつ膨大な」在庫・料金などのデータ処理なのですが、これを高速に扱えるのであれば、他の部分に目が行くのがエンジニアのサガ。 そこで、様々な会社から入稿される施設データの中で特に厄介なものである、「フリーテキスト入力」をなんとか綺麗にできないかと考えました。 前がたり 旅行会社が持つ情報というのは、「電話番号」「緯度経度」「郵便番号」「住所」「禁煙・喫煙/露天風呂/インターネット環境/WiFi etcの有無」「バリアフリー/幼児/ペットetcの対応状況」というものになっているのですが、電話番号・郵便番号・緯度経度は数字の全角半角の表記ゆれがある程度でデータ管理がしやすいのに対し、施設名・住所は大抵の場合、入力する人が
![施設のフリーテキスト入力の住所をPostgreSQLの文字列置換で立ち向かう](https://cdn-ak-scissors.b.st-hatena.com/image/square/1ed6d6b38adf3c6cd46bdd3d3783a23414dc6520/height=288;version=1;width=512/https%3A%2F%2Fwww.forcia.com%2Fblog%2F2019%2F12%2F12%2F1217.png)