2013年10月30日 16:45 検索されるキーワード(検索クエリ)のデータには、大文字と小文字、半角と全角、掛け合わせの順番、スペルミス、類義語など、無数のバリエーションが含まれます。 「念のため一番細かい情報を全部取っておきたい!」 と思うかもしれませんが、細かすぎるデータは分析が大変になります。まとめると順位が変わることもよくあります。 そのため、収集する時点である程度バリエーションを減らしておくと便利です。 そこで今回紹介するのは... 検索クエリのフォーマットや順番を揃えてデータの粒度を落とす方法 タイトルでは分かりやすく「名寄せ」と書きましたが、「似ているテキストデータを単純な変換によってまとめる」という意味です。 ページがロードされた時にリアルタイムで処理するので、単純なクレンジングのみを行います。 処理する内容 英数字と記号を半角に統一する アルファベットを小文字に統一す