エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
【Python】不動産データに対して編集距離から類似度を計算してみた - Qiita
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
【Python】不動産データに対して編集距離から類似度を計算してみた - Qiita
はじめに こんにちは!株式会社estie(エスティ)でデータエンジニアをやっているいっしーです。 本日はpy... はじめに こんにちは!株式会社estie(エスティ)でデータエンジニアをやっているいっしーです。 本日はpython-Levenshteinライブラリを使って不動産データの類似度を簡単に計算できないか検証を行いたいと思います。 背景 不動産データを扱う際に気をつけたい点としてデータの表記揺れに対してどう向き合うかが重要になってくると思います。estie(エスティ)のような不動産のデータプラットフォームを構築していると、どうしても異なるデータソースから取得するビルの名称に表記揺れがあったり、住所の記載方法もまちまちなのでデータを管理する際に表記の揺れをどのように吸収するかがデータの質をより良くしていくためのカギとなってきます。 目的 今回の実験は、表記揺れした実際の物件データに対して類似度(編集距離)を算出し定量的に類似の物件データかを判別できないか検証していきたいと思います。 検証概要 今