タグ

ブックマーク / www.analyze-world.com (2)

  • 機械学習を使って東京23区のお買い得賃貸物件を探してみた 〜前処理編〜 - データで見る世界

    さて、前回のブログで足立区の賃貸物件を取得しました。 www.analyze-world.com 同様にして、東京都23区の物件も取得してしまいましょう。今回僕が取得したところ、合計で200,060件になりました。csvファイルで70MBほどですので、Excelだと重すぎて処理スピートがかなり遅いです。いい感じにビッグなデータが手に入ったんじゃないでしょうか。 物件情報を取得したはいいものの、このままだと分析をまわせないので、前処理を施します。今回の最終目標はお買い得物件を探すことなので、応答変数は賃料が主な指標になりそうです。賃料に対して、それぞれのカラムがどのように効いてくるかを考慮しながら処理していきます。 今回使うライブラリはpandasとnumpyだけです。それぞれ区別に保存しておいたファイルを結合して一つのファイルを形成します。 #必要なライブラリをインポート import p

    機械学習を使って東京23区のお買い得賃貸物件を探してみた 〜前処理編〜 - データで見る世界
    kmiura
    kmiura 2017/11/22
    リアルな世界をどうやって数値世界に対応させていくか、という点が分析の鍵だと思うけど(生物はこれが大変)、この点なるほど、賃貸情報を選んだのは選択眼がよかったのだなー、と思わせる前処理。
  • 機械学習を使って東京23区のお買い得賃貸物件を探してみた - データで見る世界

    さて、改めて今回の目的を確認しておくと、機械学習を使って東京都23区のお買い得賃貸物件を発見しよう、というものです。前回までの記事で、お買い得賃貸物件を発見するためのデータを収集し、分析にかけられるよう前処理してきました。 www.analyze-world.com www.analyze-world.com 今回の記事では、いよいよ機械学習を使って分析していきましょう。前回まではPythonを使っていましたが、この分析ではRを用いています。なお、コードはGitHub(https://github.com/ShoKosaka/Suumo)に上げておきますので興味ある方は参照ください。 最初に、データの中身をざっくり見ていきます。具体的には、分析のキーになるポイントをグラフにしながら、賃貸物件の現状や変数同士の関係性を把握していきます。 データ探索 まず、23区の中でどこが物件数が多いのかを

    機械学習を使って東京23区のお買い得賃貸物件を探してみた - データで見る世界
    kmiura
    kmiura 2017/11/10
    おもろーい。どの辺りで見切りをつけて次に進むのか、とかがよくわかる。
  • 1