タグ

ブックマーク / smrmkt.hatenablog.jp (3)

  • 中古マンション売買データを分析してみた(2) - 路線と駅による中古売買価格の違い - About connecting the dots.

    というわけで前回予告した通りに,引き続き川崎横浜の中古住宅についてみていきましょう.今回のテーマは路線と駅,です.その中でも個人的な興味は,特に東横線プレミアムってやつは存在するのか,というものです*1.実際,東横線沿いの住宅ショールームとかみにいくと,立地や都心アクセスがそこまでずば抜けてるわけでもないのに,やたらに値段の高い物件とかあるわけです.そういうときに営業さんに高いっすねーというと,大概「東横線ですから」とか「万が一中古で手放すときでも値下がりしないですよ」とか言い放ってくるパターンがそれなりにあります.まぁそんなわけで,今回は路線と駅によるブランド力を検証したいと思います. モデル 仮説を検証するためのモデルについてですが,今回は路線と駅を使って線形モデルを組み立てます.データに含まれる路線と駅は,それぞれ23路線,133駅と結構な数があるため,これをそのまま通常の回帰モデル

    中古マンション売買データを分析してみた(2) - 路線と駅による中古売買価格の違い - About connecting the dots.
    kazutan711
    kazutan711 2015/07/31
  • データ分析における不確実性と変動性の違い - About connecting the dots.

    仕事をしていてデータを意思決定に用いる場合,データから予測されるシミュレーション結果が,どの程度信頼できるかということを判断する必要があります.例えば前期に20回実施して,14回は想定通りの効果が得られ,残りは失敗した施策があるとして,これを今期実施したらどの程度成功して,いくらの売り上げになるのか,みたいな場合です. これを職場の偉い人に説明しにいくときに,予測売り上げをわかりやすく説明する必要があります.もちろん予測ぴったりになるとは限らないので,ある程度のレンジをもって伝えるわけですが,このときに,できるだけレンジの幅を縮めたり,また説明性を高めたりしないといけないわけですね.この予測のレンジについて,変動性と不確実性の2種類に区分することができます,というのが今回のネタです.元ネタはこちらのになります*1. 入門リスク分析―基礎から実践 作者: デビッドヴォース,David Vo

    データ分析における不確実性と変動性の違い - About connecting the dots.
  • kaggleで予測モデルを構築してみた (5) - Rで行うMultipleImputation - About connecting the dots.

    ということで,前回で触れたように,データの前処理を実際に行っていきたいと思います.その中でも今回は,欠損値補完についての話をしていきます. 今回のデータでは,NAが含まれているageのデータを補完する必要があります.とはいえ,欠損値を補完するにもいくつか方法があって,どの補完を行うのが妥当かというのを考えなければいけません.そこでまず,欠損値がどういう性質を持っているかについてみていきましょう. 欠損のメカニズム 欠損のパターン データの欠損には大きく分けて3つのパターンがあります. Missing Completely At Random(MCAR):完全にランダムに欠損が生じているもの Missing At Random(MAR) :データ欠損が,データに含まれるほかの変数と関連はしているが,その影響を取り除いた自分自身の値とは関連していないもの Missing Not At Rand

    kaggleで予測モデルを構築してみた (5) - Rで行うMultipleImputation - About connecting the dots.
  • 1