タグ

ブックマーク / smrmkt.hatenablog.jp (3)

  • ビッグデータの成熟期に改めて見直したいETL - About connecting the dots.

    Hadoopが出てきてから10年,ビッグデータという言葉が流行り始めてからでも5年以上が経ち,2016年現在では,Hadoopエコシステムを使ったデータ活用が当たり前のものとしてあります.とはいえ巷に出回っているビッグデータ活用事例というのは,綺麗な上澄みだけをすくい取っていたり,リリースしたてのピカピカのときに発表されていたり,というのが大半で,それが結構個人的に気にわなかったりします. ビッグデータが当たり前のものになっている現在においては,単に作っただけで価値があるというフェーズは過ぎ去っていて,継続的に運用しながら価値を生み出し続けることが,非常に重要な問題だと思います.特にビッグデータ界隈はミドルウェアやツールの陳腐化が激しく,またビジネス自体の変化速度も過去と比べてどんどん速くなっているわけで,そういった変化に対応していくためには,また別のスキルが必要とされるのではないでしょ

    ビッグデータの成熟期に改めて見直したいETL - About connecting the dots.
    showyou
    showyou 2018/09/04
  • 中古マンション売買データを分析してみた(1) - 築年数と駅からの距離は価格にどう影響するか - About connecting the dots.

    新しい年度になって消費税も上がったことで,3月までの駆け込み消費*1の反動でマンションとか全く売れていないんだろうなぁと思う今日この頃です*2.個人的な趣味でいうと新築よりは中古派ですので,増税前に無理矢理ローン組んだ人がさくっと数年で手放したのを買うのとかが,味があってよいと思うわけですけれども.2015年に消費税が10%にあがる公算も高そうですしね. さて,先日こんな興味深い記事を拝見いたしました. 徒歩5分vsバス利用、中古マンションの値下がり具合を可視化 - マンションチラシの定点観測 | マンション選びのお役立ち情報ブログ REINSといえば,不動産会社御用達の物件データベースなわけですが,当然のことながら業者専用のデータベースなので,私のような一般の人はみることができません.と思っていたら,上記記事で紹介があるように,中古物件の成約済みデータに関しては閲覧可能なんですね. 上記

    中古マンション売買データを分析してみた(1) - 築年数と駅からの距離は価格にどう影響するか - About connecting the dots.
  • kaggleで予測モデルを構築してみた (5) - Rで行うMultipleImputation - About connecting the dots.

    ということで,前回で触れたように,データの前処理を実際に行っていきたいと思います.その中でも今回は,欠損値補完についての話をしていきます. 今回のデータでは,NAが含まれているageのデータを補完する必要があります.とはいえ,欠損値を補完するにもいくつか方法があって,どの補完を行うのが妥当かというのを考えなければいけません.そこでまず,欠損値がどういう性質を持っているかについてみていきましょう. 欠損のメカニズム 欠損のパターン データの欠損には大きく分けて3つのパターンがあります. Missing Completely At Random(MCAR):完全にランダムに欠損が生じているもの Missing At Random(MAR) :データ欠損が,データに含まれるほかの変数と関連はしているが,その影響を取り除いた自分自身の値とは関連していないもの Missing Not At Rand

    kaggleで予測モデルを構築してみた (5) - Rで行うMultipleImputation - About connecting the dots.
  • 1