タグ

データとあとで読むに関するdaitomのブックマーク (3)

  • 整然データとは何か|Colorless Green Ideas

    整然データとは、1) 個々の変数が1つの列をなす、2) 個々の観測が1つの行をなす、3) 個々の観測の構成単位の類型が1つの表をなす、4) 個々の値が1つのセルをなす、という4つの条件を満たした表型のデータのことであり、構造と意味が合致するという特徴を持つ。R言語などを用いたデータ分析の際には非常に有用な概念である。 はじめに データ分析の際には、データが扱いやすい形式になっている必要がある。データの中身がぐちゃぐちゃになっていたり、データの形式が統一されていなかったりすれば、分析は骨の折れる作業となる。 それでは、どのようなものがデータ分析において扱いやすい形式のデータになるのだろうか。この問題に対する唯一の正しい解答というものは存在しない。しかし、表の形式で表すことができるデータを考える場合、ハドリー・ウィッカム (Hadley Wickham) 氏が提唱した整然データ (tidy d

    整然データとは何か|Colorless Green Ideas
  • 機械学習をプロダクトに入れる際に考える採用基準について - yasuhisa's blog

    サービスに機械学習技術(例えばSVM)を入れる際に、「この機械学習技術番サービスに投入しても大丈夫なものか?」を考える基準がまとまっていると人に説明するときに便利だなとふと思ったのでまとめてみました。散々言われ尽くされている話だとは思います。 前提 考慮に入る採用基準 予測精度 (コードの)メンテナンスの容易性 計算オーダー 学習時 予測時 挙動のコントロールのしやすさ/予測説明性の容易さ チューニングの必要性 その他 まとめ 前提 機械学習がプロダクトの主要な武器になる(例えば最近話題になっているGoogle翻訳におけるNMT)ものではなく、サービスにデータがまずあり、機械学習でデータを活用することにより、そのサービスを支えていくようなものを前提に考えています(例えばCGMサービスのスパム判定)。また、投稿内容は私個人の意見であり、所属組織を代表するものではありませんとお断りしておき

    機械学習をプロダクトに入れる際に考える採用基準について - yasuhisa's blog
  • 日本人のお金の使い方がまるわかりになる全国消費者実態調査データ | 初代編集長ブログ―安田英久

    今日は、世の中の人がどんなお金の使い方をしているのかを全国で調査したデータを紹介します。市場調査を行うにあたって参考になるかなり詳細なデータを入手できます。しかも無料で。 「30代の男性は書籍や雑誌に1か月あたり何円使っているのか」「ケータイの通信費は、年齢層でどれくらい違うのか」「緑茶と紅茶とコーヒーと、それぞれいくらぐらい使っているのか」「やシャツや下着に使っているお金は?」「CD・DVDやゲームにはどれくらいお金を使っているのか」「映画や遊園地や温泉にはみんなどれくらい行っているのか」こんなデータがあればいいと思いませんか? それがあるのです。 そのデータとは、総務省統計局が行っている「全国消費実態調査」。 平成21年全国消費実態調査(統計局)全国消費実態調査とは、国民生活の実態について、家計の収支や貯蓄・負債、耐久消費財、住宅・宅地などの家計資産を総合的に調査し、世帯の消費・所得

    日本人のお金の使い方がまるわかりになる全国消費者実態調査データ | 初代編集長ブログ―安田英久
  • 1