タグ

ブックマーク / www.anlyznews.com (6)

  • ビッグデータの時代は終わった

    Google社のデータウェアハウス事業BigQueryのエンジニアで、唯一のエヴァンジェリスト役を任されていたJordan Tigani氏が、ひとつの計算機では格納し処理しきれないビッグデータの時代は終わった(Big Data is Dead)、データをひたすら蓄える方法ではなく、データを意思決定に活用する方法を考えましょうとブログのエントリー*1で主張している。 一部界隈で機械学習を用いたデータサイエンスへの批判のように捉えられていた気がするのだが、どちらかと言うとMapReduceやHadoopといった2000年代後半に流行ったデータウェアハウスのソリューションに関する話であった。むしろビッグデータをやめて、機械学習を自由に使えるようにしようと言うような話。もう少し詳しく内容を紹介(意訳でも妙訳でもない)すると、以下となる。 多くの企業はビッグデータを扱っていない。何十年か前は時間とと

    ビッグデータの時代は終わった
  • 偉い人にぜひ読んで欲しい『測りすぎ—なぜパフォーマンス評価は失敗するのか?』

    人事にしろ投資にしろパフォーマンスは評価せざるをえないし、客観的に見える測定基準の指標に頼ってしまうのが世の常だ。しかし、往々にして指標をつくるためには時間も労力がかかるし、指標を報酬や罰則に連動させると評価される方は組織の目標と乖離した結果になっても指標にあわせて行動を最適化しだす傾向がある。 『測りすぎ—なぜパフォーマンス評価は失敗するのか?』は、経済学者でもなく社会学者でもなく何故か歴史家がこういうあるある失敗メカニズムについてまとめて総括したになる。売り文句通り、パフォーマンス評価の基準をつくる経営者や管理職、行政の偉い人々は一読する価値があると言うか、3回ぐらい読み返して欲しい。 書は、測定の誤った運用になるパフォーマンス評価がなぜ横行しだしたのか、それがどのような理屈でどのような弊害を引き起こすのか、実際にどのような弊害が生じたのかを説いた上で、測定基準の導入で失敗しないよ

    偉い人にぜひ読んで欲しい『測りすぎ—なぜパフォーマンス評価は失敗するのか?』
    pero1
    pero1 2019/09/18
  • インターネットの「通信の秘密」に関する法律問題について

    インターネットは名誉毀損やプライバシー侵害行為、著作権侵害行為などが深刻化しやすく、侵害行為を行なっている者や機材が国外にある場合もあり、取り締まる難易度や費用は低くない。そもそも、被害の原状回復が難しいことが多い。 そこで、ネットワークの設定で通信遮断をして、迅速にこれらの被害拡大を止めようと言う動きがある。実際、児童ポルノ対策ではブロッキングがされる事になった。著作権侵害行為に大しても同様の措置を取ろうという動きも強くなりつつあり、それに対する反対の声があがっている。 さて、反対派の理屈で主なものは電気通信事業法第4条もしくは、その条文の目的とされる憲法第21条の通信の秘密を遵守せよというものだ。インターネットの通信を成立させるために電気通信事業者(の機材)が当然知りうる類の情報(IPアドレスやURI)においても適用され、通信行為を成立させるために用いる行為においては、正当業務行為を違

    インターネットの「通信の秘密」に関する法律問題について
  • 機械学習をやる前に学んでおくべき最低の数学

    機械学習を勉強する前に学んでおくべき最低の数学の範囲について、あれこれ議論されている*1。この手の議論、なかなか不毛である。ライブラリをブラックボックスとして使う分には、数学の知識はほぼ不要。中身を考えながら使うには、大学の学部の微分積分と線形代数と確率・統計の教科書をまずは頑張れと言う自明な話になるからだ。 1. ライブラリの利用に数学はほぼ要らない 当にライブラリ利用者としては、数学の知識をほとんど要求されない。例えばSVMの分類器を構築するのに、プログラマが指定する必要があるのは、分類先と識別のための特徴量が入った学習データと、データの項目間の関係を説明する文、チューニングするのに使えるオプションが幾つかあるぐらいだ。オプションは経験的に精度が良くなるように選ぶ。これはランダムフォレストなどでも同じになる。 ディープラーニングのライブラリ、TensorFlowだと行列形式の乗算と加

    機械学習をやる前に学んでおくべき最低の数学
  • 銀座で働くデータサイエンティストのモデル選択について

    『今さら人に聞けない「重回帰分析の各手法の使い分け」 』と言うブログのエントリーがあって、一般化線形モデル(GLM)の使い分け(Rの関数glmとパッケージMASS)の説明がされているのだが、理系実験室から出てきた人のせいか、色々と怪しく感じる所がある。純粋文系プログラマとして問題点を指摘してみたい。 1. 離散データだから最小二乗法が使えないわけではない 全体として、モデルの説明がおかしい。推定モデルの使い分けが良く分かってい無い気がする。問題のエントリーには、『クリック数という「カウントデータ=離散値データ」』だから『普通の線形回帰』と表現されている一般最小二乗法(OLS)は正しく推定できない可能性があるので、ポアソン回帰モデルや負の二項分布回帰モデルにしようと言っている。しかし、離散データでもプロビットのような二項/多値選択モデルであったり、切り落としのトービット・モデルで無い限りは、

    銀座で働くデータサイエンティストのモデル選択について
  • 統計モデルに観測値と観測値の割り算値を入れても問題ない

    『「データ解析のための統計モデリング入門」6.6章 割算値はなぜダメなのか?』と言うエントリーが出ていて、タイトルにある署名のの6.6章「割算値の統計モデリングはやめよう」に、タイトルの通りの疑問が呈されていた。 問題のは生物系研究室の常識が詰まっているようなのだが、一般の統計利用ではやや窮屈な側面もあるようで、以前も離散データだから最小二乗法が使えないと言うような誤解を招いていた。今回の御題は統計モデルに観測データ同士の割り算値を持ち込めるかと言う事だが、大半のケースでは問題ないから気にするのはよそう。 「比率にすることで元のスカラー値の情報が失われる」と言うのは、計量モデルで何を見たいかと言う問題で、例えば男女比が学級崩壊を引き起こすかのような仮説を立てたら、観測データ同士の割り算値を持ち込まざるを得ない。経済系はもちろん、実験データの処理などでも見かける操作である。みんなガシガシ

    統計モデルに観測値と観測値の割り算値を入れても問題ない
  • 1