2019年2月3日のブックマーク (3件)

  • 文系のための「相関係数のt検定」

    相関係数について「0.2以下だから相関は無い」とか、逆に、 「0.7以上だから相関があると言える」などという人が居る。 中には、詳しい解説をせずに、そのように記述する教科書もある。 当にそれで大丈夫なのだろうか?一つの疑問が沸々と湧いてくる…。 対象の数が少ないと「偶然」に相関係数が高くなることがあるのではないか? そうなると、対象の数が少ない場合を考慮した方法を考えなくてはならない。 ということで、今回は確率の力を借りてこの問題を考えてみる。 確率と言えば、正規分布というものがあったが、 正規分布以外にも、分布には様々な種類が存在する。 様々にありすぎて覚えきれないほど、多く存在するのであるが、 相関係数の有意性を評価する方法の一つに「t 分布」を使う方法がある。 t 分布は、ある値を基準にどのように他のデータが散らばっているか? という状況を表すための分布関数と言える。 正規分布では

    pisle
    pisle 2019/02/03
    corr.test()の戻り値にあるp値って何なのっていう疑問が解消された
  • ネット利用時間の最多はフィリピン、最少は日本 国際調査

    各国別のインターネットの利用時間の調査でフィリピンが1日約10時間と最多に/Kyodo News via Getty Images (CNN) 世界各国別のインターネット利用の消費時間に関する調査報告書は2日までに、昨年は1日当たり平均で10時間2分を費やしたフィリピンが首位だったと発表した。 2位はブラジルの9時間29分で、タイの9時間11分、コロンビアの9時間、インドネシアの8時間36分などが続いた。最少は日で3時間45分。世界での平均時間は6時間42分だった。 米国は平均で6時間31分、中国は5時間52分だった。 「デジタル2019」と称する調査はソーシャルメディア管理システム企業「フートスイート」などが実施。調査報告書の作成は、国連、米国の国勢調査、世界銀行や市場調査企業「グローバル・ウェブ・インデックス」などのデータに頼った。 ネット利用時間はソーシャルメディア経由が目立ち、フ

    ネット利用時間の最多はフィリピン、最少は日本 国際調査
    pisle
    pisle 2019/02/03
    質問紙調査なら、社会的望ましさが反映されやすいテーマではある。日本は特に、ネット=良くないみたいなイメージが残ってるこトもあるし、そのせいで回答時間を低く見積もったのかも?
  • 機械学習の数理: 学部の講義で出した100問の演習課題 – Joe Suzuki (鈴木譲) 公式ブログ

    機械学習の数理100問の改訂版 (2019年2月24日)。 2018年度の講義も残りわずかになった。 私が着任した昨年度から、基礎工学部情報科学科数理科学コース3年「計算数理B」で、機械学習の数理に関する講義を行っている。その中で、計算数理B100問 を学生に解かせている。 線形回帰 ロジスティック回帰と判別分析 クロスバリデーションとブートストラップ 情報量基準 スパース推定 非線形 決定木 サポートベクトルマシン 教師なし学習 機械学習の演習と言うと、参加費が◯十万円の企業のセミナーなどでも、中身を理解させないで、データを流し込むだけのものが多い。そういうのをみると、頭を使わない勉強方法を奨励しているように思えてならない。この100問は、理論(簡単な数式の証明)だけでなく、R言語でかかれたソースプログラムを理解するようにしている。 データサイエンスの人材が◯万人不足すると指摘する声は多

    pisle
    pisle 2019/02/03