タグ

分析とデータサイエンスに関するhigh190のブックマーク (3)

  • 計量テキスト分析およびKH Coderの利用状況と展望

    筆者はテキスト型 (文章型) データの分析方法「計量テキスト分析」を提案し, その方法を実現するためのフリーソフトウェア「KH Coder」を開発・公開してきた. 現在ではKH Coderを利用した応用研究が徐々に蓄積されつつあるように見受けられる. したがって現在は, ただ応用研究を増やすのではなく, KH Coderがいっそう上手く利用され, 優れた応用研究が生み出されることを企図しての努力が重要な段階にあると考えられる. そこで稿では, 現在の応用研究を概観的に整理することを通じて, どのようにKH Coderを利用すればデータから社会学的意義のある発見を導きやすいのかを探索する. この目的のために稿では第1に, 計量テキスト分析およびKH Coder提案のねらいについて簡潔に振り返る. 第2に, KH Coderを利用した応用研究について概観的な整理を試みる. ここではなるべく

  • 統計解析の再現可能性を高める取り組み

    統計解析の再現可能性を高める取り組み 1. 統計解析の再現可能性を 高める取り組み 専修大学人間科学部心理学科 国里愛彦 2017/7/8 臨床疫学研究における報告の質向上のための統計学の研究会 第30回「Rを用いたデータハンドリング入門:効率的かつ再現性の高い統計解析のための第一歩」 2. 再現性の危機 • 心理学研究 のうち再現されたのは • 引用数が多く効果があるとされた臨床医学研究 のうち再現されたのは • 名の調査から, が他の研究者の研究を再 現できず, が自分の研究の再現もできなかった 3. と • 再現可能性 :ある現象が他の研究者 が行った研究でも再現されること(新規なデータ収 集あり) • 再生可能性 :データから解析結果 が再生できること(新規なデータ収集なし。コードや データの共有などで確認する) →今回は,再生可能性について扱う Peng, R. D.

    統計解析の再現可能性を高める取り組み
  • データサイエンスだらけの桃太郎 - oscillographの日記

    昔々あるところに分析からの示唆出しが趣味のおじいさんと特徴量生成が得意なおばあさんがいました。 おじいさんはオンプレサーバーへ定時確認に、おばあさんはクラウドサーバーへ重要指標のモニタリングに行くと、フルマネージドなデータベースから外れ値の桃群が現れました。 「こんな桃群は見たことがない。gzip圧縮してローカルで中身を見てみよう」 持ち帰った桃群をローカルで解凍してみると、中からメモリに乗り切らないサイズの赤ん坊が出てきました。 赤ん坊はExcelで開けなかったので、おじいさんとおばあさんはBig Queryで分析しました。 二人はこの赤ん坊を 「桃.gzから生まれたので桃太郎と名付けるのが妥当だろう。」 と考えて桃太郎と名付けました。 桃太郎はPRML片手にPythonでプログラミングをしながらすくすく育ち、立派なデータサイエンティストになりました。 成長がサチった桃太郎はある日おじい

    データサイエンスだらけの桃太郎 - oscillographの日記
    high190
    high190 2018/07/16
    いきなりw'"分析からの示唆出しが趣味のおじいさんと特徴量生成が得意なおばあさんがいました"
  • 1