タグ

dataScienceに関するtnalのブックマーク (15)

  • Practical Data Science with R and Python: 実践的データサイエンス

    実践的データサイエンス はじめに データ分析のためにコンピュータを利用する際、RおよびPython言語のいずれかを使うことが多いと思います(Julia言語は高レベル・高パフォーマンスな技術計算のための言語で今後期待が膨らみます)。これらの2つの言語では、データ操作や可視化、データ分析、モデリングに使われるライブラリが豊富にあり、 どれを使うのが良いのか迷うような状況が続いていました。しかしその状態は落ち着きを見せ、成熟期を迎えつつあります。 R言語ではパイプ演算子の登場によりデータフレームに対する操作に大きな変化が生じ、tidyverseによるデータ読み込みからデータ整形、可視化までが可能になりました。またtidyverseのような、機械や人間の双方が扱いやすいパッケージが増えてきました。特にR言語の強力な一面でもあったデータ分析の操作はtidymodelsに代表されるパッケージがユーザの

  • データ分析の不思議、シンプソンのパラドックスを統計的因果推論から考える - Unboundedly

    今回は統計学で有名な「シンプソンのパラドックス」という問題について紹介したいと思います。簡単にいえば、同じデータでも分析の仕方によって全く矛盾したように見える結果が得られるというお話です。データだけ見ると、信じがたいような直感に反する現象がおきるので頭の体操としてとても面白いです。 あまりに有名なパラドックスであるため日語でも解説がいくつか出ていますが、人によって言っていることが違っていたり、不完全であったりします。多くはシンプソンによるオリジナルの論文を読んでないことから起因するのだと思います。 例えばシンプソンのパラドックスを交絡の問題だと捉える人は多いですが、個人的に不完全だと思います(間違いではない)。このように誤解が広まった歴史的背景も含めて、詳しく書いていきたいと思います。ちなみにアニメのシンプソンズはこの問題と全く無関係です。 そもそもシンプソンのパラドックスとは? シンプ

    データ分析の不思議、シンプソンのパラドックスを統計的因果推論から考える - Unboundedly
  • R&D部部長が語る、ホットリンクにおける「データサイエンティスト定義と求められるスキル」の話|#ホットリンク

    R&D部部長の 榊 です。今日は、当社におけるデータサイエンティストの定義と求められるべきスキルセットについて話したいと思います。 概要 下図のように当社における「データ分析を活用したSaasを開発する場合のデータサイエンティストの定義」を作りました。 既存の3つの定義から、良い部分を拝借しました。 各社ごとに、自社にあったデータサイエンティストを定義しておくのが重要ではないか? はじめに 当社は、「データとAIで意思決定をサポートする」を事業ミッションとして掲げており、特に去年から人工知能技術 (※) に長じた人材、言い方を変えればデータサイエンティストの採用と育成に力を入れてきました。しかし、特に社内で「データサイエンティストとは何か」の定義などを作ることもなく、当社に必要な人材のスキルを列挙し、そちらを募集要項に書くことで満足していました。 そんな中で、某強面の役員から、ある日 「そ

    R&D部部長が語る、ホットリンクにおける「データサイエンティスト定義と求められるスキル」の話|#ホットリンク
  • Python Data Science Handbook | Python Data Science Handbook

    This website contains the full text of the Python Data Science Handbook by Jake VanderPlas; the content is available on GitHub in the form of Jupyter notebooks. The text is released under the CC-BY-NC-ND license, and code is released under the MIT license. If you find this content useful, please consider supporting the work by buying the book!

  • データサイエンス関係のpodcastをまとめてみた | 10001 ideas

    最近盛り上がりを見せるデータサイエンス界隈。 様々なpodcastが存在しているが、あまり言及されることが無いようなのでここでまとめておく。 割と更新頻度が高いものを中心に選んだつもりなので、これらを購読すれば聞くものが無いという状態にはなかなかならないかと思う。 言語は英語なので、データサイエンスの最新動向を知るのとともに英語の勉強にも使えるかと思う。 日機械学習エンジニアと研究者が世界と戦うための一助になれば幸いです。 Super Data Science

    データサイエンス関係のpodcastをまとめてみた | 10001 ideas
  • アーバンデータチャレンジ 沖縄ブロック

    全国40拠点が、交流しながら、地域のために活動! ​特に優良な活動には全国イベント(石川県、東京都)での発表機会を! コンテストで入賞すると最大賞金50万円! 企業・自治体・大学等のメンバーがともに活動し、支援! 沖縄ブロック テーマミーティング11月度開催! 2017年11月7日 (火) 18時30分~21時  @天久ヒルトップ 地域交流室 ​ 9月に行なったワークショップにて課題の共有・分析・アイデア出しを行いましたが、いよいよ格的に課題解決にむけ実践のフェーズに入っております。今回10月に引き続きテーマごとの検討ミーティングを実施します。 既に、地域の課題と手段を持った人々が集い、全国シンポジウムや沖縄での活動発表、コンクールへのエントリーに向け以下の2チームが活動を始めていますが、この中から、新たなビジネスや人材が育ち、地域全体が活性化することを期待しています。 また、随時、新し

  • 富士通、生徒の発言をリアルタイムでテキスト化する教育向け実証実験

    富士通、東京大学 大学発教育支援コンソーシアム推進機構(CoREF)、埼玉県教育委員会、河合塾の4団体は5月26日、埼玉県内の公立高校と河合塾において、対話型の授業における学習者の発話と手書きメモをデータ化して蓄積し、生徒ごとの発話の量と内容を授業改善に役立てる実証研究を2016年6月から2017年3月まで実施すると発表した。 同研究では、富士通が提供するアプリケーションを利用し、対話型授業におけるグループ学習などの各学習者の発話や手書きメモの内容をリアルタイムでテキストデータ化して蓄積する。発話内容テキストは、学習者ごとの発言量の推移をグラフ化した発話量グラフとともに教員のタブレットに表示され、手書きメモのテキストデータは、メモした学習者人と教員が閲覧できるため、教員は、発言が少ない生徒でも、どのようなメモを取ったか確認できる。 4団体は、公立高校、および河合塾のさまざまな科目において

    富士通、生徒の発言をリアルタイムでテキスト化する教育向け実証実験
  • 総務省統計局 データサイエンス・オンライン講座 社会人のためのデータサイエンス演習

    第1週:データサイエンスとは ・データサイエンスの発展 ・社会で起きている変化~データサイエンスの必要性~ ・データサイエンスに求められるスキルや知識 ・データサイエンスの未来と発展 ・データサイエンスのサイクルと課題解決の進め方 ・分析の手法の選択 第2週:分析の概念と事例 ~ビジネス課題解決のためのデータ分析基礎 (事例と手法)(1)~ ・Analysis(分析)とは ・1変数の状況の把握(1)(可視化の活用) ・1変数の状況の把握(2)(代表値の活用) ・比較して2変数の関係を見る ・ビジネスにおける比較(1)(概要) ・ビジネスにおける比較(2)(適切なA/Bテストの活用) 第3週:分析の具体的手法 ~ビジネス課題解決のためのデータ分析基礎 (事例と手法)(2)~ ・クロス集計の軸設定と見方 ・散布図と相関の調べ方 ・相関関係と因果関係の違い ・時系列データの見方 ・時系列データの

    総務省統計局 データサイエンス・オンライン講座 社会人のためのデータサイエンス演習
  • Dラボ

    条件を指定する(※2つ以内推奨) 10%OFFコンビニ後払い郵便振替送料無料返金保証あり解約保証あり自動引落楽天ペイ店頭販売なし店頭販売あり定額プラン分割払い(カード不要)代金引換プレゼント付きクレジット払い20%OFFキャリア決済LINE PayAmazon Pay90%OFF80%OFF70%OFF60%OFF50%OFF4000円OFF40%OFF35%OFF3000円OFF30%OFF銀行振込

    Dラボ
  • 学生データサイエンティスト日本一決定戦 Data League <予選> | クラソル | CrowdSolving

    <問題> 2009~2013年,及び2014年5月までのプロ野球選手の各月の打撃成績データを用いて 2014年6月,7月に各選手の年間通算打率がどのように推移していくかを予測してもらいます. <データ> 学習用のデータとして,2009~2013年,及び2014年の5月までの プロ野球の選手別月別の打撃成績実データを提供します. このコンペは,『キャリフル』が主催しています. データは国内外の様々なスポーツデータを取り扱う『データスタジアム株式会社』より提供. 問題は米国のデータ分析プラットフォーム『kaggle』で世界2位を叩き出した水田有一氏が監修しています. なお,選では2014年のMVPを成績データから予測してもらう予定です. MVPは記者投票によって決定され,毎年11月末に発表されます. 【キャリフルとは】 キャリフルは,学生が「スキル」や「ポテンシャル」といった持ち味をみつけ,

  • ビジネス活用事例で学ぶ データサイエンス入門 という本を書きました (その2) - yokkunsの日記

    ビジネス活用事例で学ぶ データサイエンス入門 というを執筆しました! http://amzn.to/SzXjpe まだ発売前ですが、前回に引き続き、少しだけ中身を紹介してみたいと思います。 興味がありましたら、是非ご予約ください! 2.ビジネスにおけるデータ分析フロー データ分析における5つのフロー ビジネスにおけるデータ分析の目的は、ビジネスで発生したさまざまな問題を統計解析や機械学習、データマイニングの各種方法論を駆使して解決することと言えます。 ここで気をつけたいのが、あくまでも問題解決が目的ということです。 たとえば、データ分析専任の会社に分析を依頼したら、やたら難しそうな大量の資料がでてきた。 結論はよく考えると当たり前のことだった、といったことはないでしょうか? 学術の分野からデータ分析者となった分析者、あるいはビジネスを熟知していない外部組織の分析に頼るときに良く起きる現象

    ビジネス活用事例で学ぶ データサイエンス入門 という本を書きました (その2) - yokkunsの日記
  • データサイエンティストに必要な3つのスキル | quipped

    久しぶりにタイトルで釣りにいっているが、ブラウザの「戻る」ボタンを押さないでくれw ... ... ... (よし、まだ「戻る」ボタンを押してない!) ぼく自身、データサイエンティストだったことはないが、一応大学では数学を勉強していたし、金融でクオンツトレーダーもやっていたし、人生3回分(と言ったら言い過ぎか)くらいのSQLクエリは書いている。なので、これから書くことは、屋に立ち並ぶ歯の浮く様なビッグデータ談義よりは、普遍的な価値があると自負できる。 もう一つ題に移る前に、「データサイエンティスト」という呼称について感じる両価的な感情について軽く説明したい。 ぼくは幸いにも優秀な同僚や友人に恵まれていて、彼らの中には、データ分析屋さんでありながら、データを集めてきて(広義の)データウェアハウスに突っ込むという非常に面倒くさい一連の作業もちゃっちゃか出来る奴が2、3人いる。そういうマルチ

  • トップ|一般社団法人データサイエンティスト協会

    About us データサイエンティスト協会とは データサイエンティストが活躍する場の確保、拡充を実現し、エンパワーメントする 2013年に発足した当協会は、データサイエンティストに求められるナレッジやスキルの定義、実態調査、ガバメントリレーションを含む情報発信、セミナー・トレーニング・検定プログラム等の提供、他団体との協業などを通じて、データサイエンティストを取り巻く環境を整備してきました。コミュニティ活動などを通し、データサイエンティストやそれを目指す学生や採用する企業、育成する教育機関のみなさまと交流し、業界の発展に貢献していきます。

    トップ|一般社団法人データサイエンティスト協会
  • さらば!データサイエンティスト

    2013/03/28 PFIセミナー「(道具としての)データサイエンティストのつかい方」資料 Ustreamの録画はこちらです→http://www.ustream.tv/recorded/37645309Read less

    さらば!データサイエンティスト
  • Webデータ分析&データサイエンスで役立つ統計学・機械学習系の分析手法10選 - 銀座で働くデータサイエンティストのブログ

    追記 2016年3月に以下の記事によってこの内容はupdateされています。今後はそちらをお読み下さい。 主に自分向けのまとめという意味合いが強いんですが(笑)、僕が実際に2013年6月現在webデータ分析&データサイエンスの実務でツール・ライブラリ・パッケージを利用しているものに限って、統計学・機械学習系の分析手法を10個挙げて紹介してみようと思います。 追記 回帰分析(特に線形重回帰分析) 独立性の検定(カイ二乗検定・フィッシャーの正確確率検定) 主成分分析(PCA) / 因子分析 クラスタリング 決定木 / 回帰木 サポートベクターマシン(SVM) ロジスティック回帰 ランダムフォレスト アソシエーション分析(バスケット分析・相関ルール抽出) 計量時系列分析 おわりに おまけ1:「素性ベクトル+分類ラベル」なるデータ前処理 おまけ2:グラフ理論*10 {igraph}パッケージでグラ

    Webデータ分析&データサイエンスで役立つ統計学・機械学習系の分析手法10選 - 銀座で働くデータサイエンティストのブログ
  • 1