並び順

ブックマーク数

期間指定

  • から
  • まで

161 - 200 件 / 281件

新着順 人気順

統計学の検索結果161 - 200 件 / 281件

  • 統計的検定とか有意とか考えれば考えるほど何もわからない - と。

    統計学はやはり人類には早いと思う 仕事で数理統計学を勉強していて、趣味で統計検定1級を取ろうとしているのですが、 今日は統計的検定の話をしようと思っています。 というのも、これが僕の無知によるものなのか、それとも世間一般に言われる誤解なのかはわからないんですが、 統計的検定ってそもそも一体何であるのかについて、よく理解できた形で 議論をしている場面に出会ったことがあまりないと思ったからです。 この記事ではどうにか「検定するには母集団に対する仮説を持つことが重要ですよ」とか「仮説がふんわりしたところで検定すると危ないですよ」とか話しますが、 具体的に「母集団に対する仮説を雑に決めたことで大きな損失を得た事例」をよく知らないので、 説得力に欠ける話になっています。大きな損失を得た事例持ってる方いたら教えてくだし。 どこまでを話すか? 実際、統計的検定や、その結果の判断軸などについては完成した合

      統計的検定とか有意とか考えれば考えるほど何もわからない - と。
    • 心理統計学の授業で教材に使えるオープンデータ集

      はじめに 統計学の講義や実習の際に使える心理系のデータセットをまとめました。アヤメの分類や経済統計もいいですが、やはり心理学に関連したデータを使う方が心理系の学生には興味をもって統計を学べると思います。ここには私が授業でよく使っているものをリストしました。他に良いものがあれば教えて下さい。 Open Stats Lab https://sites.trinity.edu/osl Psychological Science 誌に掲載された論文のデータが公開されています。データだけでなく、論文の概要や実習の手引きなども揃っています。回帰分析や因子分析など統計手法ごとに分類されているので、教材を選ぶ際にとても便利です。 datarium パッケージ https://rpkgs.datanovia.com/datarium/ R のパッケージです。パッケージをインストールすればすぐ使えるようになる

        心理統計学の授業で教材に使えるオープンデータ集
      • 【マンガ】統計学が最強の学問である 第1話「世の中数字じゃねぇ」|ダイヤモンド社書籍編集局

        ダイヤモンド社書籍編集局の公式noteです。新刊案内、書籍オンラインの人気記事、著者インタビュー、イベント案内など、書籍をもっと楽しむお得情報をお届けします。メルマガも以下よりご登録ください(無料)。 https://promo.diamond.jp/book-member/

          【マンガ】統計学が最強の学問である 第1話「世の中数字じゃねぇ」|ダイヤモンド社書籍編集局
        • 真の正解が分からない中で最適解を求めて探索と手戻りを繰り返すことこそが、データ分析の本質である - 渋谷駅前で働くデータサイエンティストのブログ

          先日、こんな素晴らしい記事を読みました。 データ分析屋としてキャリアを積んでいる私にとってAgileの考え方はとても腑に落ちやすいものだった。そもそも、データ分析自体、繰り返しの検証をするものなのだ。 (太字原文ママ) 僕自身はソフトウェアエンジニアではないので、Waterfall / Scrum / Agileそれぞれの開発スタイルの定義や違いはたまたその実践について何か論評できる立場にはなく、エンジニアチームの現場にいたこともあるので「雰囲気ぐらいなら」おぼろげに分かっているという程度の理解レベルです。ただそれでも、この記事で提唱されている「データサイエンスはAgile」という考え方については、僕個人の経験から言っても大いに納得できるものがあります。 実は、ここ1年ぐらいデータ分析の仕事をしていく中で「手戻り」「ロールバック」は是か非か?という議論を目にする機会が何度もあり、その度にこ

            真の正解が分からない中で最適解を求めて探索と手戻りを繰り返すことこそが、データ分析の本質である - 渋谷駅前で働くデータサイエンティストのブログ
          • 神経科学や実験経済学の再現性についてメモ【再現性】|手記千号

            以前の記事では、査読付きの主要学術誌に掲載された心理学研究について、その再現性が3割程度に過ぎないと判明したこと、過去の有名研究が次々に追試失敗していること、世界的にみれば学界をあげた対策が進められている(信頼性革命)ことを紹介しました。 心理学は信頼できるのか? 再現性の問題【心理学】 https://note.com/s1000s/n/n535be7155581 心理学・行動経済学等の著名な研究論文が次々に追試失敗【心理学】 https://note.com/s1000s/n/na0dbd2e8632d 上記記事では、主に心理学についてとりあげています。では、心理学以外の分野ではどうなのでしょうか。ぽちぽち検索してみると、 ……少ししか分かりませんでした。 その少しについてまとめておきます。主に神経科学、ほんのちょっと実験経済学(と行動経済学)についてです。 私としては、多くの学問分野

              神経科学や実験経済学の再現性についてメモ【再現性】|手記千号
            • 『効果検証入門から見直すデータサイエンス』株式会社サイバーエージェント 安井 翔太氏(2020年8月28日webセミナー)

              近年AI技術を筆頭に様々なデータサイエンス技術がビジネスの現場に用いられるようになってきました。しかし、果たしてそれらの技術は本当にビジネスに何らかの効果をもたらしているのでしょうか? 本講演では、因果推論を背景にした効果検証における基礎の導入を行い、ビジネスで語られる効果の測り方を見直すと共に、効果検証の観点でAI技術を中心としたデータサイエンスを見直す試みを行なってみたいと思います。 ※『因果推論・効果検証入門』講演1のアーカイブ ※その他概要はこちら→https://techplay.jp/event/789307

                『効果検証入門から見直すデータサイエンス』株式会社サイバーエージェント 安井 翔太氏(2020年8月28日webセミナー)
              • 機械学習と公平性

                1 2 3 4 The field of study that gives computers the ability to learn without being explicitly programmed. — A. L. Samuel ※ Programming computers to learn from experience should eventually eliminate the need for much of this detailed programming effort. — A. L. Samuel [Samuel 59] The field of machine learning is concerned with the question of how to construct computer programs that automatically im

                • PySparkはじめました - 分散処理デビューする前にやったこと - JX通信社エンジニアブログ

                  「JX通信社Advent Calendar 2019」10日目の記事です. 昨日は, @rychhrさんの「Pure WebSocketsをサポートしたAWS AppSyncでWebとiOS間のリアルタイムチャットを作ってみた(1)」でした. 改めまして, こんにちは. JX通信社でシニア・エンジニア&データ基盤エンジニアをしています, @shinyorke(しんよーく)と申します. JX通信社では, データ駆動での意思決定および施策実施をより円滑に進めるため, データ基盤の構築・運用を進めながらトライアル的に様々なFrameworkやツールの検証を行っています.*1 このエントリーでは, 私がシュッとPySparkで分散処理をする...前に, 手元で試したときの感想とその知見 のお話を残していきたいと思います. なお, 分散処理そのものの知見・ノウハウではなく, する前にPySparkに

                    PySparkはじめました - 分散処理デビューする前にやったこと - JX通信社エンジニアブログ
                  • 黒川博文 Hirofumi Kurokawa - 因果推論のための計量経済学

                    畑農 鋭矢・水落 正明(2022)データ分析をマスターする12のレッスン〔新版〕 サポートサイトでは、練習問題の解説や、データ、StataやEviewsによる分析コードが提供されています。 今井耕介(2018)社会科学のためのデータ分析入門 上・下 原著:Kousuke Imai (2017) Quantitative Social Science: An Introduction サポートサイトでは、Rのコード等が提供されています。Rで実践しながら学ぶにも最適な書籍です。 Jeffrey B. Arnold: Quantatitive Social Science: The R Tidyverse Codeのサイトでは、 モダンなRパッケージTidyverseを使って、同書のコードを提供しています。 公式のTidyverse版もでました→ Kosuke Imai, Nora Webb W

                    • 「機械学習とビジネスを橋渡しするものこそ評価指標であり, "全てのビジネスは条件付期待値の最大化問題として書ける"」という話の問題点と代替案 - ill-identified diary

                      概要 はじめに I. 条件付き期待値が全てか? i 条件付き「期待値」だけでよいのか? ii 条件付き期待値の条件とはなにか? メディアミックスモデルを例に 外挿と選択バイアス 補足: 条件付き期待値の条件付けに関して II. 機械学習の性能評価 ≠ ビジネスモデル なのか? 分類モデルと確率の推定 確率推定の評価はできるのか III. こういう話の教科書・参考書はないのか? まとめ 参考文献 概要 『機械学習とビジネスを橋渡しするものこそ評価指標であり, ”全てのビジネスは条件付期待値の最大化問題として書ける”仮説についての一考察 - 株式会社ホクソエムのブログ』というブログ記事に対する私の昨日の twitter での連続投稿の話を書き改め, 説明不足な部分を補った. 昨日と同様に, (I) 条件付き期待値だけでよいか, (II) ビジネスモデルと機械学習の性能評価は一致しないのか, (

                        「機械学習とビジネスを橋渡しするものこそ評価指標であり, "全てのビジネスは条件付期待値の最大化問題として書ける"」という話の問題点と代替案 - ill-identified diary
                      • 因果推論100本ノック(2)回帰分析

                        はじめに 因果推論100本ノック(自作)11本目~20本目の問題とPythonのサンプルコードです. 問題の不備や内容の誤り等ありましたら,ご指摘いただけますと幸いです. 設定 メールマーケティングの効果を推定するケースについて考えます. 化粧品のEC販売にて,メディアの会員の中で購買傾向の弱いユーザーにキャンペーンメールを配信します.手元には「過去に小規模なデータで実験を行ったデータ」と「今回購買傾向の弱いユーザーにメールを配信したデータ」が存在するとします. データは,下記フォルダの2つのファイルを利用します. 利用するファイルの概要は下記の通りです. causal_knock2_rct.csv: 実験データ(以下,rctデータ) causal_knock2_reg.csv: 購買傾向の弱いユーザーにメールを送ったデータ(以下,regデータ) データのカラムの概要は下記の通りです. 変

                          因果推論100本ノック(2)回帰分析
                        • 科学としての歴史 | Nature ダイジェスト | Nature Portfolio

                          過去の出来事を科学的に分析することで、未来を予想できるとする「歴史動態学」が登場した。既存の歴史学者は懐疑的だが、このアプローチは興味深い。 SOURCE:REF.1 「歴史は繰り返す」という格言は、時に真実であるように思われる。例えば米国では、1861~65年の南北戦争後に民族間・階級間の反目による暴力事件が都市部で急増し、それが全米に広がって、1870年頃にピークに達した。国内騒乱が次に増加したのは1920年頃で、人種的反感による暴動、労働者のストライキ、反共感情の高まりなどにより、多くの人が近いうちに革命が起こるかもしれないと思った。米国社会は1970年頃にも不穏な状態に陥り、激しい学生デモ、政治的暗殺、暴動、テロが頻発した(『暴力の周期』参照)。 コネチカット大学(米国ストーズ)で個体群動態学の研究をしているPeter Turchinは、米国の政情の不安定さがピークに達した3つの時

                            科学としての歴史 | Nature ダイジェスト | Nature Portfolio
                          • 【図解】AIは統計学から。

                            最近、「ディープラーニング」「ビッグデータ」「AI」という話題を耳にします。 なんかいろんなことができて、すごく便利みたいです。 これらの技術は 統計学という学問がベース となっています。統計学は、実はいろいろな場面で使われていて、私たちの知らないところで、人類の生活を豊かにしてくれます。 統計学はディープラーニングの基礎 今回は、統計学の概要とその魅力について解説します。これからの AI 時代を生き抜かなくてはならない今こそ、統計学を学ぶべきです。 Python の基礎を本にまとめています。併せてご覧いただけるととても嬉しいです ↓ DeepLearning の基礎を本にまとめています。手に取って頂けるととても喜びます ↓ 皆さんの理解が一歩でも進むと嬉しいです。 Created by NekoAllergy 統計学って何? 統計学とは たくさんのデータについての考え方 統計学とは、たく

                              【図解】AIは統計学から。
                            • 統計学と機械学習におけるマルチコ(多重共線性)に対する考えの相違

                              先日、デスマーチの末なんとか機械学習案件のリリースに漕ぎ着けました。 今回の案件に関わらないですが、要件や仕様はしっかり明文化しておくべきですね。 後から(特にリリース間近になって)言った言わないの議論になるのは双方にとってあまり気持ちのいいものではありません。 些細な仕様変更のため口頭で合意した内容でも、しっかりと資料化しておくことの重要さを再認識しました。 さて、今回はマルチコ(多重共線性)について投稿します。 クライアント先で多変量解析をしているときにこの話題が出たので、いろいろと調べてみました。 大学では統計学視点でのマルチコを若干勉強したのですが、この機会に再度勉強し直してみたのでまとめます。 マルチコ(多重共線性)とはマルチコとは、重回帰モデルにおいて説明変数間に強い相関がある事象のことをいいます。 マルチコはmulti-colinearlity(マルチ-コリニアリティ)の略称

                                統計学と機械学習におけるマルチコ(多重共線性)に対する考えの相違
                              • 回帰分析ではlm()ではなくestimatr::lm_robust()を使おう / TokyoR100

                                2022年7月23日に行われた、第100回R勉強会@東京(#TokyoR)での発表資料です。 https://tokyor.connpass.com/event/253867/ 資料で使っているRコードはこちらになります。 https://github.com/dropout009/TokyoR100

                                  回帰分析ではlm()ではなくestimatr::lm_robust()を使おう / TokyoR100
                                • 文科省がTOEFL国別英語力ランキングを作成。TOEFL運営元は「やめて」と注意喚起(寺沢拓敬) - エキスパート - Yahoo!ニュース

                                  2022年8月8日、文部科学省が「英語教育・日本人の対外発信力の改善に向けて(アクションプラン)」を発表しました。 同資料のなかで、運営元が「やめて」と言っていることを、文科省は平気でやっています。 問題の箇所は同アクションプラン(スライド全12枚)の2枚目。TOEFL国別平均スコアをもとに、各国の英語力ランキングをグラフ化しています。 画像の出所:文科省「英語教育・日本人の対外発信力の改善に向けて(アクションプラン)」(2022年8月8日)、p.2 図の説明は、以下のように、日本の英語力の低さに焦点を当てています。 各国における受験者数や受検者層は異なるため、スコア差が各国の英語力差をそのまま表しているわけではないことに留意が必要ではあるが、各種の英語資格・検定試験において、我が国の平均スコアは諸外国の中で最下位クラス。 こういうTOEFL国別ランキング話法は、しばらく前から、いたるとこ

                                    文科省がTOEFL国別英語力ランキングを作成。TOEFL運営元は「やめて」と注意喚起(寺沢拓敬) - エキスパート - Yahoo!ニュース
                                  • 卒業論文のためのR入門

                                    Chapter 1 はじめに この文書は、卒業論文を書くためのRの使い方をできるだけコンパクトにまとめたものです。 読者は立命館大学総合心理学部森ゼミの学生をピンポイントに想定しています。 Rを用いた演習として「心理学データ解析法」の履修を推奨していますが、履修していなくてもわかるように構成しています。 卒業論文自体はWordで作成する想定で、Rで得られた結果をWordに貼り付ける(簡便な)方法を説明します。 一般的なRの入門文書としても参照できます。 説明の都合上、厳密さよりわかりやすさを重視した記述が多々あります。ご了承ください。 1.1 この文書で学ぶこと 具体的には、以下の項目を学習します。 R, RStudioをインストールし、基本的な操作ができるようになる データをRStudioにインポートする インポートしたデータを分析可能な形に前処理する 記述統計を整理する データを可視化

                                    • Fisherだけに5%閾値の責任を負わせるのは少し酷な気がする - Tarotanのブログ

                                      以下,記憶だけで書いたいい加減な話. 5%閾値を広めた責任者は,K.Pearson, Fisher, Neyman, Snedecor,そして,統計分析のハウツー本の著者ら,さらに,私自身も含めた統計関連従事者(←統計家や統計学者ではない)ではないだろうか.Fisherだけに責任を負わせるのは酷な話だと思う. まず,1900年初頭には,K. Pearsonの提案をもとに,probable errorの3倍以上のものを”almost certain significance”とする分類がBiometrikaを中心に利用されていた.このprobable error (PE)は,Xが正規分布に従っている時に,μ± PEにXが属する50%となるもの.このPEは,元々は,Galtonが多用していた.(Galtonは,いまでいう四分位点から,PEを求めていた.Galtonの文献では,標本と母集団の違い

                                        Fisherだけに5%閾値の責任を負わせるのは少し酷な気がする - Tarotanのブログ
                                      • 北大・西浦教授「8割接触削減」評価の根拠について説明(2020年4月24日)

                                        新型コロナウイルス感染症対策で厚生労働省クラスター対策班に参加する北海道大学大学院の西浦博教授は24日午後、報道陣との意見交換の場において、PCR検査に関する自身の見解と「接触8割減」の評価手法について説明を行った。 ■チャンネル登録:https://yahoo.jp/zaoidV ■THE PAGEの記事一覧:https://yahoo.jp/g2tIKq #thepage_jp #厚生労働省 #新型コロナウイルス感染症

                                          北大・西浦教授「8割接触削減」評価の根拠について説明(2020年4月24日)
                                        • ゆきまさかずよし on Twitter: "P値の神話がどうやってできたのか https://t.co/duotAxt4iW 最初に提唱した統計学者ロナルド・フィッシャーは一応0.05を提唱したものの固定値としなかった。心理学分野で便利な数値として多用され(微妙な論文を量産… https://t.co/aLvfLBn6TB"

                                          P値の神話がどうやってできたのか https://t.co/duotAxt4iW 最初に提唱した統計学者ロナルド・フィッシャーは一応0.05を提唱したものの固定値としなかった。心理学分野で便利な数値として多用され(微妙な論文を量産… https://t.co/aLvfLBn6TB

                                            ゆきまさかずよし on Twitter: "P値の神話がどうやってできたのか https://t.co/duotAxt4iW 最初に提唱した統計学者ロナルド・フィッシャーは一応0.05を提唱したものの固定値としなかった。心理学分野で便利な数値として多用され(微妙な論文を量産… https://t.co/aLvfLBn6TB"
                                          • 選択(セレクション)バイアスとは?人によって定義が違うので整理してみた。 - Unboundedly

                                            疫学と経済学、どちらもある要因Xがある要因Yに与える因果的な効果の大きさを推定する「因果推論」に関心があることが多いです。 「選択(セレクション)バイアス」「交絡」「内生性」、多くの用語が因果推論で登場します。 ところが、話をしているとどうも噛み合わないことが多い。よくよく聞くと、 ①同じことを違う用語を使って話している ②同じ用語を使って全く違う概念について話している ことが判明。 先日の勉強会がきっかけで,selection biasの議論が活発におこなわれています. selection biasは疫学,経済学の領域間だけではなく,領域内でも定義が混乱してそう🤔 それぞれの領域の方々が同じ場で議論し合うのは良いなと思います. お互いリスペクトした議論になっているのもストレスフリー🧸 pic.twitter.com/WTbX7sVHIP — Sato@生物統計家 (@Shuntaro

                                              選択(セレクション)バイアスとは?人によって定義が違うので整理してみた。 - Unboundedly
                                            • 『統計学を哲学する』(名古屋大学出版会) - 著者:大塚 淳 - 大塚 淳による本文抜粋 | 好きな書評家、読ませる書評。ALL REVIEWS

                                              著者:大塚 淳出版社:名古屋大学出版会装丁:単行本(ソフトカバー)(248ページ)発売日:2020-10-26 ISBN-10:4815810036 ISBN-13:978-4815810030 内容紹介: 統計学は実験や臨床試験、社会調査だけでなく、ビッグデータ分析やAI開発でも不可欠である。ではなぜ統計は科学的な根拠になるのか? 帰納推論や因果推論の背後に存在する枠組みを浮き彫りにし、科学的認識論としてデータサイエンスを捉え直す。科学と哲学を架橋する待望の書。 現代の科学において、ほとんど特権的な役割を担っているといってもよい統計学。そもそもなぜ統計は科学的な根拠になるのでしょうか。SNSでも話題となり、発売直後から品切れが続出するなど異例の売行きをみせている注目の新刊『統計学を哲学する』。今回は序章の冒頭抜粋を特別に公開します。本書が目指す「統計学を哲学する」とは、どのような試みなの

                                                『統計学を哲学する』(名古屋大学出版会) - 著者:大塚 淳 - 大塚 淳による本文抜粋 | 好きな書評家、読ませる書評。ALL REVIEWS
                                              • 酒豪遺伝子が話題になったのでお酒の消費量とお茶・コーヒーの消費量を調べてランキングにしたら地域ごとに好まれるお酒やお茶に特色が出ていた

                                                Kohyoh Yang @00ur0b0r0s 昨日、日本全国での酒豪遺伝子の発現率が話題になったので、日本全国でのお酒の消費量とお茶・コーヒーの消費量を調べて、ランキング(色が濃いほど高い)したら、酒豪遺伝子の発言以外にも地域ごとに好まれるお酒やお茶の特色出ていた。緑茶とコーヒーは割と酒豪遺伝子が発現が低い地域で好まれている。 pic.twitter.com/N4ZbOoVDrz 2021-11-11 10:44:31

                                                  酒豪遺伝子が話題になったのでお酒の消費量とお茶・コーヒーの消費量を調べてランキングにしたら地域ごとに好まれるお酒やお茶に特色が出ていた
                                                • 研究態度 - 愛知学院大学青木ゼミのブログ

                                                  心理実験 再現つまずく 揺らぐ信頼、研究刷新促す声 (日経新聞2019年12月15日朝刊記事抜粋) 「つまみ食いを我慢できる子は将来成功する」「目を描いた看板を立てると犯罪が減る」――。有名な心理学の実験を検証してみると、再現できない事態が相次いでいる。望む結果が出るまで実験を繰り返したり、結果が出た後に仮説を作り替えたりする操作が容認されていた背景があるようだ。信頼を失う恐れがあり、改めようとする動きが出ている。米科学誌「サイエンス」は15年、心理学研究への信頼が揺らいでいる事態を重く見て、主要な学術誌に掲載された心理学と社会科学の100本の論文が再現できるかどうかを検証した。結果は衝撃的で、同じ結果が得られたのはわずか4割弱にとどまった。日本の代表的な心理学会誌「心理学評論」も16年、再現できない実験に関する問題を特集号として取り上げた。 心理学で再現できない研究がなぜ目立つのか。大阪

                                                    研究態度 - 愛知学院大学青木ゼミのブログ
                                                  • ABテストにおける分散削減手法①〜少ないサンプルから小さな改善効果を検出する〜|あならいずパンダ

                                                    マネーフォワード 分析推進部の石田と申します。 社内では、データサイエンティストとして施策効果検証系の案件を中心に担当しています。 本稿から2回に渡って、「ABテストにおける分散削減手法」というテーマで記事を執筆したいと思います。 馴染みのない方もいらっしゃるかもしれませんが、ABテストへ分散削減手法を適用することで、例えば以下に挙げたメリットを享受することができます。 必要サンプルサイズを低減できるため、意思決定サイクルを高速化できる より小さな改善効果を検出できる 魅力的だと感じていただけた方は、ぜひ最後まで本稿をお読みください! 目次 想定する読者層と書いてある内容本稿のメインターゲットは、以下のような方です。 統計的仮説検定の理論を少し勉強したことがあるけど、分散削減と言われてもあまりピンと来ていない 確率変数、標本平均、分散、正規分布の意味は分かるけど、t検定の検定統計量がパッと

                                                      ABテストにおける分散削減手法①〜少ないサンプルから小さな改善効果を検出する〜|あならいずパンダ
                                                    • 山岡重行聖徳大学講師の拙稿への「批判」と統計学理解の問題及び研究教育倫理の重篤な問題について①|北田暁大

                                                      ※他のかたのサイトに書き落としていった文章なので随時整えていきたいが、一点最後に補足しておいた。 ※UNCORRELATED氏に丁寧な評をいただき(http://www.anlyznews.com/2019/07/blog-post_6.html#comment-form)、二つ目の補足を書かせていただいた。(7月6日) ■山岡重行聖徳大学講師は、著書や自身のツイッターおよび、公開の講演会や学会、講義などで、拙論(『社会にとって趣味とは何か』河出書房新社所収の二つの論文)に対する「批判」をきわめて強い調子で行っている。その批判の論点数はさほど多くはなく、繰り返しが多いのであるが、なにより、その論調が半端なく激烈である。激烈というと聞こえはいいが、もはや学問的批判の閾値を超えたものとなっている。 ■研究者である以上、私も批判を受けることは当然のことであり、正すべき点はただしてこそ学術共同体に

                                                        山岡重行聖徳大学講師の拙稿への「批判」と統計学理解の問題及び研究教育倫理の重篤な問題について①|北田暁大
                                                      • 「機械に代替されないデータサイエンティスト」に必要な能力とは?

                                                        「機械に代替されないデータサイエンティスト」に必要な能力とは?:これからのAIの話をしよう(コンサル編)(1/3 ページ) 「機械学習や統計学を駆使するデータサイエンスビジネスの世界は、どうやら人月商売(※)ではうまくいかなそうだ」という考えが浸透したのが平成の終わり。しかし、AI・データ活用に正解はなく、令和になったいまでも各社手探りの状況が続いています。 企業は、どうすればデータサイエンティストの能力を最大限に発揮させ、ビジネスを拡大できるのでしょうか。組織を運営するマネジメント層と、現場で働くデータサイエンティストが真剣に考えている課題です。 データ分析組織を立ち上げた企業や、データサイエンティスト自身が意識すべきことについて、コンサルティング事業を手掛けるイーストフィールズ創業者の東野智晴さんに聞きました。東野さんは2009年ごろからデータ分析業務をしており、さまざまな案件を担当す

                                                          「機械に代替されないデータサイエンティスト」に必要な能力とは?
                                                        • 感度とか特異度とか | Tech Blog | CRESCO Tech Blog

                                                          何がどう違うのでしょう? 何でたくさんあるのでしょう? もちろん本やウェブで調べれば出てきますが、意外とすっきり簡潔に解りやすくまとめた資料がありません。いろいろな人に説明せねばならない機会も増えたし、それではということで自分で説明図などを作ってみました。

                                                          • 黒木玄 Gen Kuroki on Twitter: "#統計 もしかしたら奥村さんにミュートされているのではないかと思うのですが、私は統計関係の多くの事柄について奥村さんの発言が良くないと思うことが多いです。 おそらく、伝統的な統計学教師の大部分の発言を私は気に入らない。 例えば… https://t.co/ohEjoP02xM"

                                                            #統計 もしかしたら奥村さんにミュートされているのではないかと思うのですが、私は統計関係の多くの事柄について奥村さんの発言が良くないと思うことが多いです。 おそらく、伝統的な統計学教師の大部分の発言を私は気に入らない。 例えば… https://t.co/ohEjoP02xM

                                                              黒木玄 Gen Kuroki on Twitter: "#統計 もしかしたら奥村さんにミュートされているのではないかと思うのですが、私は統計関係の多くの事柄について奥村さんの発言が良くないと思うことが多いです。 おそらく、伝統的な統計学教師の大部分の発言を私は気に入らない。 例えば… https://t.co/ohEjoP02xM"
                                                            • What does United States import? (2020) | The Observatory of Economic Complexity

                                                              Have questions, comments, or concerns? Send us an e-mail: [email protected]

                                                                What does United States import? (2020) | The Observatory of Economic Complexity
                                                              • ステート・オブ・AI ガイド on Twitter: "これ実務にものすごく役立ちそう。まれにしか出現しないラベルが含まれる不均衡・ロングテールなデータ(実データあるある)に対して、ロジットを対数確率により調整し平均的なエラー率を最小化する手法。統計的根拠があり実験性能もとても良い。今… https://t.co/ueO3NY1DN3"

                                                                これ実務にものすごく役立ちそう。まれにしか出現しないラベルが含まれる不均衡・ロングテールなデータ(実データあるある)に対して、ロジットを対数確率により調整し平均的なエラー率を最小化する手法。統計的根拠があり実験性能もとても良い。今… https://t.co/ueO3NY1DN3

                                                                  ステート・オブ・AI ガイド on Twitter: "これ実務にものすごく役立ちそう。まれにしか出現しないラベルが含まれる不均衡・ロングテールなデータ(実データあるある)に対して、ロジットを対数確率により調整し平均的なエラー率を最小化する手法。統計的根拠があり実験性能もとても良い。今… https://t.co/ueO3NY1DN3"
                                                                • 改訂増補版:統計検定を理解せずに使っている人のために I

                                                                  © 2019 Japan Society for Bioscience, Biotechnology, and Agrochemistry © 2019 公益社団法人日本農芸化学会 改訂増補にあたってこの総説は,「統計検定を理解せずに使っている人のために I」の改訂増補版である.今後,「II」および「III」も改訂増補する.これら三部作は2013年に出版されたが,最近でもJ-STAGEでの「化学と生物」の論文アクセスランキングで常に上位を占めている.しかし,これら三部作には正しくない記載や,言葉足らずでわかりにくい内容があった.そこで,誤りを修正し,内容をさらに充実しわかりやすくするため,改訂することとなった.間違いのあった理由は,筆者の統計に対する理解不足にほかならない.筆者は統計学が専門ではない.本来このような学術雑誌には専門家が執筆すべきと考えるが,専門家による総説や専門書は,往々に

                                                                  • 日本の古典和歌を埋め込みベクトルで分析する|yhkondo

                                                                    今年もアドベントの季節が来ました。この記事は、まつーらとしお氏の主催する、アドベントカレンダー「言語学な人々」2023の12月16日のエントリーとして書かれました。今年は、カレンダー増刷で、黒木邦彦氏主催の、別館(言語学なるひとびと)もあります。どちらもご覧下さい。 和歌集の歌風の分析日本の古典和歌集には、それぞれの性格があります。『万葉集』は自然を歌っていて、「素朴」な歌もあるが、『古今集』は、宮中の「優雅」な伝統を反映している、など、言い方はいろいろあり得ますが、それぞれ異なった歌風を持っていることは間違いありません。それを、コンピュータ、特にAIで分析してみるというのがこのエントリーの内容です。日本語学会の機関誌『日本語の研究』19巻3号(2023年12月)に掲載した拙論(「和歌集の歌風の言語的差異の記述ー大規模言語モデルによる分析−」)の解説記事となります(来年6月にはJSTAGE

                                                                      日本の古典和歌を埋め込みベクトルで分析する|yhkondo
                                                                    • R初心者の館(RとRStudioのインストール、初期設定、基本的な記法など) - nora_goes_far

                                                                      本記事について R Advent Calendar 2019 2日目の記事です。 本記事執筆のモチベーション ゼミや講義でRを使いたいことがあります。しかし、インストールや初期設定、基本的な記法についての説明で時間を使ってしまうのはもったいないと思い、「これを事前に読んできて」と言えば済むような資料を用意したいと思いました(もちろんすでに、ネット上には有用な記事がたくさんあります)。もし同様の要望をお持ちの方がいらっしゃったら、本記事をご活用いただければ幸いです。 そういうわけで、本記事では、Rをまったく触ったことがない初心者を読者に想定しています。また、筆者の環境がWindowsであるため、同環境を事例として説明しています。 目次 RとRStudioのインストール RStudioの初期設定 RStudioの機能 Rの基本的な記法・使用方法 四則演算 代入演算子 その他の演算子 データの型

                                                                        R初心者の館(RとRStudioのインストール、初期設定、基本的な記法など) - nora_goes_far
                                                                      • Marketing-Mix-Modeling(MMM)に関する所感や問題意識について - Leverages データ戦略ブログ

                                                                        目的と背景 レバレジーズのデータ戦略室で室長をしている阪上です。 今回は、最近仕事で使うことがあり、調べているMarketing Mix Modeling(MMM)について簡単に紹介したいと思います。この分野に関して、あまり国内で盛り上がっていないように感じたため、僭越ながら少しでも関心を持つ方が増えることを願って記しました。 今回は具体的に自社でどのような分析を行ったかについては記しておりませんが、今後、別の記事で用意したいと思います。 MMMとは Marketing Mix Modeling(MMM)は各種メディアへの支出が、企業の売上にどのように影響を与えるのかを理解するために、あるいは最適なメディア投資を行うための支出の配分を決めるために使われます。主に回帰分析などの手法を用いて、時系列データである売上を同じく時系列データである各種メディアのインプレッションなどで説明づけるというア

                                                                          Marketing-Mix-Modeling(MMM)に関する所感や問題意識について - Leverages データ戦略ブログ
                                                                        • 株式会社Nospare - Qiita

                                                                          株式会社Nospare 統計・データ分析に関するアドバイザリー、ビジネスデータの分析や企業におけるDX支援等、データに関して幅広い価値提供を行っております。 統計学において国際的に活躍する研究者陣を中心に、統計学における知見を発信していきます。

                                                                            株式会社Nospare - Qiita
                                                                          • VARそして時系列因果性分析の復習 - 渋谷駅前で働くデータサイエンティストのブログ

                                                                            「新型コロナウイルス感染症における治療の進展(令和2年10月29日に開催された第13回新型コロナウイルス感染症対策分科会事務局提出資料を基に内閣官房・内閣府作成)」という資料が世間で物議を醸しているようです。ただ、これを見ていて僕が個人的に気になったのは、その議論の内容や結論ではなく、「グレンジャー(Granger)因果」が使われているという点でした。 経済・ファイナンスデータの計量時系列分析 (統計ライブラリー) 作者:竜義, 沖本発売日: 2010/02/01メディア: 単行本Time Series Analysis 作者:Hamilton, James D.発売日: 1994/01/11メディア: ハードカバー 以前このブログでも一通り計量時系列分析を取り上げて一生懸命沖本本やHamiltonで勉強しながらシリーズ記事を書いたものですが、その時の記憶から言えば「Granger因果って

                                                                              VARそして時系列因果性分析の復習 - 渋谷駅前で働くデータサイエンティストのブログ
                                                                            • RstanにDockerはいいゾ - Computational Clinical Psychology Lab

                                                                              この記事は,Stan Advent Calendar 20192日目の記事です。 昨年もDockerで記事を書いたのですが,実は思ったよりDockerは活用されてないぞと思うことが何度かありました。そこで,今年もDockerについて書きます。 今年は,MacOSのCatalinaがリリースされました。Catalinaでは色々と新機能が追加されたので,ワクワクとした気持ちで試したMacユーザーも多かったのではないでしょうか?しかし,CatalinaにアップグレードするとStanが動作しないという問題があり,軽い気持ちでアップグレードしたStanユーザーを絶望の淵に追い込みました(Stan Advent Calendar 2019の1日目のkosugittiさんの記事でその辺の経緯がまとめられています)。こういう時こそ,以下のStan公式のツイートにあるように,Dockerなどの仮想コンテナを

                                                                                RstanにDockerはいいゾ - Computational Clinical Psychology Lab
                                                                              • 『現代数理統計学の基礎』章末演習問題解答 (答案) - Qiita

                                                                                0.はじめに 『現代数理統計学の基礎』(久保川達也 著)の章末問題の答案を作成する.略解は久保川先生がこちらのサイトに掲載して下さっているが,「略解」なだけあって途中式がかなり端折られていたり,エレガントすぎて凡人では思いつきようのない解答だったりするので,多少計算がゴツくなったとしても庶民的な答案を心がける.また必要に応じて答案とは別に必要な知識の確認を行う. 各リンクから問題の方針と答案に飛べる. 1.確率 (易) ベン図書く (易) 和事象,積事象の性質 (易) 条件付き確率と同時確率 (易) 部分集合についての確率 (易) 条件付き確率の典型問題 (易) 条件付き確率の典型問題2 (易) 因果関係と相関関係,独立性 (易) 和事象と確率の和 2.確率分布と期待値 (標準) 分布関数,密度関数の定義 (標準) 分布関数,密度関数の定義2 (標準) 分布関数,密度関数の定義3 (標準)

                                                                                  『現代数理統計学の基礎』章末演習問題解答 (答案) - Qiita
                                                                                • 目次 | Nature ダイジェスト | Nature Portfolio

                                                                                  細胞内の秘密の会話 タイプの異なる細胞小器官同士が結合していることが30年前に報告された時、誰もが「何かの間違い」だと思った。だが、ライブイメージング技術の進歩で、異なる細胞小器官同士が結合して物資を交換する様子が捉えられるようになると、風向きが変わった。さらに最近では、細胞小器官同士をつなぐ繋留因子がさまざまな疾患と関連することも分かってきた。

                                                                                    目次 | Nature ダイジェスト | Nature Portfolio