機械学習による確率推定とカリブレーション/probabilistic-calibration-on-classification-model
機械学習による確率推定とカリブレーション/probabilistic-calibration-on-classification-model
はじめに 最近(もう結構前)、p値だけを見てデータを評価するのは止めようという動きがあります。 「“統計的に有意差なし”もうやめませんか」 Natureに科学者800人超が署名して投稿 仮説検定の判断をp値でする危険性 社内でもp値や統計的有意性について話題に上がりました。データの量が多くなるとp値が小さくなってしまい、どんなデータでも有意になってしまうため、ビッグデータにp値を使うのはやめたほうがいいという話です。これは、確かにそうなのですが、なぜ有意になってしまうのかをちゃんと理解せずに「ビッグデータの時代には古臭い統計学なんて役に立たないのね〜」と勘違いしている人がいそうなので今回はp値について考えてみます。 なぜデータが増えると有意になってしまうのか 議論を簡単にするために、例として母分散が既知の平均値の検定を行うこととします。母集団は無限母集団とし、分散1平均0の標準正規分布に従
データサイエンティストを生業にする手段と実態について述べる。 途中、具体例・境界値の例として私個人の話もするが、なるべく一般性のある話をする。 この記事で言いたいことは具体的には4つだ。 プログラミングスクールをディスるなら代わりの入門方法を提供しようよ。 もう「未経験文系から3ヶ月でデータサイエンティストで一発逆転物語」を止めろ。*1 おじさんは人生逆転したいなら真面目にやれ。 若者はワンチャンじゃなくて、ちゃんと化け物になれよ。 この記事についてはパブリック・ドメインとして転載・改変・リンク記載を自由にしてよいです。 (続き書いた) a. 入門は辛いが… b. 思考停止でプログラミングスクールに通うな。 なろう系・始めてみよう系資料一覧 (最速・最短ルート用) まずは動かしてみよう。強くてニューゲームが体験出来るぞ! 入門以前の本 一般向け業界本 (AI業界と展望がわかる本) 技術者入
Amazon Web Services ブログ 「AWSではじめるデータレイク」出版記念データレイク解説セミナーの資料公開 去年よりAWSのメンバー4名(志村、上原、関山、下佐粉)でデータレイクの基礎からアーキテクチャ、構築、運用管理までをカバーした書籍「AWSではじめるデータレイク」を執筆してきたのですが、7月出版の目処がたったことを記念して、5月末から毎週木曜にデータレイクに関するWebセミナーを開催してきました。 幸いにも大変多くの方にご参加いただくことができました。ご参加いただいた方にはあらためてお礼申し上げます。 一方で、以前の回に出られなかったので資料だけでも公開して欲しい、というご要望をたくさん頂いていました。そこで今回第1回から第3回の資料を公開させていただく事になりました。 ※ 2020/06/25更新:第4回の資料を追加公開しました 以下よりご覧いただけます。(PDFフ
一般社団法人データサイエンティスト協会(所在地:東京都港区、代表理事:草野 隆史、以下データサイエンティスト協会)は、構造化データの加工について実践的に学ぶことができる無料の学習環境「データサイエンス100本ノック(構造化データ加工編)」をGitHubに公開しました。 「データサイエンス100本ノック(構造化データ加工編)」は、データサイエンス初学者を対象に、データの加工・集計、統計学や機械学習を駆使したモデリングの前処理等を学べるよう、データと実行環境構築スクリプト、演習問題をワンセットにしています。 近年、データ活用の重要性についての認知が広がる中で、書籍やWebサイトなど、データ分析のスキル向上に役立つ情報源も多く提供されています。一方で、実践するための「データ」や「プログラミング実行環境」を持ち合わせていないことも多く、「実践力」を身につける機会が限られていました。特に、「構造化デ
(お知らせ) 「企業データが使えるノート」は2020/11/20より有料継続マガジンの提供を開始しました。本記事はβ版の過去の無償開放記事となります。最新のアップデートやデータの取得に関しては、コチラをご覧ください! "企業データが使えるノート"では、上場企業のSaaS KPIを集計し、定期的にデータを更新しています。 今回は、先月にアップをした上場企業 SaaS KPIの最新アップデートです。 5月半ばまでの決算発表資料を反映させた最新数値となります。 □ 上場企業 SaaS KPIデータ 対象企業: 国内SaaS事業を運営する22社 * 今後順次社数が増えます 対象資料: 決算説明会資料 データ時点: 5/26時点で取得可能な最新決算説明会資料を参照 * 第3四半期決算説明会資料 公表のないロジザード、 決算発表延期のサイボウズの2社は前四半期を参照 データ更新: 毎月月末にnoteに
こんにちは。バックエンドエンジニアの田島(@katsuyan121)です。 弊社ではデータマートをBigQuery上に構築しています。データマートはデータベース全体のデータのうち、必要なデータだけを使いやすい形にしたデータベースです。データマート作成のためのSQLクエリは日々更新や追加があり、BigQueryのコンソールから自由にデータマートを作ってしまうと管理が大変になってしまいます。 そこで、データマートをすべてGitHub上でバージョン管理し、運用の効率化をしました。また、差分更新の導入や依存関係のあるデータマートへの対応などのデータマート構築に必要な機能を作成しました。 弊社のデータ基盤をざっくり紹介します。まずデータはBigQueryへ集約し、Digdagを用いてデータ基盤を構築しています。以下がその概要図です。S3などの分散ストレージや各種DBからデータをBigQueryへ同期
AWS Startup ブログ 【週刊 Ask An Expert #10】サーバーレス化を検討している?そこは AWS Amplify でしょ。 AWS Loft Tokyo で受けた質問まとめ #AWSLoft こんにちは、スタートアップ ソリューションアーキテクトの松田 (@mats16k) です。 だんだん暑くなってきましたが、いかがお過ごしでしょうか。私は半ズボンでの出勤を解禁しました(スタートアップなら普通ですよね?)。今回は週刊 Ask An Expert 記念すべき第10回目をお届けしたいと思います。「参考になった!」「いい内容だ!」と思っていただけたら、ぜひハッシュタグ #AWSLoft を付けてシェアしてください。もちろん、改善点・ご要望もお待ちしております。 Ask An Expert ? さて、皆さん AWS Loft Tokyo はご存知でしょうか? 目黒セントラ
この記事は Retty Advent Calendar 18日目の記事です。 昨日は@isaoekaさんの会社の行動規範浸透を図るため、メニューバーからいつでも確認できるアプリを作ったの話でした。 はじめまして、Rettyのデータ分析チームでマネージャーをやっている平野です。 Rettyのデータ分析チームは今年4月に立ち上げ現在9ヶ月目です。 この記事では立ち上げから9ヶ月でやってきた組織的取り組みについて中心に書きました。 今アドベントカレンダーではデータ分析の技術的取り組みついてを、一緒にデータ分析チームを立ち上げた@takegueが書いてますので、そちらも合わせて読んでいただけますと幸いです。 ベンチャー企業におけるDWH DevOps @ Retty - Retty Tech Blog Webサービスを支えるユーザログ基盤開発@Retty - Retty Tech Blog 目次
LINEの技術的負債を解消している話 ─ HTTP/2へのプロトコル変更やデータ同期の最適化での改善 サービス開始から10年近くがたったLINEでは、次の10年のため技術的な負債を解消・改善する取り組みをプロジェクトで行っています。 通信プロトコルをSPDYからHTTP/2に移行 抽象化レイヤーを設置してプロトコル移行のリスクを低減 Long PollingをPushへと切り替えて通信量を最適化 アプリの利用状況に応じて最適なデータ同期の方法を アーキテクチャの改善でアプリの信頼性や拡張性が向上 長い歴史を持つアプリには「技術的負債をどのように解消するか」という課題が常につきまといます。2011年にサービスを開始したコミュニケーションアプリ「LINE」においても同様で、多機能化や、開発・運用の長期化に伴い、いくつもの負債が発生していました。 この課題を解決するため、LINE株式会社では「『
2019年11月14日にピースオブケイクで開催されたイベント「noteの躍進を支えた”定性と定量の甘い関係” ─ データと世界観をどう組み合わせる?」。 noteは、これまでCXO・深津貴之によって「世界観」に照らし合わせることで開発の意思決定をドライブしてきましたが、さらなる加速のために「データ」を活用するようになりました。具体的には、メルカリのデータアナリスト・樫田光がnoteのグロース戦略顧問に就任。 世界観(=定性)とデータ(=定量)と、一見相反するふたつをいかにバランスを取りながら意思決定を進めていったのか。CXO・深津貴之、そしてグロース戦略顧問・樫田光が語りました。 ▼動画アーカイブはこちら <登壇者> 樫田 光(かしだ ひかる) 2016年メルカリに入社、データ分析チームの責任者を務める。US事業/国内フリマ事業の分析と戦略立案などの業務を経て、2019年現在は新規事業のメ
Transcript ͷٸΛࢧ͑Δσʔλੳͷཪ Data Analyst Meetup Tokyo Vol.9 ࣗݾհ GO ANDO THE GUILD / UXɾUI Designer 1. SIer ͰΩϟϦΞελʔτ ɾ େن։ൃͰσεϚʔνΛଟܦݧ ɾ ւ֎ࣄۀ։ൃͰւ֎Ͱൃ۷ 2. ݕࡧΤϯδϯϕϯνϟʔ ۀ ɾ ถࠃελʔτΞοϓͱڞಉ։ൃ 3. ಠཱͯ͠ΞϓϦσϕϩούʔʹ ɾ App Store ຊ૯߹1ҐΛؤுͬͯ֫ಘ 4. THE GUILD ۀ ← ͍·͜͜ ɾ U-NEXTσβΠϯސ ɾ noteσʔλੳνʔϜ ɾ IBMʹങऩ͞Εͯऴྃ ɾ YAMAP CXO Data Analyst Meetup Tokyo Vol.9 ຊͷςʔϚ ͷٸΛࢧ͑Δσʔλੳͷཪ 0 5,000,000 10,000,000 2014/4
こんにちはHikaru Kashidaです。 "データ分析"というのは、非常にいろんな場面に使えるな〜、と常々思っているのですが、その反面あれもこれも同じように『データ分析』と呼ばれていて、言葉として解像度が低いよなあと思うことも増えてきています。 この記事ではそんな、『データ分析』というかわいそうな便利ワードの解像度を少しあげられるかもしれない考え方をお教えします。 読んだ方から頂いた反応 とてもわかりやすい!!どの部分に興味持つかで合う職種がわかりそう、私は「business×変える」だった(「TBT」はイケてると思います😉) →『データ分析』という言葉の解像度を上げる『3×2』の考え方を君にだけ教えよう|樫田光 | Hikaru Kashida @hik0107|note(ノート) https://t.co/WDSDovWlK7 — 豊田弥生🍉ECマーケ (@march3rdya
■ 本講座の位置づけ 何らかの事業を起こすにしろ、会社に入るにしろここから先の時代においてデータドリブンな分析力、問題解決力、データ利活用に対する皮膚感覚的な理解は不可欠である。 本講座は、高校1-2年程度の数学の知識、スキル、Excelで基本的なことができる程度の素養はあるが、データ分析、データの利活用についてさして経験のあるわけではない人に対して、データの大切さと力、分析の楽しさを実感してもらうことを通じ、現代社会を生き抜くため最低限、基礎となるデータリテラシー、データで考える力を身につけてもらうことを目指す。 ■ 身につけてもらうことを目指す技能 - データ社会に対するパースペクティブ - 各種関連バズワードの適切な理解 - データの意味合いを理解するための基礎となる力 - データに騙されないようになるための基礎となる力 - 数字のハンドリング力、数量的分析力 - 基本的な問題解決能
文字数が超えるため、本の画像をて削除しました。興味がある方は、元記事をご覧ください。 2019年データサイエンスにオススメの本80冊! ビッグデータの発展とともに、データサイエンスは今広く知られるようになりました。大学にデータサイエンスを学べる学部ができたり、データサイエンティストを目指している人もたくさんいるでしょう。この記事では、統計学から機械学習やマーケティングまで、初心者がデータサイエンスを学ぶのにおすすめの本を80冊紹介します! #Part I: データサイエンス概論 1.『データサイエンス講義 』Rachel Schutt、Cathy O'Neil 著 本書では、データサイエンスを行う上で、どのようなプロセスが必要か、データサイエンティストとしてはどのようなスキルセットが必要で、どのような思考方法を選択する必要があるのかを実例を多数示しながら紹介します。 2.『戦略的データサイ
(Image by Pixabay) 先日、こんな話題を見かけました。 【夏なので怖い話】 こないだ、いかにもエリートな男性と知り合ったんですよ 彼は年収1000万で飛ぶ鳥を落とす勢いのデータサイエンティストだっていうじゃないですか それでふとAICの話題を持ちかけたんです 「あー現実であまり使わない数学の話はわかりません」 …おわかりいただけただろうか?— ゆうな (@kawauSOgood) 2019年8月14日 で、悪ノリした僕はこんなアンケートをやってみたのでした。 データサイエンティストという肩書きで年収1000万円以上の高給取りが、知らなかったとしても許される項目はどれですか— TJO (@TJO_datasci) 2019年8月15日 このアンケート結果こそが、今回の記事を書こうと思ったきっかけです。ある程度知識のある方ならお分かりかと思いますが、ここで挙げた「AIC」「正則
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く