はじめに 二値分類の評価指標について 「AUCとGini係数ってどんな関係だっけ?」 と毎回忘れては調べているので、いい加減覚える意味で体系的にまとめてみる。 この記事では AUCとは何か? Gini係数とは何か 両者はどんな関係があるか? を理解することを目的とする。 最初に結論 AUCとGini係数の間には の関係がある。 AUCは0.5から1の範囲を取るため、Gini係数は0から1までの範囲を取る。 どちらも値が大きいほど分類性能が良いことを表す。 最終的にこの式を理解することを目的としよう。 AUCを理解しよう AUC (Area Under the Curve)は二値分類における有名な評価指標の一つであり、文字通り、「ROC曲線下の面積」を表す。 ROC曲線とは? ROC (Receiver Operating Charastaristic Curve)は受信者操作特性と呼ばれる
時系列データ関連のお勉強をしたときに、必ず登場する厄介な概念の1つが「定常性(Stationarity)」です。 定常性(Stationarity)は、時系列データの統計的な特性(平均、分散、自己相関など)が時間によらず一定であるという性質を指します。これは、時系列分析において重要な前提条件となる場合が多いです。 具体的には、定常性には以下のような特性があります。 平均が時間によらず一定: これはデータの「中心」が時間とともに変化しないことを意味します。つまり、ある時点での平均値が別の時点での平均値と同じであることを示します。 分散が時間によらず一定: これはデータの「ばらつき」が時間とともに変化しないことを意味します。つまり、ある時点での分散が別の時点での分散と同じであることを示します。 自己共分散(または自己相関)が時間によらず一定: これは2つの時点間の関連性がラグにのみ依存し、時間
本記事内容および公開データに対して多くのご意見をいただきまして誠にありがとうございました。 プロフィール更新のご連絡をいただきましたため、一部情報を更新しております。その結果、図4の企業ランキングにてLINEヤフー社が4位群に変更となりましたことご報告いたします。 ご意見・ご指摘いただきました方々、この場を借りて御礼申し上げます。 2024.01.26更新 本記事3行要約: ● Competition Grandmasterの総数で、日本が世界TOPに躍進!! ● 7ヶ月間で新たに15名の日本人Competition Grandmasterが誕生!! ● 企業別では、新たに4名のGMが生まれたPreferred Networks社が最多在籍!! *更新情報* 「Kaggle Master 分析レポート 2024版」を公開いたしました。 Grandmaster 分析レポートと合わせてご覧くだ
締切: 2024/05/31 (残り67日) 参加: 18名 投稿: 13件 賞金/賞品: 各種商品 メダル・スコア付与:なし
機械学習初心者がKaggleの「入門」を高速で終えるための、おすすめ資料などまとめ(2023年12月版) こんにちわ、カレーちゃんです。Kaggle GrandMasterです。 Kaggleはデータサイエンスに入門するのにとても適しています。ですが、英語の問題などがあり、入門するのが難しい。そこで、Kaggleの「入門」をこうすれば高速に完了できるというnoteを書きます。 同じタイトルの記事を、2020年8月にも書いたのですが、それから2年以上がたちました。それから、おすすめできる資料が増え、また、私が思う入門のコースもやや変わりましたので、更新をしたいと思います。 1.Kaggleに入門(はじめに取り組むと良い資料)Kaggleには、「タイタニックコンペ」という、練習用のコンペがあります。 これは、事故が起こったタイタニックの乗客のデータから、乗客の生死を予測するという、やりたいこと
Kaggleで銅メダル、銀メダル、金メダルを取るプロセスの違いや、具体的に何をすべきかについて質問がありました。 Twitterで回答を募集したところ、次の回答をもらいました。 過去に似たコンペ2,3コンペ漁って1~10位までの解法に目を通しつつ、現コンペのディスカッションを全部追って効くものを試すと銀メダルは取れるという肌感覚 https://t.co/si4GwbM4wD — 杏仁まぜそば (@an_nindouph) November 17, 2023 自分もこれと同じ感覚です。以下、少し説明します。 銀メダルを取るために必要なもの 銀メダルを獲得するために必要だと思ったのが、次の3つです。 最低限のデータ分析コンペの実力 データ分析について、最低限のみんなが知っていることを知っておくことが必要と言えます。「Kaggleで勝つデータ分析の技術」の知識があれば、十分に戦えると思います。
「機械学習が出来るようになりたい」そう思いつつも、中々身についた感じがしない。 そんな方々に向けて、Kaggleで公開されているデータ分析の手順を追いかけながら、そこで必要とされている知識を解説したいと思います。全体像を把握することで、より理解が進むはずです。 1. データを分析するために必要な統計的知識 機械学習の目的は未知の事柄を推定することです。そのために既にあるデータから何らかの法則性を見つけ出す為に様々な手法が考えられてきました。 統計学はご存知でしょうか? 機械学習はデータを扱うという点で統計学と深い関係があります。平均値や標準偏差などは聞いたことがあると思います。統計学はそれらの情報をこねくり回すことによって、限られたデータから本当の全体像を推定します。例えば、選挙の結果を開示前に知りたいときに、投票者全員に聞ければ良いですが、そうもいきません。そこで、統計学は様々な方法を使
当サイト【スタビジ】の本記事では、尖度と歪度について解説してきます。尖度とは「分布が正規分布からどれだけ尖っているか表す指標」、歪度は「分布が正規分布からどれだけ歪んでいるか表す指標」と定義されています。歪度と尖度を求めることで、データの分布がどのような形状になっているかある程度分かるようになります。今回は歪度と尖度の定義と目安について解説していきます。 こんにちは! データサイエンティストのウマたん(@statistics1012)です! 今回は歪度と尖度について解説していきます! 歪度は「分布が正規分布からどれだけ歪んでいるか表す指標」、尖度は「分布が正規分布からどれだけ尖っているか表す指標」と定義されています。 歪度と尖度を求めることで,データの分布が正規分布に近いものであるか確認することができ,分布の形もある程度推測することが可能になります。
データを入手したとき、最初に実施するタスクの1つが、探索的データ分析 (EDA) です。 探索的データ分析 (EDA) は、データをより深く理解するプロセスにおける重要なタスクです。 データの大まかな概要を把握するためのツールがいくつかあります。例えば、Tableauです。Tableauは無料ではありません。それなりにコストがかかります。 PandasやPolarsのデータフレーム(DataFrame)を、Tableau風のユーザーインターフェイスで操作できるようにするPythonライブラリーがあります。 PyGWalkerです。 PyGWalkerは、Tableauの代替品とも言われているオープンソースであるGraphic Walkerを利用したものです。 以前、Jupyter上でPyGWalkerを使う方法について簡単に説明しました。 Tableau風にデータ操作できるPythonライ
Jupyter NotebookやJupyter Labといった、Notebookでデータ分析業務をする人が、ここ数年で増えてきました。 Notebook上でデータ分析をするとき、外部のCSVファイルやDBのデータテーブルなどからデータセットを取得する必要があります。 よくあるのが、Pandasを利用し取得したデータセットをデータフレームに格納するケースです。 データ規模が大きいほど、ある問題が起こります。 例えば、メモリの消費の問題です。 データフレームに格納するということは、PCなどのメモリをそれだけ消費します。 多くの場合、読み込んだ直後のデータフレームは、そのままデータ分析に使えることは少なく、何かしらの加工なり処理がなされ整えられます。 ある程度整えられたデータセットの状態で、データフレームとして格納した方が、メモリの消費量は少なくてすみます。 他には、外部DBのパフォーマンス低
Microsoftが表計算ソフト「Excel」上でPythonを動作させることを可能にすると発表しました。Microsoft 365 Insider Programを通して使用できるベータ版のExcelで既にPythonが利用可能になっています。 Announcing Python in Excel https://techcommunity.microsoft.com/t5/excel-blog/announcing-python-in-excel-combining-the-power-of-python-and-the/ba-p/3893439 新たに導入される「PY」関数を使用すると、セルに直接Pythonのスクリプトを書き込むことができ、書き込まれたスクリプトがMicrosoft Cloud上で実行されてシートに結果が表示されます。サーバーで実行されるPythonにはデータ分析用
Code Interpreterで、matplotlibを使うと日本語の表示ができないため、japanize-matplotlibを用いて日本語化する方法です。 Code Interpreterでjapanize-matplotlibを使う方法japanize-matplotlibの最新版をgithubからダウンロードします。次の画像のDownload ZIPの箇所をクリックすることでダウンロードできます。 Download ZIPの場所Conde Interpreterに次の指示をします。 これはjapanize-matplotlibライブラリのzipファイルです。 これを、/mnt/data/ ディレクトリに解凍してください。 その後、次のコードを実行してください。 ``` import sys sys.path.append('/mnt/data/japanize-matplotli
ChatGPTを使ってデータサイエンティストの生産性を爆上げする活用術をまとめました! また、データサイエンティストがChatGPTを活用するための記事をまとめているので、こちらもぜひ参考にしてみてください。 データ前処理 「ChatGPTを使用すると、「データを分析可能な形に前処理して」といった大雑把なリクエストに対しても、すんなりと対応し、データ前処理を行ってくれます。」 今のところ、大量のデータを前処理する際にChatGPTを利用する場合は、ChatGPTに実際の前処理を行わせるのではなく、前処理用のサンプルコードを教えてもらう方が良いでしょう。 ただし、近い将来にはCSVやExcelを直接アップロード&ダウンロード可能な「Code Interpreter」というプラグインが追加される予定とのことで、実務利用が大いに現実味を帯びると考えられます。 詳細は以下のページで紹介しています!
▼ミリ秒単位のエポックタイムスタンプ 例)1589365629000 (13ケタ) ・セル上での計算式(JSTにする場合) =(タイムスタンプ + 32400000) / 86400000 + 25569 または =(タイムスタンプ + 32400000) / 86400000 + DATE(1970, 1, 1) ・セル上での計算式(UTCにする場合) =(タイムスタンプ) / 86400000 + 25569 ・セルの書式設定 ユーザー定義で「yyyy/m/d h:mm:ss.0」にする ↓ 「2020/5/13 19:27:09.0」と表示できる ▼秒単位の場合 例)1589365629 (10ケタ) ・セル上での計算式(JSTにする場合) =(タイムスタンプ + 32400) / 86400 + 25569 または =(タイムスタンプ + 32400) / 86400 + DATE
(Image by wal_172619 from Pixabay) 去年で恒例の推薦書籍リストの更新は一旦終了したつもりだったんですが、記事を公開して以降に「これは新たにリスト入りさせないわけにはいかない!」という書籍が幾つも現れる事態になりましたので、前言撤回して今年も推薦書籍リストを公開しようと思います。 初級向け6冊 実務総論 データサイエンス総論 R・Pythonによるデータ分析プログラミング 統計学 機械学習 中級向け8冊 統計学 機械学習 テーマ別15冊 回帰モデル PRML 機械学習の実践 Deep Learning / NN 統計的因果推論 ベイズ統計学 時系列分析 グラフ・ネットワーク分析 データ基盤 コメントや補足説明など 完全なる余談 初級向け6冊 今回は新たに加わったテキストがあります。 実務総論 AI・データ分析プロジェクトのすべて[ビジネス力×技術力=価値創出
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く