You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
学習データと評価データの読み込み import pandas as pd import numpy as np # タイタニックデータセットの学習用データと評価用データの読み込み df_train = pd.read_csv("/Users/hinomaruc/Desktop/blog/dataset/titanic/titanic_train.csv") df_eval = pd.read_csv("/Users/hinomaruc/Desktop/blog/dataset/titanic/titanic_eval.csv") 概要確認 # 概要確認 df_train.info() RangeIndex: 891 entries, 0 to 890 Data columns (total 22 columns): # Column Non-Null Count Dtype --- ---
データは21世紀の新しい資源と呼ばれています。しかし、生のデータだけでは、ビジネスの成功をもたらすことはできません。 そこで登場するのが記述的分析です。 この強力なツールは、膨大なデータの海から意味のあるパターンや傾向を抽出し、私たちに分かりやすい形で提示してくれます。 今回は、「データの物語を紡ぐ記述的分析」というお話しをします。 記述的分析とは何か 記述的分析は、データ分析の世界への入り口であり、ビジネスインテリジェンスの基礎です。この手法を理解し効果的に活用することで、データに基づいた意思決定の第一歩を踏み出すことができます。 定義と重要性 記述的分析(Descriptive Analytics)は、データ分析の基本的かつ不可欠な形態です。 この手法は、生のデータを要約し、過去や現在の事象や傾向を理解可能な形で表現することを目的としています。 以下は、記述的分析で実施する主なことです
はじめに 二値分類の評価指標について 「AUCとGini係数ってどんな関係だっけ?」 と毎回忘れては調べているので、いい加減覚える意味で体系的にまとめてみる。 この記事では AUCとは何か? Gini係数とは何か 両者はどんな関係があるか? を理解することを目的とする。 最初に結論 AUCとGini係数の間には の関係がある。 AUCは0.5から1の範囲を取るため、Gini係数は0から1までの範囲を取る。 どちらも値が大きいほど分類性能が良いことを表す。 最終的にこの式を理解することを目的としよう。 AUCを理解しよう AUC (Area Under the Curve)は二値分類における有名な評価指標の一つであり、文字通り、「ROC曲線下の面積」を表す。 ROC曲線とは? ROC (Receiver Operating Charastaristic Curve)は受信者操作特性と呼ばれる
時系列データ関連のお勉強をしたときに、必ず登場する厄介な概念の1つが「定常性(Stationarity)」です。 定常性(Stationarity)は、時系列データの統計的な特性(平均、分散、自己相関など)が時間によらず一定であるという性質を指します。これは、時系列分析において重要な前提条件となる場合が多いです。 具体的には、定常性には以下のような特性があります。 平均が時間によらず一定: これはデータの「中心」が時間とともに変化しないことを意味します。つまり、ある時点での平均値が別の時点での平均値と同じであることを示します。 分散が時間によらず一定: これはデータの「ばらつき」が時間とともに変化しないことを意味します。つまり、ある時点での分散が別の時点での分散と同じであることを示します。 自己共分散(または自己相関)が時間によらず一定: これは2つの時点間の関連性がラグにのみ依存し、時間
多くの論文や学会発表、大学院生が持ってくる解析結果で多変量回帰分析が使われていますが、結構間違って使ってるなー、と思うことが多いです。自分のところの大学院生が持ってきた内容だとその場で指摘できますし、少し前に学会でとても若い先生が指導してくれる人がいないと困っていたので、回帰分析の不備を伝えたところ、とても喜んでくれました。こう言う情報は意外と若い先生方に届いていなくて、自分のできる範囲で伝えられたらな、と思いました。 今回はよく見られる回帰分析の誤った使い方を修正するための、回帰分析について知っておくべき前提条件をまとめます。 どの回帰分析を使うかは従属変数次第 多変量回帰分析は1つの被説明変数(従属変数)と複数の説明変数(独立変数)を投入し、説明変数から被説明変数を導くための回帰式を作ります。多変量回帰分析には重回帰分析、ロジスティック回帰分析、Cox回帰分析と種類がありますが、どの回
機械学習は現代社会において多くの分野で利用されています。 しかし、モデルの設定やハイパーパラメータの調整など、そのプロセスは非常に煩雑であり、多くの時間と専門知識が要求されます。そこで登場するのが「自動機械学習(AutoML)」です。 この記事では、AutoMLの中でも比較的人気のあるライブラリであるAuto-Sklearnを使って、誰でも簡単に機械学習モデルを構築できる方法を解説します。 基本的な使い方から応用例まで、Pythonの実行例付きでご紹介。機械学習に新しい風を吹き込むAuto-Sklearnで、あなたもデータ解析のプロになりましょう! はじめに なぜ自動機械学習(Auto ML)が必要なのか? 機械学習は今や多くの業界で応用されています。医療から金融、製造業まで、データを解析して有用な情報を引き出す力は計り知れません。 しかし、その一方で、機械学習モデルを設計、訓練、テストす
本記事内容および公開データに対して多くのご意見をいただきまして誠にありがとうございました。 プロフィール更新のご連絡をいただきましたため、一部情報を更新しております。その結果、図4の企業ランキングにてLINEヤフー社が4位群に変更となりましたことご報告いたします。 ご意見・ご指摘いただきました方々、この場を借りて御礼申し上げます。 2024.01.26更新 本記事3行要約: ● Competition Grandmasterの総数で、日本が世界TOPに躍進!! ● 7ヶ月間で新たに15名の日本人Competition Grandmasterが誕生!! ● 企業別では、新たに4名のGMが生まれたPreferred Networks社が最多在籍!! *更新情報* 「Kaggle Master 分析レポート 2024版」を公開いたしました。 Grandmaster 分析レポートと合わせてご覧くだ
締切: 2024/05/31 (残り67日) 参加: 18名 投稿: 13件 賞金/賞品: 各種商品 メダル・スコア付与:なし
機械学習初心者がKaggleの「入門」を高速で終えるための、おすすめ資料などまとめ(2023年12月版) こんにちわ、カレーちゃんです。Kaggle GrandMasterです。 Kaggleはデータサイエンスに入門するのにとても適しています。ですが、英語の問題などがあり、入門するのが難しい。そこで、Kaggleの「入門」をこうすれば高速に完了できるというnoteを書きます。 同じタイトルの記事を、2020年8月にも書いたのですが、それから2年以上がたちました。それから、おすすめできる資料が増え、また、私が思う入門のコースもやや変わりましたので、更新をしたいと思います。 1.Kaggleに入門(はじめに取り組むと良い資料)Kaggleには、「タイタニックコンペ」という、練習用のコンペがあります。 これは、事故が起こったタイタニックの乗客のデータから、乗客の生死を予測するという、やりたいこと
データ分析を扱うキャリアへの第一歩. このプログラムでは、即戦力として活躍できるスキルを 6 ヶ月以内で身につけることができます。学位や経験は必要ありません。
「95%信頼区間」とは、「正規分布に従う母集団から標本を取ってきてその平均から95%信頼区間を求めた時に、その区間の中に95%の確率で母平均が含まれる」という意味だと思う人がいるかもしれませんが、これは間違いです。 母平均は決まった値(定数)であり、確率的に変化することはありません。つまり、算出された信頼区間に母平均が「含まれる」か「含まれない」かのどちらかしかありえません。したがって、「母平均が、95%の"確率"で推定した信頼区間に含まれる」と言うことはできません。 正しくは、「母集団から標本を取ってきて、その平均から95%信頼区間を求める、という作業を100回やったときに、95回はその区間の中に母平均が含まれる」という"頻度"もしくは"割合"を意味します。 例えば日本人全員の平均身長(=母平均)が170cmであるとします。このときに、ランダムに選ばれた100人の身長から95%信頼区間を
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く