分析コンペLT会 https://kaggle-friends.connpass.com/event/154881/

本記事のコード/ご参照 ・本記事の全体のコードのnotebookを以下にアップしております。あわせてご参照くださいませ。 “Kaggle houseprices-tutorial-code” ・本記事含むKaggleやデータ分析初学者向けのチュートリアル解説本を執筆しました。あわせてご参照くださいませ。 ※本記事のコードや環境構築の詳細手順を記載した書籍となります。 『Pythonで動かして学ぶ!Kaggleデータ分析入門』 ※はじめに 本記事は2020年の上記書籍発売に合わせて内容を加筆・修正しました。そのため執筆当初と内容が異なる箇所がございます。 データサイエンティストの業務は華やかなPythonでの機械学習よりもBigQueryなどでの地道なデータ収集・データ集計に時間が割かれるのではと思います。もちろん、機械学習とデータ集計、どちらが華やかなのかには異論があり、芸術的なQuery
まずは、素うどんのXGBoostにかけて、plot_importance, feature_importances_を確認する。しかる後に、各特徴量をF-SCOREの高い順にExploratory Data Analysis (EDA)を行い、データに対する感覚を掴む。特徴量の数が少ないのであれば、初めからEDA。 情報を含まないcolumnsを除く。[Kaggle Kernel: R, Python] 標準偏差が0の説明変数 (constant cols) を除く。 重複した説明変数 (duplicated cols) を1つだけ残して他を除く。 相関係数が1である説明変数の組 (perfectly correlated cols) を探し、1つだけ残して他を除く。 各列について、値が0である説明変数の数を数えて、合計値を追加の説明変数として加える (count 0 per row)。逆
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く