サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
体力トレーニング
uribo.github.io
前書き このページは徳島大学デザイン型AI教育研究センターが 開催する、小中高生を対象にした「とくぽんAI塾 2023」のコースの一つである「データ分析入門」 の資料置き場です。 コースは基礎編と発展編の2つに分けられます。基礎編では、データ分析に必要な知識・背景の理解のための 素養を身につけることを目指します。発展編ではデータ分析の問題への挑戦として、回帰と分類問題について 取り組みます。 このコースでは、基礎から発展まで通して R言語を使ったデータ分析を行います。 まずデータ分析についての大まかな内容とデータ分析で扱われる課題について第1章で学びます。 次に第2章では、データの種類と扱い方、表現方法を身につけます。 第3章ではデータを要約ようやくし、伝えやすくするための方法を紹介します。 ここでは特に1つの変数へんすうについて扱います。 第4章は2つの変数の関係を調べるための相関につい
実践的データサイエンス はじめに データ分析のためにコンピュータを利用する際、RおよびPython言語のいずれかを使うことが多いと思います(Julia言語は高レベル・高パフォーマンスな技術計算のための言語で今後期待が膨らみます)。これらの2つの言語では、データ操作や可視化、データ分析、モデリングに使われるライブラリが豊富にあり、 どれを使うのが良いのか迷うような状況が続いていました。しかしその状態は落ち着きを見せ、成熟期を迎えつつあります。 R言語ではパイプ演算子の登場によりデータフレームに対する操作に大きな変化が生じ、tidyverseによるデータ読み込みからデータ整形、可視化までが可能になりました。またtidyverseのような、機械や人間の双方が扱いやすいパッケージが増えてきました。特にR言語の強力な一面でもあったデータ分析の操作はtidymodelsに代表されるパッケージがユーザの
class: center, middle, inverse, title-slide # データ分割 ## Part of 📖Data Preprocessing Cookbook 👨🍳 ### Uryu Shinya ### <span style="font-size: 70%;"><i class="fab fa-github "></i> uribo <i class="fab fa-twitter "></i> u_ribo</span> ### 2019-06-30 (updated: 2019-06-30) --- # 概要 - 予測モデルの性能を評価、過学習を防ぐためにデータ分割の処理が必要となる - データセットをモデル構築用と評価用のデータに分ける - データセットの大きさ、特性(クラスやグループが存在するか、時系列かどうか)に応じてリサンプリングの方法を変え
📖 Data Preprocessing Cookbook 👨🍳 R言語でのモデリングおよび統計解析のためのパッケージを扱うtidymodelsの中から{recipes}, {embed}, {textrecipes} パッケージを使ったデータ前処理、特徴量エンジニアリングの手法を紹介します。 (余力があればPython、scikit-learn preprocessing等を利用した処理手順についても書きます) TOC パッケージ全般 データ整形 スケーリング処理 特徴量選択(フィルタ法) 次元削減 不均衡データに対する調整 欠損値への対応 kNN データ分割 特徴量エンジニアリング numeric categorical text date and time coordinates モデル・アルゴリズムあれこれ 線形回帰 ランダムフォレスト 評価指標あれこれ パラメータ探索 D
このページを最初にブックマークしてみませんか?
『uribo.github.io』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く