タグ

ブックマーク / qiita.com/FukuharaYohei (7)

  • scikit-learn数値系特徴量の前処理まとめ(Feature Scaling) - Qiita

    KaggleのTitanicチャレンジで前処理をスムーズにできないかを調べていたら、知らないことも多く勉強となりました。もともと、標準化と正規化という単語すら毎回思い出している程度の理解度だったのでいい機会となりました。標準化と正規化程度しか知らなかったですが、意外と処理方法が多く異常値への考慮で多くの知見を得ることができました。 scikit-learnの数値系特徴量に対する前処理(preprocessing)モジュールを整理しています。基的にscikit-learn ユーザガイド 6.3. Preprocessing data中心です。当はカテゴリ型変数もやろうと思ったのですが、数値系だけで書くこと多すぎたので他記事に書くと思います。 scikit-learnのユーザガイドは素晴らしいのだけど、一方で単語で理解に時間がかかることも多いですね(私の英語力や数理的能力不足)。 カテゴリ

    scikit-learn数値系特徴量の前処理まとめ(Feature Scaling) - Qiita
    sh19910711
    sh19910711 2024/06/18
    "scikit-learnのpreprocessingモジュールに機械学習向け前処理用関数があり / 正規化(normalization): 特徴量の値の範囲を一定の範囲におさめる変換 / 標準化(standardization): 特徴量の平均を0、分散を1にする変換" 2021
  • カテゴリ変数系特徴量の前処理(scikit-learnとcategory_encoders) - Qiita

    カテゴリ変数系特徴量の前処理について書きます。記事「scikit-learn数値系特徴量の前処理まとめ(Feature Scaling)」のカテゴリ変数版です。調べてみるとこちらも色々とやり方あることにびっくり。 前処理種類一覧 カテゴリ変数系特徴量に対する前処理種類の一覧です。有名どころだけを一覧化しています(Entity Embeddingは有名でもない?)。 種類 内容

    カテゴリ変数系特徴量の前処理(scikit-learnとcategory_encoders) - Qiita
    sh19910711
    sh19910711 2024/06/18
    "Target Encoding: ラベルごとの目的変数平均値を割当 + 目的変数の情報を使っているのでリークが起きやすい / Scikit-Learnには該当関数が2021年5月時点でありませんが、category_encodersにはTarget Encoderがあります" 2021
  • FeatureUnionで特徴量結合するシンプルな方法 - Qiita

    Scikit-LearnのFeatureUnion関数が初見で結構わかりにくかったのでメモしておきます。「Marking imputed values」を見ていて?となり、学習しました。 これは特徴量エンジニアリング時に特徴量を一括処理をしてまとめてくれます。Piplelineモジュールに含まれており、有名なPipeline関数の兄弟みたいなものです。 FeatureUnionの簡易版でmaike_union関数があります。使うときは、どちらがいいか検討すべきですね。 シンプルな使い方 irisデータを読み込み、1列目の「sepal length (cm)」だけをDataframeに設定します。DataFrame化せずにNumpy配列のままでもOKですが、単純に私がNumpy慣れしていないので入れているだけです。 import pandas as pd from sklearn impor

    FeatureUnionで特徴量結合するシンプルな方法 - Qiita
    sh19910711
    sh19910711 2024/06/18
    "FeatureUnion: 特徴量エンジニアリング時に特徴量を一括処理 + Piplelineモジュールに含まれており、有名なPipeline関数の兄弟みたいなもの / FeatureUnionにはn_jobsというパラメータがあり並列処理が可能" 2021
  • 機械学習モデル解釈手法概要(PFI, PD, ICE, SHAP) - Qiita

    機械学習のモデル解釈手法を学びました。ほとんどは、書籍「機械学習を解釈する技術」から学んでいます(良書!)。ここに書いているのは、個人的視点でつまみいしている感じなので、興味を持ったら購入おすすめです。 一部、scikit-learnからも学んでいます。 内容 全般 解釈手法一覧 下表が解釈手法の一覧です。 解釈手法 解釈手法(正式名) 内容 視点

    機械学習モデル解釈手法概要(PFI, PD, ICE, SHAP) - Qiita
    sh19910711
    sh19910711 2024/06/13
    "PFI: 特徴量の値をシャッフルして予測値とラベルとの誤差 + Scikit-learnのpermutation_importance関数が使えます / PD: どの機械学習モデルに対しても、同じ方法で計算可能 + 因果関係としての解釈は危険" 2022
  • 軽量LLMをGoogle ColabでPPO ファインチューニング - Qiita

    超軽量LLMのflan-t5-baseをPPO(Proximal Policy Optimization)でファインチューニングしてみました。今回の目的はプログラムを動かすことなので訓練のハイパーパラメータやモデル改善度など基的に見ていません。いずれ格的に実行する時の足がかりに、と思ってやりました。 CPUでは実行できませんでしたが、Google Colabで無料でも使えるT4 GPUで実行できました。動かすことを目的としているので、精度などはあまり見ていません(時間制限を気にせず使えるようにColab Pro契約してます)。 実行環境 2024/4/14時点のGoogle Colab で、Python3.10.12で、以下のパッケージを主に使っています。numpyなど少しだけ使っているやつは省略。 Package Version 備考

    軽量LLMをGoogle ColabでPPO ファインチューニング - Qiita
    sh19910711
    sh19910711 2024/05/09
    "flan-t5-baseをPPOでファインチューニング + T4 GPUで実行できました / 30分ほど訓練 + RoBERTaのヘイトスピーチモデルを使ったToxicity判定で、0.022から0.012へとToxicityが低下 / PPOTrainerを作成。学習率など適当"
  • Pythonでprintを卒業してログ出力をいい感じにする - Qiita

    Pythonである程度しっかり開発することになり、ログ出力について学習しました。2時間くらいで終わらせようと甘く見ていたら、理解に1日以上かけてしまいました。そのくらいprintの次ステップは単純ではなかったです。 記事「ログ出力のための print と import logging はやめてほしい」を読み、全てはないですがエッセンスは理解できたと考えています。 他にも以下の記事は結構読みました。 Python公式 - Logging HOWTO Good logging practice in Python ロギング — The Hitchhiker's Guide to Python - Python ヒッチハイク・ガイド GitHubに今回のコードをのせています。 はじめに - printでもいい場合と卒業する場合 printは簡単にメッセージ出力できるのが良い点です。logging

    Pythonでprintを卒業してログ出力をいい感じにする - Qiita
  • 文系卒社会人が統計入門する最短学習法 - Qiita

    統計の学習をすると、難しい数式が出てきて躓くことも多々あると思います(経験談)。「入門」とつくタイトルのであっても、数学当然知っているよ人間が書いていて、全然理解できないことが多いハズ。 筆者もそんな状態から2年間、試行錯誤をしながら学習し、「入門した!」ぐらいは自信を持って言えるようになりました。ただ、入門しただけなので、それより先は未知の分野です。 2年前の自分自身にアドバイスするつもりで、この記事を書きます。 関連する記事は以下のとおりです。 文系卒社会人が統計・機械学習を理解するための数学勉強方法 高校数学復習を終えると統計学の入門ができるのか? 文系卒社会人が統計入門でのモヤモヤを克服した話 時間と目的別学習方法 統計の裏には数学が密接に関連しています。しかし、数学はどうしても苦手な人もいますし、全ての統計を学習する人が数学のような時間がかかる基礎レベルから理解する必要はないと

    文系卒社会人が統計入門する最短学習法 - Qiita
  • 1