並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 64件

新着順 人気順

scikit-learnの検索結果1 - 40 件 / 64件

scikit-learnに関するエントリは64件あります。 機械学習pythonPython などが関連タグです。 人気エントリには 『【Python】 機械学習の可視化が捗るライブラリ「Yellowbrick」 - フリーランチ食べたい』などがあります。
  • 【Python】 機械学習の可視化が捗るライブラリ「Yellowbrick」 - フリーランチ食べたい

    機械学習Podcast「TWiML&AI」で先週取り上げられた可視化ライブラリ「Yellowbrick」が非常に便利だったので紹介します!ちなみにPodcastには作者の1人であるRebecca Bilbroさんが出演しているので興味持った方は是非聞いてみてください。 twimlai.com www.scikit-yb.org Yellowbrickとは 一言で言うと、機械学習に特化した可視化ライブラリです。実装的な面で言うと(こちらの方がわかりやすいかもしれません)、scikit-learnとmatplotlibをラップして、scikit-learnライクなAPIで使うことができるものです。 例えば相関行列のヒートマップをプロットしたい場合は次のように書くだけでグラフを作ることができます。 visualizer = Rank2D(features=features, algorithm=

      【Python】 機械学習の可視化が捗るライブラリ「Yellowbrick」 - フリーランチ食べたい
    • [Python]機械学習などでテキストデータを特徴量にする際のソースコード集

      都内の事業会社で分析やWebマーケティングの仕事をしています。大学・大学院では経済学を通じて統計解析を行うなどしておりました。企業に勤めてからは、機械学習やテキストマイニング、クローリング技術などに関心を持っています。 Twitterアカウント Mr_Sakaue( SKUE ) GitHub 読書メーター ほしいものリスト テキストデータの特徴量化について 仕事ではテキストデータを多用するので、機械学習などで扱うためにテキストデータを特徴量にするためのアプローチを色々と整理してソースコードを残しておきたいと思います。今回はあくまでも私の知っているものだけなので、網羅性はないかもしれませんが悪しからず。 (2019/08/18 追記)Stackingをカジュアルに行えるvecstackというモジュールを用いた予測も試してみました。下の方の追記をご覧ください。 アプローチ テキストデータを特

        [Python]機械学習などでテキストデータを特徴量にする際のソースコード集
      • GitHub - microsoft/ML-For-Beginners: 12 weeks, 26 lessons, 52 quizzes, classic Machine Learning for all

        Machine Learning for Beginners - A Curriculum 🌍 Travel around the world as we explore Machine Learning by means of world cultures 🌍 Azure Cloud Advocates at Microsoft are pleased to offer a 12-week, 26-lesson curriculum all about Machine Learning. In this curriculum, you will learn about what is sometimes called classic machine learning, using primarily Scikit-learn as a library and avoiding dee

          GitHub - microsoft/ML-For-Beginners: 12 weeks, 26 lessons, 52 quizzes, classic Machine Learning for all
        • PyTorch/TensorFlow/Keras/scikit-learnライブラリ内蔵のデータセット一覧

          PyTorch/TensorFlow/Keras/scikit-learnライブラリ内蔵のデータセット一覧:AI・機械学習のデータセット辞典 機械学習やディープラーニング用の主要ライブラリが提供する「画像/音声/テキストなどのデータセット」の名前とリンクを表にまとめ、典型的な使い方を簡単に紹介する。 連載目次 本連載「AI・機械学習のデータセット辞典」では、ここまで主に、scikit-learnやKeras/TensorFlow(tf.keras)、TensorFlow Datasets、PyTorchといった主要なPythonライブラリに共通的に含まれる代表的なデータセットを紹介し、各ライブラリでの典型的な実装コード例を示してきた。しかし、これらの全ライブラリに共通的に含まれているデータセットはまれで非常に少ない。よってこれからは、個々のライブラリに1つしか含まれていないようなこまごまと

            PyTorch/TensorFlow/Keras/scikit-learnライブラリ内蔵のデータセット一覧
          • 【PyCaret入門】機械学習を自動化するライブラリ「PyCaret」を入門する - Qiita

            PyCaretとは つい先日Announcing PyCaret 1.0.0という記事を拝見しました。 面白そうなライブラリだったため、この記事では、実際にPyCaretの使い方を解説していきます。 PyCaretとは、機械学習のモデル開発においてデータ前処理や可視化、モデル開発を数行のコードで出来てしまうPythonのライブラリです。 PyCaretはいくつかの主要な機械学習ライブラリ(scikit-learn, XGBoost, LightGBMなど)をPythonでラッパーしたものです。 分類や回帰、クラスタリング、異常検知、自然言語処理が扱えます。 言わば、PyCaretは、DataRobotの無料版のようなイメージです。 基本的に、前処理、モデリング、性能評価、チューニング、可視化まで一通り出来るそうです。 さらに、スタッキング等も出来ます。 (時系列解析やLog lossなどの

              【PyCaret入門】機械学習を自動化するライブラリ「PyCaret」を入門する - Qiita
            • ポケモンデータ解析.py - Qiita

              # https://www.kaggle.com/abcsds/pokemon から取得した Pokemon.csv を読み込む。 df = pd.read_csv("Pokemon.csv") # df とは、 pandas の DataFrame 形式のデータを入れる変数として命名 https://www.kaggle.com/abcsds/pokemon によると、各カラム(列)は次のような意味らしいです。 #: PokeDex index number Name: Name of the Pokemon Type 1: Type of pokemon Type 2: Other Type of Pokemon Total: Sum of Attack, Sp. Atk, Defense, Sp. Def, Speed and HP HP: Hit Points Attack: At

                ポケモンデータ解析.py - Qiita
              • ライフログを可視化してみたら偏食のようすがわかった - 飯田橋ランチマップ - JX通信社エンジニアブログ

                「JX通信社Advent Calendar 2019」11日目の記事です. 昨日は, @shinyoke さんの「PySparkはじめました - 分散処理デビューする前にやったこと」でした。 こんにちは. 同じくJX通信社でデータ基盤エンジニアをしています, @maplerと申します。 はじめに 今回はちょっと美味しい話をします。 昼時間になったらよくある話 「今日昼飯どこにいきますか?」 「わからない。。」 JX通信社オフィスがある飯田橋周辺美味しい店たくさんありまして、どこでランチを食べればいいのかわからない。 ちょうど2年前、Moves App というライフログアプリを一年半ほど利用してたので、そのデータを利用して自分の飯田橋ランチマップを作ってみようと思います。 やったこと GeoPandas と GeoPy で位置情報の解析 Mapbox + Plotly で位置情報の可視化 S

                  ライフログを可視化してみたら偏食のようすがわかった - 飯田橋ランチマップ - JX通信社エンジニアブログ
                • Python: 時系列データの交差検証と TimeSeriesSplit の改良について - CUBE SUGAR CONTAINER

                  一般的に、時系列データを扱うタスクでは過去のデータを使って未来のデータを予測することになる。 そのため、交差検証するときも過去のデータを使ってモデルを学習させた上で未来のデータを使って検証しなければいけない。 もし、未来のデータがモデルの学習データに混入すると、本来は利用できないデータにもとづいた楽観的な予測が得られてしまう。 今回は、そんな時系列データの交差検証と scikit-learn の TimeSeriesSplit の改良について書いてみる。 使った環境は次のとおり。 $ sw_vers ProductName: Mac OS X ProductVersion: 10.14.6 BuildVersion: 18G3020 $ python -V Python 3.8.1 下準備 あらかじめ、必要なパッケージをインストールしておく。 $ pip install scikit-le

                    Python: 時系列データの交差検証と TimeSeriesSplit の改良について - CUBE SUGAR CONTAINER
                  • Scrapyとscikit-learn、Streamlitで作るかんたん機械学習アプリケーション / Making ML App with Scrapy, scikit-learn, and Streamlit

                    Scrapyとscikit-learn、Streamlitで作るかんたん機械学習アプリケーション / Making ML App with Scrapy, scikit-learn, and Streamlit DeNAのデータサイエンス輪講(DS輪講)での発表内容です。 Scrapyとscikit-learn、Streamlitを使うことで、機械学習を使ったデモアプリをクイックに作ることができます。 ソースコードはGitHubに公開しています。 https://github.com/amaotone/movie-recommendation-demo

                      Scrapyとscikit-learn、Streamlitで作るかんたん機械学習アプリケーション / Making ML App with Scrapy, scikit-learn, and Streamlit
                    • 特徴量と目的変数の関係性を可視化する(sklearnを使ってpartial dependenceを可視化する) | DevelopersIO

                      概要 当エントリは『機械学習 on AWS Advent Calendar 2019』の20日目のエントリです。 クラスメソッド 機械学習 on AWS Advent Calendar 2019 - Qiita クラスメソッド 機械学習 on AWS Advent Calendar 2019 | シリーズ | Developers.IO 先日、sklearnのversion「0.22」のリリースハイライトを見ていて「plot_partial_dependence」というAPIが気になり調べてみたので、結果をレポートします。 本エントリーの内容をざっくり言うと、「目的変数と特徴量の関係性」を可視化する際に便利なAPIである「plot_partial_dependence」が「sklearnの version0.22」でリリースされたのでその内容のレポートと、というものになります。 目的変数と

                        特徴量と目的変数の関係性を可視化する(sklearnを使ってpartial dependenceを可視化する) | DevelopersIO
                      • scikit-learn-contrib の Metric Learning を試す - u++の備忘録

                        Metric Learning について Metric Learning は、データの教師情報を基にデータ間の距離や類似度などの Metric を学習する手法です。日本語で手軽に読める記事だと、*1, *2 などが詳しいです。 このたび、phalanx さんの tweet *3で、 Metric Learning の基礎的なアルゴリズムのいくつかが scikit-learn-contrib *4に搭載されていると知りました。 本記事では、scikit-learn-contrib の metric-learn パッケージを用いて、簡単にMetric Learning を試します。 インストール README や PyPI *5 に記載のある通り、次の通りにインストールします。 pip install metric-learn 利用するデータセット 今回は、sklearn に含まれている lo

                          scikit-learn-contrib の Metric Learning を試す - u++の備忘録
                        • scikit-learnのモジュール全部説明する - Qiita

                          scikit-learn(機械学習のpythonライブラリ)のモジュールを全部説明しました モチベ:スクラッチで実装した後で「あ〜組み込みであったのかよ〜」となり、悲しみが発生したため 公式 API Referenceを参考に書いています 公式用語集と合わせてご覧ください 個人的によく使うものは太字にしています 記事内容にプルリクがある場合はコメントいただけると嬉しいです 名前 説明

                            scikit-learnのモジュール全部説明する - Qiita
                          • 【初心者向け】 機械学習におけるクラス分類の評価指標の解説 - OPTiM TECH BLOG

                            こんにちは。R&Dチームの河野です。主な担当業務は機械学習モデルの開発です。 タイから日本に留学し、卒業後日本企業に就職していました。データ分析・機械学習の業務経験が3年程度で、R&Dチーム唯一の女性かつ外国人のメンバーです。 直近の仕事はディープラーニングによるクラス分類モデルの開発を担当しており、今回はモデル精度評価によく使われる評価指標について初心者向け説明させて頂きたいと思います。機械学習モデルの精度改善には課題に適切な評価指標の選択がすごく重要のため、各評価指標の理解が必要になります。分類モデル開発に興味を持っている方・挑戦してみたい方にご参考になれば幸いです。 基本的な用語 ポジティブとネガティブクラス 混合行列 評価指標 正解率(Accuracy) 適合率(Precision) 再現率(Recall) F値(F1-score) しきい値とprecision-recallのトレ

                              【初心者向け】 機械学習におけるクラス分類の評価指標の解説 - OPTiM TECH BLOG
                            • scikit-learnで機械学習パイプラインをインタラクティブに描画、HTML保存する方法 - Qiita

                              本記事では、scikit-learnのv0.23から搭載された、インタラクティブなパイプライン確認の実装、そしてそれをHTML化して保存、活用する方法を解説します。 環境 scikit-learn==0.23.2 Google Colaboratory 本記事の実装コードはこちらに置いています https://github.com/YutaroOgawa/Qiita/tree/master/sklearn 実装 [1] バージョン更新 まず、Google Colaboratoryのscikit-learnのバージョンが2020年9月ではv0.22なので、v0.23へと更新します。 !pip install scikit-learn==0.23.2 pipで更新したあとは、Google Colaboratoryの「ランタイム」→「ランタイムを再起動」を実行し、 ランタイムを再起動します。 (

                                scikit-learnで機械学習パイプラインをインタラクティブに描画、HTML保存する方法 - Qiita
                              • 機械学習アルゴリズムの分類と実装まとめ - Qiita

                                はじめに 機械学習の分類とそれらのアルゴリズムのライブラリを用いた簡単な実装をまとめました。 各アルゴリズムのコードはサンプルデータまで含めているので、そのまま実行することができます。 必要最低限のパラメータしか設定していないので、細かい設定は公式ドキュメントなど参照して設定してください。 それぞれのアルゴリズムについては、簡単な説明は載せてますが、詳しい説明はしていません。 対象読者 機械学習アルゴリズムの分類を知りたい 機械学習アルゴリズムを実装して動かしたい ゴール 機械学習のアルゴリズムの分類がわかる 機械学習アルゴリズムの実装ができる 機械学習の分類 機械学習は以下のように分類されます。 教師あり学習 回帰 分類 教師なし学習 強化学習 今回は、強化学習の実装は扱いません。 教師あり学習 教師あり学習は、特徴を表すデータ(特徴量、説明変数)と答えとなるデータ(ラベル、目的変数)か

                                  機械学習アルゴリズムの分類と実装まとめ - Qiita
                                • 【機械学習】決定木をscikit-learnと数学の両方から理解する - Qiita

                                  1.目的 機械学習をやってみたいと思った場合、scikit-learn等を使えば誰でも比較的手軽に実装できるようになってきています。 但し、仕事で成果を出そうとしたり、より自分のレベルを上げていくためには 「背景はよくわからないけど何かこの結果になりました」の説明では明らかに弱いことが分かると思います。 この記事では、2~3で「理論はいいからまずはscikit-learn使ってみる」こと、4以降で「その背景を数学から理解する」2つを目的としています。 ※私は文系私立出身なので、数学に長けていません。可能な範囲で数学が苦手な方にもわかりやすいように説明するよう心がけました。 ※「数学から理解する」シリーズとして、同様の記事を投稿していますので、併せてお読みいただけますと幸いです。 【機械学習】線形単回帰をscikit-learnと数学の両方から理解する 【機械学習】線形重回帰をscikit-

                                    【機械学習】決定木をscikit-learnと数学の両方から理解する - Qiita
                                  • 形態素解析の精度向上を頑張った話 - Leverages データ戦略ブログ

                                    はじめに こんにちは。データ戦略室データエンジニアリンググループの森下です。 普段はデータエンジニアとして、主にデータ活用基盤の保守運用や機能追加、ツール開発やデータ抽出・可視化といった業務を行っています。もともと機械学習への興味はありましたが、本記事の内容以前では、業務で使用したことはありませんでした。今回、初めて機械学習の業務を経験する事ができ、非常に多くのことを学ぶことができました。本記事は未経験者の奮闘記となりますので、これから機械学習を学ぶ方・業務に活かす方にとって参考になれば幸いです。 経緯について データエンジニアとしてデータ活用基盤の構築や保守運用をしていく中で、機械学習へのデータ活用は自然と考える部分です。しかし、書籍やチームの勉強会で機械学習について少しずつ学んではいるものの、業務で機械学習を使用したことはありませんでした。 そのような状況の中で、機械学習の業務に携わり

                                      形態素解析の精度向上を頑張った話 - Leverages データ戦略ブログ
                                    • 実際にscikit-learnで出力されるPrecisionやRecallを事例に、適合率と再現率の意味を説明しようと思う - Qiita

                                      実際にscikit-learnで出力されるPrecisionやRecallを事例に、適合率と再現率の意味を説明しようと思う 分類モデルの評価指標として、適合率や再現率などがあります。Web上で多くの解説記事がありますが、scikit-learnのclassification_reportに表示される各指標を読み解くためには、プラスアルファの理解が必要です。この記事では、実際にscikit-learnで出力される内容を例にして、適合率と再現率の意味を解説します。 Webとかでよくある説明 機械学習で分類モデルを評価するとき、正解率(Accuracy)、適合率(Precision)、再現率(Recall)、F1-scoreなどの評価指標をよく利用します。これらの解説として、以下のような2値分類の説明が多くあります。 正解率(Accuracy) 正解率(Accuracy) は、全体の中で正解した

                                        実際にscikit-learnで出力されるPrecisionやRecallを事例に、適合率と再現率の意味を説明しようと思う - Qiita
                                      • 11月新刊情報『scikit-learn、Keras、TensorFlowによる実践機械学習 第2版』

                                        Aurelien Geron 著、下田 倫大 監訳、長尾 高弘 訳 2020年11月4日発売予定 832ページ ISBN978-4-87311-928-1 定価5,280円(税込) 本書はコードを動かしながら学び、機械学習が使えるようになることを目的とした書籍です。現実的な問題を出し、サンプルデータを示しながら、機械学習で問題を解決に導くまでの一連の手法を体系立てて解説します。 深層学習以外の機械学習にはscikit-learnを使い、機械学習プロジェクトの流れ、データからモデルを学習する方法、データの処理・クリーニングなどの基礎から、特徴量の選択や過学習、データの次元削減など応用までを学びます。深層学習にはTensorFlowとKerasを使い、ニューラルネットワークの構築と訓練、ニューラルネットワークアーキテクチャ、深層学習や強化学習、さらにTensorFlowの分散処理のメカニズムや

                                          11月新刊情報『scikit-learn、Keras、TensorFlowによる実践機械学習 第2版』
                                        • なぜ書きやすい?人気の開発環境は?Pythonを巡る疑問に答える

                                          Pythonはなぜ書きやすく読みやすいと言われるのか?Python用のAI(人工知能)関連ライブラリーが豊富なのは、そもそもなぜなのか?Pythonプログラマーはどんな開発環境を使っているのか。Pythonを使う上で気になる3つの疑問に答える。 Q1 なぜ書きやすい? A 面倒な「型宣言」が不要 Pythonはプログラムのソースコードが書きやすく、他人の書いたソースコードでも読みやすいと言われる。その理由は大きく3つある。 第1はライブラリーの充実だ。機械学習など第三者が作った外部ライブラリーだけでなく、Python本体が同梱する標準ライブラリーの機能も豊富だ。これによりCSVファイルを操作したりWebサイトにアクセスしたりする処理が数行で書ける。 第2はPythonが変数の型が実行時に決まる動的型付けを採用するため、プログラムを書くときに型を意識しなくていいことだ。Javaなど他の言語な

                                            なぜ書きやすい?人気の開発環境は?Pythonを巡る疑問に答える
                                          • SageMakerとServerlessを組み合わせて、お手軽にscikit-learnの機械学習APIを作る - フリーランチ食べたい

                                            SageMakerとServerlessを使ってscikit-learnの機械学習APIを作る方法を紹介します。 公式ドキュメントやその他の記事の多くはコンソール操作やnotebook上での操作が多く含んでいて、そのコードのまま本番運用に使うのは難しいと感じたので、この記事では コンソール操作やnotebook上での操作なしでスクリプトだけで完結 できるようにしています。カスタマイズすれば本番運用で使えるはずです。 また公式ドキュメントにもExampleがいくつかあるのですが、色々な処理を含んでいて、自分には理解し辛い部分がありました。今回、SageMakerを理解するためにもっとシンプルなToy Exampleを作ってみました。 作るもの 環境 アーキテクチャ構成 フォルダ構成 事前準備 Layer作成 Resource作成/環境変数定義 学習用のデータをS3にアップロード モデル学習&

                                              SageMakerとServerlessを組み合わせて、お手軽にscikit-learnの機械学習APIを作る - フリーランチ食べたい
                                            • Permutation Importanceを使って検証データにおける特徴量の有用性を測る - Qiita

                                              本記事は、AI道場「Kaggle」への道 by 日経 xTECH ビジネスAI① Advent Calendar 2019のアドベントカレンダー 9日目の記事です。 Permutation ImportanceがScikit-Learnのversion0.22より導入されました。この手法はKaggleでも使われており1 、特徴選択に有用な方法です。本記事ではこのPermutation Importanceの解説と、LightGBMで5-foldでCVしながら使ってみた例を紹介します。コードの全文はKaggle Kernelとして登録してありますので、コードだけサクっとみたい方はこちらをどうぞ。 1. Permutation Importanceとは Permutation Importanceとは、機械学習モデルの特徴の有用性を測る手法の1つです。よく使われる手法にはFeature Imp

                                                Permutation Importanceを使って検証データにおける特徴量の有用性を測る - Qiita
                                              • scikit-learn の機械学習パイプライン

                                                はじめに 機械学習で予測モデルを作るときは データの分割 データの前処理 予測モデルの学習 クロスバリデーションによるハイパーパラメータチューニング といった手順を踏む必要がある。慣れるまではこれらの手順に対応する scikit-learn のクラスをひとつひとつ呼び出して自分で一連の処理をやってみるのが勉強になるが、慣れてしまうと似たような手続きを毎回書くのは非常に面倒くさい。 scikit-learn には、この一連の処理を簡潔に記述するためのパイプラインの仕組みがあるので、その使用方法について説明する。 一連のコードは Google Colab 上にアップロードしてある。 データの分割 これは人間が管理すべき問題なので、自動化もやろうと思えばできるだろうが、人間がいちいちやったほうがよい。機械学習をやるとき、データは基本的に 訓練データ 教師データともいう。予測モデルを学習させるため

                                                  scikit-learn の機械学習パイプライン
                                                • リッジ回帰やラッソ回帰で因果推論できるのか? - Qiita

                                                  はじめに 因果推論を行う手法の1つとして、線形回帰が挙げられます。今回は、その線形回帰の拡張とも言えるリッジ回帰(Ridge回帰)やラッソ回帰(Lasso回帰)を用いて因果効果を推定してみるとどうなるのか、Pythonによるシミュレーションと共にまとめました。内容に誤り等ございましたら、ぜひご指摘いただけますと幸いです。 結論 リッジ回帰やラッソ回帰を用いると、うまく因果効果を推定することができません。 これは、リッジ回帰やラッソ回帰を行うことで、線形回帰(線形回帰モデルをOLS推定)による推定値よりも汎化誤差が小さくなる一方で、不偏性と呼ばれる因果効果をバイアスなく推定するために必要な性質が失われてしまうからです。 通常の線形回帰における最小二乗法(OLS)では、下記の損失関数を最小化するパラメータを求めます。

                                                    リッジ回帰やラッソ回帰で因果推論できるのか? - Qiita
                                                  • GitHub - sktime/sktime: A unified framework for machine learning with time series

                                                    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                      GitHub - sktime/sktime: A unified framework for machine learning with time series
                                                    • Pythonで統計・データ分析!~基本統計量の活用と機械学習の基本

                                                      Pythonで統計・データ分析!~基本統計量の活用と機械学習の基本:数学×Pythonプログラミング入門(1/5 ページ) データ分析において最もよく使われる表形式のデータを取り扱う方法を見ていく。まず、pandasデータフレームの基本的な取り扱い方法を確認し、次に、各種の基本統計量を求める。また、基本統計量の可視化を行い、データの「見方」についても触れる。最後に、scikit-learnを使った回帰と分類の簡単な例を紹介する。

                                                        Pythonで統計・データ分析!~基本統計量の活用と機械学習の基本
                                                      • Python: アンサンブル学習の Voting を試す - CUBE SUGAR CONTAINER

                                                        今回は機械学習におけるアンサンブル学習の一種として Voting という手法を試してみる。 これは、複数の学習済みモデルを用意して多数決などで推論の結果を決めるという手法。 この手法を用いることで最終的なモデルの性能を上げられる可能性がある。 実装については自分で書いても良いけど scikit-learn に使いやすいものがあったので、それを選んだ。 sklearn.ensemble.VotingClassifier — scikit-learn 0.20.2 documentation 使った環境は次の通り。 $ sw_vers ProductName: Mac OS X ProductVersion: 10.14.1 BuildVersion: 18B75 $ python -V Python 3.7.1 下準備 まずは今回使うパッケージをインストールしておく。 $ pip insta

                                                          Python: アンサンブル学習の Voting を試す - CUBE SUGAR CONTAINER
                                                        • Scikit-LLM: Sklearn Meets Large Language Models

                                                          Scikit-LLM is a game-changer in text analysis. It combines powerful language models like ChatGPT with scikit-learn, offering an unmatched toolkit for understanding and analyzing text. With scikit-LLM, you can uncover hidden patterns, sentiment, and context in various types of textual data, such as customer feedback, social media posts, and news articles. It brings together the strengths of languag

                                                            Scikit-LLM: Sklearn Meets Large Language Models
                                                          • 4行でモデル構築と予測ができるAutoML OSSの老舗「auto-sklearn」

                                                            4行でモデル構築と予測ができるAutoML OSSの老舗「auto-sklearn」:AutoML OSS入門(2)(1/3 ページ) AutoML OSSを紹介する本連載第2回は、AutoML OSSの老舗ともいえる「auto-sklearn」を解説します。auto-sklearnは、scikit-learnを拡張した形で、効率的なベイズ最適化手法を用いたAutoML機能を提供するツールです。

                                                              4行でモデル構築と予測ができるAutoML OSSの老舗「auto-sklearn」
                                                            • ハイパーパラメータとは?チューニングの手法を徹底解説(XGBoost編)

                                                              【macOS】 macOS Mojvabe 10.14.6 Python 3.6.9 NumPy 1.14.6 Pandas 0.22.0 Scikit-Learn 0.20.1 XGBoost 1.0.2 ハイパーパラメータ(英語:Hyperparameter)とは機械学習アルゴリズムの挙動を設定するパラメータをさします。少し乱暴な言い方をすると機械学習のアルゴリズムの「設定」です。 この設定(ハイパーパラメータの値)に応じてモデルの精度やパフォーマンスが大きく変わることがあります。例えば男女を分類するモデルを構築していた場合、特に調整を行わずに初期設定のままモデリングを行なった結果、最初は90%の正解率を得ることができたとします。90%の精度では使い物にならないと上司に怒られたので、ハイパーパラメータ(モデルの設定)を調整したところ93%へ改善することがあります。ハイパーパラメータチュ

                                                                ハイパーパラメータとは?チューニングの手法を徹底解説(XGBoost編)
                                                              • 主成分分析を Python で理解する - Qiita

                                                                主成分分析(principal component analysis)とは多変量解析手法のうち次元削減手法としてよく用いられる手法の一種で、相関のある多変数から、相関のない少数で全体のばらつきを最もよく表す変数を合成します。 主成分分析を行う便利なツールとして、Pythonで利用可能なScikit-learnなどがありますが、ここではScikit-learnでのPCAの使い方を概観したあと、Scikit-learnを使わずにpandasとnumpyだけでPCAをしてみることで、Pythonの勉強とPCAの勉強を同時に行いたいと思います。 プログラミングにおいて大事なのは「コピペ・タブ補完・ヒストリー機能を極力使うこと」、「一字一句を理解できないと先に進めないのではなく、まずは全部を理解できなくてもいいからゴールまで辿り着き、中身の理解はその後ですること」、「出来上がっているコードの中で、ど

                                                                  主成分分析を Python で理解する - Qiita
                                                                • 【Python】scikit-learn Pipeline と前処理の設定ファイル化 |

                                                                  sklearn.pipeline.Pipeline sklearn.pipeline.Pipeline を上手く使うとfit, transform, predict を一つの Python オブジェクトにまとめられコードが簡潔になったり, 手続き型的なコードと比較してミスが減りやすくなる利点がある。 前処理に関する変換を scikit-learn ぽいクラスにして, これらを繋いだ変換パイプラインを作ってみる。パイプラインで使うには最後のステップ以外は次のステップで使う表現を生成する transform() をクラスメソッドに実装する必要がある。 また, 今回はパラメータに渡す値は設定ファイルから読み出す仕組みにする。 # -*- coding: utf-8 -*- import re import numpy as np import pandas as pd from sklearn.

                                                                  • 【入門者向け】特徴量選択の基本まとめ(scikit-learnときどきmlxtend) - Qiita

                                                                    手法 1. Filter Method Filter Methodは統計的な手法(分散やχ二乗検定など)で特徴量の評価・選択をします。他の手法に比べると計算量が少なく、最初に足切りで実施するものだと考えています(経験浅いのであまり根拠なし)。 1.1. 低分散変数の削除 分散が低ければ、説明変数としての意味ないと考え特徴から削除する方法です。VarianceThreshold関数を使います。 今回の例では分散0としており、まったく変動していない特徴を対象とします。ベルヌーイ分布の分散であるp(1 − p)を使うのもありかと思います。 分散0はPandasのget_dummies関数でオプションdummy_naを使った時に出てしまいました。欠損値がある特徴があったため、get_dummies関数を使ったのですが、欠損値がない特徴量もNaNの列ができてしまい、すべて値が0で分散が0の列ができて

                                                                      【入門者向け】特徴量選択の基本まとめ(scikit-learnときどきmlxtend) - Qiita
                                                                    • scikit-learnで混同行列を生成、適合率・再現率・F1値などを算出 | note.nkmk.me

                                                                      クラス分類問題の結果から混同行列(confusion matrix)を生成したり、真陽性(TP: True Positive)・真陰性(TN: True Negative)・偽陽性(FP: False Positive)・偽陰性(FN: False Negative)のカウントから適合率(precision)・再現率(recall)・F1値(F1-measure)などの評価指標を算出したりすると、そのモデルの良し悪しを判断できる。 scikit-learnのsklearn.metricsモジュールにそれらを簡単に算出するための関数が用意されている。 3.3. Model evaluation: quantifying the quality of predictions — scikit-learn 0.20.3 documentation ここではまず混同行列について説明する。 混同行列

                                                                        scikit-learnで混同行列を生成、適合率・再現率・F1値などを算出 | note.nkmk.me
                                                                      • 線形分類不能なデータでもサポートベクターマシンがあれば大丈夫です!【サンプルコード有り】 | 自動化ラボっ!

                                                                        はじめに 前回の記事ではscikit-learnのiris(あやめ)のデータを使ってロジスティクス回帰による分類問題に挑戦しました。使用したデータは、比較的素直な分類しやすいデータだったので、ロジィステック回帰でも適度な分類ができたと思います。 しかし、実際のデータはそう簡単に分類できないものも多くあります。特にデータの中で潜在的に分割できるポイントがあればいいのですが、実際はそうとは限りません。考えてみれば当然で、ぱっと見でデータに相関関係が見て取れる場合、そのデータを分析に回すことはないでしょう。 本記事ではこうしたカンタンに分類できないデータ(線形分類不能なデータを)分類する方法として、scikit-learnの分類アルゴリズムであるサポートベクターマシン(SVM)をご紹介します。本格的にSVMを理解しようとすると大学院レベルの数学が必要となりますので、あまり内部のメカニズムには立ち

                                                                          線形分類不能なデータでもサポートベクターマシンがあれば大丈夫です!【サンプルコード有り】 | 自動化ラボっ!
                                                                        • conda Numpyのようにscikit-learnも高速化する方法 - Qiita

                                                                          最近、condaで入れるNumpyの方が、pipで入れるNumpyより動作が早いことが少し話題になっています(元記事は最近ではないのですが)。本記事では、scikit-learnもインストールを工夫すれば、より高速に動作することを解説します。 はじめに 記事、「Anaconda の NumPy が高速みたいなので試してみた」 https://tech.morikatron.ai/entry/2020/03/27/100000 を最近Twitterのタイムラインで何度も見かけました(元記事は20年3月に記載されたものですが)。 condaでインストールするNumpyの方が、pipでインストールするNumpyより早い、というお話です。 なぜ早いの? 上記の記事では、CPUで「Intel Core i7-9750H」を使用しています。 このCPUの仕様は以下です。 https://www.int

                                                                            conda Numpyのようにscikit-learnも高速化する方法 - Qiita
                                                                          • 非線形がなんだ! ロジスティック回帰+多項式でやってやる! - 静かなる名辞

                                                                            はじめに ロジスティック回帰はいうまでもなく線形分類器です。なので、非線形の分類問題は本来解けません。 ロジスティック回帰が線形分離不可能な分類問題を解けないことの説明 - 静かなる名辞 しかし、特徴量を非線形変換したり、交互作用項を入れたりして使えば、非線形の分類問題にも十分使えます。 参考: 交互作用項を入れればロジスティック回帰でも非線形分離可能になることもある - 六本木で働くデータサイエンティストのブログ どれくらいの威力があるのでしょうか? やってみましょう。 準備 便利なmain関数を作っておきましょう。 def main(X, y, model, figname): model.fit(X, y) cm_bright = ListedColormap(['#FF0000', '#0000FF']) plt.scatter(X[:, 0], X[:, 1], c=y, cma

                                                                              非線形がなんだ! ロジスティック回帰+多項式でやってやる! - 静かなる名辞
                                                                            • scikit-learnのLatent Dirichlet Allocation (LDA) のcoherenceを求める - Qiita

                                                                              scikit-learnのLatent Dirichlet Allocation (LDA) のcoherenceを求めるPython機械学習scikit-learnLDA はじめに ちゃお…† まいおり…† LDA (Latent Dirichlet Allocation)、わたしの好きなモデルです。 しかし、現時点のscikit-learn (1.2.2) にはLDAモデルのcoherence (コヒーレンス) を求める関数はありません。 そこで強引に?LDAモデルのcoherenceを求める方法を記します。 コヒーレンスとは 記述や事実の集合は、それらが互いに支持し合っている場合、首尾一貫している (coherent) と言われます。したがって、首尾一貫した事実の集合は、事実のすべてまたは大部分をカバーする文脈で解釈することができます。 トピックのコヒーレンスを測るとは、トピック内の

                                                                                scikit-learnのLatent Dirichlet Allocation (LDA) のcoherenceを求める - Qiita
                                                                              • ScikitAllStars: 主要なscikit-learnの教師あり機械学習法を全部Optunaでチューニングしてスタッキングまでやっちゃうツール - Qiita

                                                                                教師あり機械学習法はたくさんありますが、scikit-learn に入ってるもののうち主なものを全部使って、optunaでハイパーパラメーターチューニングして、できたモデルをさらにstackingしてしまうという一連の作業をまとめて行うライブラリ ScikitAllStars を作りました。 なぜこんなツールを作ったかって?めんどいからです。 また、ScikitAllStars の特徴として、教師あり機械学習が「回帰問題」なのか「分類問題」なのかという違いをほとんど意識せずに使えるというところもあります。 以下のコードは全て Google Colaboratory 上で動作を確認済みです。 必要なツールのインストール

                                                                                  ScikitAllStars: 主要なscikit-learnの教師あり機械学習法を全部Optunaでチューニングしてスタッキングまでやっちゃうツール - Qiita
                                                                                • https://intel.github.io/scikit-learn-intelex/

                                                                                  新着記事