scikit-learnの人気記事 43件 - はてなブックマーク

1 - 40 件 / 43件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

scikit-learnの検索結果1 - 40 件 / 43件

scikit-learnに関するエントリは43件あります。機械学習、 Python、 python などが関連タグです。人気エントリには『データサイエンス系チートシートを網羅してみた - Qiita』などがあります。

データサイエンス系チートシートを網羅してみた - Qiita
- 515 users
- qiita.com/tarantula426
- テクノロジー
- 2025/01/13
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? はじめにこの記事では、私がこれまでXで発信してきたデータサイエンスに関わるさまざまな分野のチートシートを一挙にまとめました。前処理、可視化、機械学習、深層学習、ベイズ・統計、さらにはその他の関連トピックまで、私が作成したものからネット上のものまで多岐にわたる内容を網羅しています。それぞれのセクションでは、実践的かつ即戦力となる情報が詰まったチートシートを紹介しており、初心者から上級者まで幅広い層に役立つ内容を目指しました。日頃からX（旧Twitter）を通じて、データサイエンスに関する知識や役立つリソースを共有していますが、今回の
GitHub - microsoft/ML-For-Beginners: 12 weeks, 26 lessons, 52 quizzes, classic Machine Learning for all
- 303 users
- github.com/microsoft
- テクノロジー
- 2021/07/01
🌍 Travel around the world as we explore Machine Learning by means of world cultures 🌍 Cloud Advocates at Microsoft are pleased to offer a 12-week, 26-lesson curriculum all about Machine Learning. In this curriculum, you will learn about what is sometimes called classic machine learning, using primarily Scikit-learn as a library and avoiding deep learning, which is covered in our AI for Beginners
- 機械学習
- microsoft
- あとで読む
- github
- 学習
- machinelearning
- machine learning
- AI
- python
- learning
Scrapyとscikit-learn、Streamlitで作るかんたん機械学習アプリケーション / Making ML App with Scrapy, scikit-learn, and Streamlit
- 46 users
- speakerdeck.com/amaotone
- テクノロジー
- 2020/10/21
DeNAのデータサイエンス輪講（DS輪講）での発表内容です。 Scrapyとscikit-learn、Streamlitを使うことで、機械学習を使ったデモアプリをクイックに作ることができます。ソースコードはGitHubに公開しています。 https://github.com/amaotone/m…
- python
- streamlit
- スクレイピング
- 機械学習
- scrapy
- ML
- slide
- あとで読む
【初心者向け】機械学習におけるクラス分類の評価指標の解説 - OPTiM TECH BLOG
- 33 users
- tech-blog.optim.co.jp
- テクノロジー
- 2021/05/31
こんにちは。R&Dチームの河野です。主な担当業務は機械学習モデルの開発です。タイから日本に留学し、卒業後日本企業に就職していました。データ分析・機械学習の業務経験が3年程度で、R&Dチーム唯一の女性かつ外国人のメンバーです。直近の仕事はディープラーニングによるクラス分類モデルの開発を担当しており、今回はモデル精度評価によく使われる評価指標について初心者向け説明させて頂きたいと思います。機械学習モデルの精度改善には課題に適切な評価指標の選択がすごく重要のため、各評価指標の理解が必要になります。分類モデル開発に興味を持っている方・挑戦してみたい方にご参考になれば幸いです。基本的な用語ポジティブとネガティブクラス混合行列評価指標正解率（Accuracy）適合率（Precision）再現率（Recall） F値（F1-score）しきい値とprecision-recallのトレ
- 機械学習
- 勉強
- techfeed
- 研究

scikit-learnで機械学習パイプラインをインタラクティブに描画、HTML保存する方法 - Qiita
- 29 users
- qiita.com/sugulu_Ogawa_ISID
- テクノロジー
- 2020/09/11
本記事では、scikit-learnのv0.23から搭載された、インタラクティブなパイプライン確認の実装、そしてそれをHTML化して保存、活用する方法を解説します。環境 scikit-learn==0.23.2 Google Colaboratory 本記事の実装コードはこちらに置いています https://github.com/YutaroOgawa/Qiita/tree/master/sklearn 実装 [1] バージョン更新まず、Google Colaboratoryのscikit-learnのバージョンが2020年9月ではv0.22なので、v0.23へと更新します。 !pip install scikit-learn==0.23.2 pipで更新したあとは、Google Colaboratoryの「ランタイム」→「ランタイムを再起動」を実行し、ランタイムを再起動します。（
形態素解析の精度向上を頑張った話 - Leverages データ戦略ブログ
- 25 users
- analytics.leverages.jp
- テクノロジー
- 2021/06/23
はじめにこんにちは。データ戦略室データエンジニアリンググループの森下です。普段はデータエンジニアとして、主にデータ活用基盤の保守運用や機能追加、ツール開発やデータ抽出・可視化といった業務を行っています。もともと機械学習への興味はありましたが、本記事の内容以前では、業務で使用したことはありませんでした。今回、初めて機械学習の業務を経験する事ができ、非常に多くのことを学ぶことができました。本記事は未経験者の奮闘記となりますので、これから機械学習を学ぶ方・業務に活かす方にとって参考になれば幸いです。経緯についてデータエンジニアとしてデータ活用基盤の構築や保守運用をしていく中で、機械学習へのデータ活用は自然と考える部分です。しかし、書籍やチームの勉強会で機械学習について少しずつ学んではいるものの、業務で機械学習を使用したことはありませんでした。そのような状況の中で、機械学習の業務に携わり
実際にscikit-learnで出力されるPrecisionやRecallを事例に、適合率と再現率の意味を説明しようと思う - Qiita
- 19 users
- qiita.com/kakiuchis
- テクノロジー
- 2023/01/08
分類モデルの評価指標として、適合率や再現率などがあります。Web上で多くの解説記事がありますが、scikit-learnのclassification_reportに表示される各指標を読み解くためには、プラスアルファの理解が必要です。この記事では、実際にscikit-learnで出力される内容を例にして、適合率と再現率の意味を解説します。 Webとかでよくある説明機械学習で分類モデルを評価するとき、正解率(Accuracy)、適合率(Precision)、再現率(Recall)、F1-scoreなどの評価指標をよく利用します。これらの解説として、以下のような2値分類の説明が多くあります。正解率(Accuracy) 正解率(Accuracy) は、全体の中で正解した割合正解率 = (20 + 1) ÷ (20 + 2 + 3 + 1) ≒ 0.81 適合率(Precision) 適合率
- scikit-learn
- 機械学習
- Python
- qiita
- 勉強
- プログラミング
- IT
- あとで読む
11月新刊情報『scikit-learn、Keras、TensorFlowによる実践機械学習第2版』
- 17 users
- www.oreilly.co.jp
- テクノロジー
- 2020/10/13
11月新刊情報『scikit-learn、Keras、TensorFlowによる実践機械学習第2版』 Aurelien Geron　著、下田倫大　監訳、長尾高弘　訳 2020年11月4日発売予定 832ページ ISBN978-4-87311-928-1 定価5,280円（税込）本書はコードを動かしながら学び、機械学習が使えるようになることを目的とした書籍です。現実的な問題を出し、サンプルデータを示しながら、機械学習で問題を解決に導くまでの一連の手法を体系立てて解説します。深層学習以外の機械学習にはscikit-learnを使い、機械学習プロジェクトの流れ、データからモデルを学習する方法、データの処理・クリーニングなどの基礎から、特徴量の選択や過学習、データの次元削減など応用までを学びます。深層学習にはTensorFlowとKerasを使い、ニューラルネットワークの構築と訓練、ニュ
scikit-learn の機械学習パイプライン
- 16 users
- zenn.dev/wsuzume
- テクノロジー
- 2021/07/11
はじめに機械学習で予測モデルを作るときはデータの分割データの前処理予測モデルの学習クロスバリデーションによるハイパーパラメータチューニングといった手順を踏む必要がある。慣れるまではこれらの手順に対応する scikit-learn のクラスをひとつひとつ呼び出して自分で一連の処理をやってみるのが勉強になるが、慣れてしまうと似たような手続きを毎回書くのは非常に面倒くさい。 scikit-learn には、この一連の処理を簡潔に記述するためのパイプラインの仕組みがあるので、その使用方法について説明する。一連のコードは Google Colab 上にアップロードしてある。データの分割これは人間が管理すべき問題なので、自動化もやろうと思えばできるだろうが、人間がいちいちやったほうがよい。機械学習をやるとき、データは基本的に訓練データ教師データともいう。予測モデルを学習させるため
- 機械学習
- あとで読む
「正則化」手法（ラッソ回帰、リッジ回帰）をPythonで学ぼう
- 13 users
- atmarkit.itmedia.co.jp
- テクノロジー
- 2024/12/05
「知識ゼロから学べる」をモットーにした機械学習入門連載の第4回。過学習を抑えて予測精度を向上させるための「正則化」手法として、ラッソ回帰とリッジ回帰に注目。その概要と仕組みを図解で学び、Pythonとscikit-learnライブラリを使った実装と正則化の効果も体験します。初心者でも安心！　易しい内容です。連載目次前回（第3回）では、売上予測など「データの傾向を把握して、数値を予測する」際に役立つ、機械学習の代表的な手法である線形回帰について学びました。この予測精度を「もっと高めたい」とは思いませんか？モデルを評価した結果、予測精度、つまり機械学習モデルの性能があまり良くなかったとします。原因として、過剰適合（過学習）の可能性が考えられる場合、過剰適合を減らすための手法である正則化（Regularization）を試してみる価値があります。そこで今回は、ラッソ回帰とリッジ回帰という正
- 機械学習
- Python
リッジ回帰やラッソ回帰で因果推論できるのか？ - Qiita
- 12 users
- qiita.com/s1ok69oo
- テクノロジー
- 2023/03/08
はじめに因果推論を行う手法の1つとして、線形回帰が挙げられます。今回は、その線形回帰の拡張とも言えるリッジ回帰(Ridge回帰)やラッソ回帰(Lasso回帰)を用いて因果効果を推定してみるとどうなるのか、Pythonによるシミュレーションと共にまとめました。内容に誤り等ございましたら、ぜひご指摘いただけますと幸いです。結論リッジ回帰やラッソ回帰を用いると、うまく因果効果を推定することができません。これは、リッジ回帰やラッソ回帰を行うことで、線形回帰（線形回帰モデルをOLS推定）による推定値よりも汎化誤差が小さくなる一方で、不偏性と呼ばれる因果効果をバイアスなく推定するために必要な性質が失われてしまうからです。通常の線形回帰における最小二乗法(OLS)では、下記の損失関数を最小化するパラメータを求めます。
Pythonで統計・データ分析！～基本統計量の活用と機械学習の基本
- 10 users
- atmarkit.itmedia.co.jp
- テクノロジー
- 2023/01/23
Pythonで統計・データ分析！～基本統計量の活用と機械学習の基本：数学×Pythonプログラミング入門（1/5 ページ）データ分析において最もよく使われる表形式のデータを取り扱う方法を見ていく。まず、pandasデータフレームの基本的な取り扱い方法を確認し、次に、各種の基本統計量を求める。また、基本統計量の可視化を行い、データの「見方」についても触れる。最後に、scikit-learnを使った回帰と分類の簡単な例を紹介する。
Scikit-LLM: Sklearn Meets Large Language Models
- 9 users
- medium.com/@fareedkhandev
- テクノロジー
- 2023/05/25
Scikit-LLM is a game-changer in text analysis. It combines powerful language models like ChatGPT with scikit-learn, offering an unmatched toolkit for understanding and analyzing text. With scikit-LLM, you can uncover hidden patterns, sentiment, and context in various types of textual data, such as customer feedback, social media posts, and news articles. It brings together the strengths of languag
- scikit-learn
- LLM
- python
4行でモデル構築と予測ができるAutoML OSSの老舗「auto-sklearn」
- 9 users
- atmarkit.itmedia.co.jp
- テクノロジー
- 2021/08/26
4行でモデル構築と予測ができるAutoML OSSの老舗「auto-sklearn」：AutoML OSS入門（2）（1/3 ページ） AutoML OSSを紹介する本連載第2回は、AutoML OSSの老舗ともいえる「auto-sklearn」を解説します。auto-sklearnは、scikit-learnを拡張した形で、効率的なベイズ最適化手法を用いたAutoML機能を提供するツールです。
Pythonで学ぶ「機械学習」入門
- 8 users
- atmarkit.itmedia.co.jp
- テクノロジー
- 2024/02/16
「機械学習は難しそう」と思っていませんか？　心配は要りません。この連載では、「知識ゼロから学べる」をモットーに、機械学習の基礎と各手法を図解と簡潔な説明で分かりやすく解説します。Pythonを使った実践演習もありますので、自分の手を動かすことで実用的なスキルを身に付けられます。第1回　機械学習をPythonで学ぼう！　基礎、できること、ライブラリ（2024/02/08）機械学習とは・ルールベースと機械学習ベースの違い - ルールベースのアプローチ - 機械学習ベースのアプローチ機械学習の学習方法・教師あり学習・教師なし学習・自己教師あり学習・強化学習機械学習が解決できること・解決できるタスクとは・【教師あり学習】回帰（数値予測）・【教師あり学習】分類・【教師なし学習】クラスタリング（グループ分け）・【教師なし学習】次元削減機械学習の基本用語・機械学習モデルの
交差検証（Python実装）を徹底解説！図解・サンプル実装コードあり
- 8 users
- www.codexa.net
- テクノロジー
- 2022/11/15
何かを「正しい」と判断するとき、読者の皆様は何を根拠としますか。例えば、経験を元にする場合、一度だけの経験では偶然の可能性も考えられます。これが複数の経験からの判断であれば、少しは信憑性が増すと思います。一度の結果では信憑性が薄くとも、多くの結果を得られればある程度の精度で判断できる材料となります。機械学習も同様です。様々な特徴量を扱う機械学習では、予測モデル（以下：モデル）の評価が本当に「正しい」のかを判断することは難しい問題です。特に、過学習などの問題は機械学習の技術が発展している近年でも残り続けています。本稿では、機械学習を扱う上で重要な交差検証（クロスバリデーション）について解説します。前半ではデータ分割の基本と、交差検証の定義を解説をします。後半では実際のデータセットを用いて交差検証の実装を行います。交差検証は様々な場面で紹介されていますが、実際に学ぶと詰まるポイントが多い
【入門者向け】特徴量選択の基本まとめ(scikit-learnときどきmlxtend) - Qiita
- 7 users
- qiita.com/FukuharaYohei
- テクノロジー
- 2021/04/19
手法 1. Filter Method Filter Methodは統計的な手法(分散やχ二乗検定など)で特徴量の評価・選択をします。他の手法に比べると計算量が少なく、最初に足切りで実施するものだと考えています(経験浅いのであまり根拠なし)。 1.1. 低分散変数の削除分散が低ければ、説明変数としての意味ないと考え特徴から削除する方法です。VarianceThreshold関数を使います。今回の例では分散0としており、まったく変動していない特徴を対象とします。ベルヌーイ分布の分散であるp(1 − p)を使うのもありかと思います。分散0はPandasのget_dummies関数でオプションdummy_naを使った時に出てしまいました。欠損値がある特徴があったため、get_dummies関数を使ったのですが、欠損値がない特徴量もNaNの列ができてしまい、すべて値が0で分散が0の列ができて
線形分類不能なデータでもサポートベクターマシンがあれば大丈夫です！【サンプルコード有り】｜自動化ラボっ！
- 6 users
- jidouka-labo.com
- テクノロジー
- 2021/05/29
はじめに前回の記事ではscikit-learnのiris（あやめ）のデータを使ってロジスティクス回帰による分類問題に挑戦しました。使用したデータは、比較的素直な分類しやすいデータだったので、ロジィステック回帰でも適度な分類ができたと思います。しかし、実際のデータはそう簡単に分類できないものも多くあります。特にデータの中で潜在的に分割できるポイントがあればいいのですが、実際はそうとは限りません。考えてみれば当然で、ぱっと見でデータに相関関係が見て取れる場合、そのデータを分析に回すことはないでしょう。本記事ではこうしたカンタンに分類できないデータ（線形分類不能なデータを）分類する方法として、scikit-learnの分類アルゴリズムであるサポートベクターマシン（SVM）をご紹介します。本格的にSVMを理解しようとすると大学院レベルの数学が必要となりますので、あまり内部のメカニズムには立ち
「ロジスティック回帰」による分類をPythonで学ぼう
- 6 users
- atmarkit.itmedia.co.jp
- テクノロジー
- 2025/06/18
「知識ゼロから学べる」をモットーにした機械学習入門連載の第5回。いよいよ今回から、「Yes／No」や「スパムかどうか」といった“分類”予測を扱います。これを実現する代表的な手法が「ロジスティック回帰」です。図を使って仕組みや考え方をやさしく学び、Pythonとscikit-learnでの実装も体験します。初めての人でも安心して取り組める内容です。連載目次「この商品は売れるか／どうか？」「この顧客はサービスを解約しそうか／どうか？」―― こうしたYes／Noの判断（＝分類）をデータから予測したい場面は、ビジネスや日常でたくさんありますよね？　今回は、このような際に役立つ、機械学習の代表的な手法であるロジスティック回帰による“分類”について学んでいきましょう。具体的には、ロジスティック回帰の概要から、その仕組み、そしてPythonプログラミングによるモデルの実装と評価まで取り組み、“分類
scikit-learnのLatent Dirichlet Allocation (LDA) のcoherenceを求める - Qiita
- 5 users
- qiita.com/yukinoi
- テクノロジー
- 2023/04/15
はじめにちゃお…† まいおり…† LDA (Latent Dirichlet Allocation)、わたしの好きなモデルです。しかし、現時点のscikit-learn (1.2.2) にはLDAモデルのcoherence (コヒーレンス) を求める関数はありません。そこで強引に？LDAモデルのcoherenceを求める方法を記します。コヒーレンスとは記述や事実の集合は、それらが互いに支持し合っている場合、首尾一貫している (coherent) と言われます。したがって、首尾一貫した事実の集合は、事実のすべてまたは大部分をカバーする文脈で解釈することができます。トピックのコヒーレンスを測るとは、トピック内の高得点単語間の意味的類似性の程度を測定することで、単一のトピックをスコアリングすることです。これらの測定は、意味的に解釈可能なトピックと、統計的推論の成果物であるトピックを区
ScikitAllStars: 主要なscikit-learnの教師あり機械学習法を全部Optunaでチューニングしてスタッキングまでやっちゃうツール - Qiita
- 5 users
- qiita.com/maskot1977
- テクノロジー
- 2021/03/29
ScikitAllStars: 主要なscikit-learnの教師あり機械学習法を全部OptunaでチューニングしてスタッキングまでやっちゃうツールPython機械学習scikit-learnStackingOptuna 教師あり機械学習法はたくさんありますが、scikit-learn に入ってるもののうち主なものを全部使って、optunaでハイパーパラメーターチューニングして、できたモデルをさらにstackingしてしまうという一連の作業をまとめて行うライブラリ ScikitAllStars を作りました。なぜこんなツールを作ったかって？めんどいからです。また、ScikitAllStars の特徴として、教師あり機械学習が「回帰問題」なのか「分類問題」なのかという違いをほとんど意識せずに使えるというところもあります。以下のコードは全て Google Colaboratory 上で
- python
scikit-learnとLightGBMの評価関数比較 - Qiita
- 5 users
- qiita.com/shnchr
- テクノロジー
- 2020/10/31
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?
- 機械学習
https://intel.github.io/scikit-learn-intelex/
- 5 users
- intel.github.io
- テクノロジー
- 2021/11/02
Scikit-learn DevSprint Japan 2021 Spring : 富士通
- 5 users
- www.fujitsu.com
- テクノロジー
- 2021/04/16
富士通研究所は、AI分野における世界最大のOSSであるScikit-learnをサポートするため、2019年からScikit-learnコンソーシアムに加入し、OSSコミュニティの持続的発展に寄与しています。今回、Scikit-learn のDevSprint JapanをScikit-learnコンソーシアムと共同で5月26日（水）- 5月28日（金）の日程で開催することになりましたので、参加者を募集します。またDevSprint Japanに合わせて、Scikit-learnやトポロジカルデータ解析技術の機械学習応用(富士通研究所で開発しているTopological Data Analysis Time Series Shaper: TDA-TSS含む)に関するチュートリアルも開催します。 Scikit-learn DevSprint Japanについて・日程： 2021年5月26
- scikit-learn
- Python
GitHub - iryna-kondr/scikit-llm: Seamlessly integrate LLMs into scikit-learn.
- 5 users
- github.com/iryna-kondr
- テクノロジー
- 2023/06/01
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
「Pythonで儲かるAIをつくる」実装補足 - Qiita
- 5 users
- qiita.com/makaishi2
- テクノロジー
- 2022/02/07
はじめに「Pythonで儲かるAIをつくる」の著者です。 Amazonリンク書籍サポートサイトリンク何を隠そう、私は昔からプログラミングおたく※なもので、書籍のサンプルコードには相当こだわりがあるのですが、「Pythonで儲かるAIをつくる」では、何カ所か悔いの残る実装がありました。出版社の担当者とも相談し、ちゃんと動いているのだから正誤訂正ではないだろうといわれ、確かにその通りなので、こういう形で後悔を公開するに至った次第です。 ※　コーディング経験のあるプログラム言語は以下のような感じ。他にも多分いくつかあると思います。 BASIC, Assembler(86系),FORTRAN, LISP, Prolog, C(C++は本当にかすかに), Assembler(HOST), APL, APL2, COBOL, REXX, Pascal(Delphi), VB, Java, Pe
Scikit-learnが実験的にGPU対応していたので調査してみた！ - Qiita
- 4 users
- qiita.com/fujine
- テクノロジー
- 2023/06/05
はじめにみずほリサーチ＆テクノロジーズ株式会社の@fujineです。いきなりですがAIエンジニアの皆さん、scikit-learnが実験的にGPUに対応していたこと、ご存知でしょうか？ scikit-learnは機械学習分野における古参パッケージの1つです。多様な機能を提供する一方、FAQにて「GPUに対応する予定はない（キリッ）」と公式宣言しており、scikit-learnが好きな自分としては「勿体無いなぁ」と常々感じていました。そんな中、何気なくRelease Highlights for 1.2を読んでいたら以下文面を発見！しかも約半年前の2022年12月にリリースされてる… Experimental Array API support in LinearDiscriminantAnalysis Experimental support for the Array API sp
- Python
scikit-learn 1.0 リリース！更新内容を一部紹介します。 | フューチャー技術ブログ
- 4 users
- future-architect.github.io
- テクノロジー
- 2021/10/08
こんにちは、TIG所属の玉木です。この記事はPython連載の7本目の記事になります。 2021年9月24日にscikit-learn 1.0がリリースされました。私が大学院生のころ、scikit-learnのサンプルを動かすところから機械学習を勉強したので、ついに1.0かとなんだか感慨深い気持ちがあります(この記事で紹介しているPython 機械学習プログラミングです)。本記事ではリリースから少し時間が経ってしまいましたが、リリースハイライト、チェンジログから、個人的に気になった以下の4つの内容を紹介しようと思います。キーワード引数の強制 pandasのデータフレームからの特徴量名のサポート新しいplot用のクラス追加 StratifiedGroupKFoldの追加 1. キーワード引数の強制scikit-learnの機械学習のモデルのクラス、メソッドは、多くの入力パラメータを持ちま
基本となる3つの特徴選択手法とPythonでの実装
- 4 users
- www.salesanalytics.co.jp
- テクノロジー
- 2023/08/18
特徴量選択（変数選択）は、機械学習系の予測モデルなどを構築するとき、最初に行う重要なステップの1つです。予測に寄与しない特徴量（説明変数）を取り除くことで、よりシンプルな予測モデルを構築を目指します。色々な考え方や手法、アプローチ方法があります。今回は、「基本となる3つの特徴選択手法とPythonでの実装」というお話しです。基本となる3つの考え方幾つかやり方がありますが、基本となるのは次の3つ考え方です。フィルター法（Filter Method）ラッパー法（Wrapper Method）埋め込み法（Embedded Method）フィルター法（Filter Method）フィルター法は最もシンプルなアプローチです。ある基準をもとに、必要な特徴量選択（変数選択）していくからです。最も簡単なのは、相関係数を利用した方法です。各特徴量（説明変数）に対し目的変数との相関係
- 機械学習
- Python
Scikit-learnを用いた階層的クラスタリング (Hierarchical clustering)の解説 – S-Analysis
- 4 users
- data-analysis-stats.jp
- テクノロジー
- 2023/06/07
目次1. 階層的クラスタリングの概要＿＿1.1階層的クラスタリング (hierarchical clustering)とは＿＿1.2所と短所＿＿1.3 凝集クラスタリングの作成手順＿＿1.4 sklearn のAgglomerativeClustering ＿＿1.5 距離メトリック　(Affinity) ＿＿1.6 距離の計算（linkage） 2. 実験・コード＿＿2.1 環境の準備＿＿2.2 データロード＿＿2.3 Euclidean距離のモデル学習・可視化＿＿2.4 Manhattan距離のモデル学習・可視化＿＿2.5 Cosine距離のモデル学習・可視化 1.1 階層的クラスタリング (hierarchical clustering)とは階層的クラスタリングとは、個体からクラスターへ階層構造で分類する分析方法の一つです。樹形図（デンドログラム）ができます。デンド
- 機械学習
scikit-learnで求めたLassoの解パスとCVの結果を可視化する | DevelopersIO
- 4 users
- dev.classmethod.jp
- テクノロジー
- 2022/09/25
データアナリティクス事業本部の鈴木です。 Lassoは、例えばscikit-learnを使うと簡単にクロスバリデーション（以降CV）で正則化パラメータとそのときの回帰係数を推定できます。一方で、単にCVで最適なモデルを求めるだけではなく、解パス図を描いて回帰係数の変化を詳しくみたり、CVで求めた値を使ってより簡単なモデルを選択したりしたいと思ったので、scikit-learnの関数を使って試してみました。 Lassoとは Lassoは線形回帰モデルの回帰係数の推定法の一つで、係数の推定時にいくつかの係数を0にすることで変数選択を行える手法です。以下のように回帰係数のL1ノルムを正則化項として誤差二乗和に付けた関数を、回帰係数について最小化することで回帰係数を推定します。ただし、L1ノルムは以下です。例えば2変数の場合、以下の斜線部に誤差二乗和部分（第1項目）の解βLSが入る場合にその
- scikit-learn
Titanicから始めよう：GridSearchCVクラスを使ってハイパーパラメーターチューニングしてみた
- 4 users
- atmarkit.itmedia.co.jp
- テクノロジー
- 2022/02/04
Titanicから始めよう：GridSearchCVクラスを使ってハイパーパラメーターチューニングしてみた：僕たちのKaggle挑戦記 scikit-learnが提供する分類器の使い方と、GridSearchCVクラスを使ってそれらのハイパーパラメーターをチューンする手順を見てみましょう。
- scikit-learn
【scikit-learn】Random forest回帰、デフォルトだとrandom forestじゃないよって話 - Qiita
- 4 users
- qiita.com/kota-iw
- テクノロジー
- 2023/06/07
はじめに初めまして、いわです。今回は、scikit-learnのRandom forest regressorをデフォルトのパラメータで使用するとRandom forestとしては機能していないという話をします。 Random forestとは？ Random forestは決定木ベースのアルゴリズムである、くらいの理解はある前提で話を進めます。まず、random forestの定義について説明します。以下のqiita記事とRandom forestの論文を参考にしました。定義学習データから重複を許してランダムに複数組のサンプル集合を抽出(Bootstrap Aggregating: バギング) 各ノードを分割するために特徴量をランダムに選択する(ここ重要)と、Adaboostと比較して良好な結果が得られるジニ係数を計算し、決定木を作成予測時は各決定木の結果でアンサンブルに
- 機械学習
カーネル法(Kernel method)とは？次元を変えて分かりやすくするテクニック!!
- 3 users
- nisshingeppo.com
- テクノロジー
- 2023/05/07
カーネル法(Kernel method)とは?カーネル法とは、データを変換して(データの次元を上げて)分析しやすくする手法です。例えば、下の図のような直線的な赤と青のデータが有り、これを直線で分離させようとしてもできません。ここで、1次元のデータから2次元のデータに次元を上げてみます。図では各値にの2乗をとったイメージをしています。すると、線形分離(直線で分離)が可能になりました。
- 機械学習
GitHub - microsoft/coding-pack-for-python: Documentation and issues for the VS Code Python installer.
- 3 users
- github.com/microsoft
- テクノロジー
- 2020/11/11
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
- Python
- programming
scikit-learn の fit() / transform() / fit_transform() - Qiita
- 3 users
- qiita.com/makopo
- テクノロジー
- 2023/02/19
scikit-learn の変換系クラス(StandardScaler、Normalizer、Binarizer、OneHotEncoder、PolynomialFeatures、Imputer など) には、fit()、transform()、fit_transform()という関数がありますが、何を使ったらどうなるかわかりづらいので、まとめてみました。関数でやること fit() 渡されたデータの最大値、最小値、平均、標準偏差、傾き...などの統計を取得して、内部メモリに保存する。 transform() fit()で取得した統計情報を使って、渡されたデータを実際に書き換える。 fit_transform() fit()を実施した後に、同じデータに対してtransform()を実施する。使い分けトレーニングデータの場合は、それ自体の統計を基に正規化や欠損値処理を行っても問題ないので
- it
- blog
scikit-learn and Hugging Face join forces
- 3 users
- blog.scikit-learn.org
- テクノロジー
- 2022/10/21
Hugging Face is happy to announce that we’re partnering with scikit-learn to further our support of the machine learning tools and ecosystem. At Hugging Face, we’ve been putting a lot of effort into supporting deep learning, but we believe that machine learning as a whole can benefit from the tools we release. With statistical machine learning being essential in this field and scikit-learn dominat
- 機械学習
Pythonによるマーケティングミックスモデリング（MMM：Marketing Mix Modeling）超入門その1線形回帰モデルでMMMを作ろう！
- 3 users
- www.salesanalytics.co.jp
- テクノロジー
- 2023/04/15
- python
California Housing：カリフォルニアの住宅価格（部屋数や築年数などの8項目）の表形式データセット
- 3 users
- atmarkit.itmedia.co.jp
- テクノロジー
- 2022/01/31
California Housingは、主に回帰（数値予測、つまり「住宅価格の予測」）を目的としたディープラーニング／機械学習／統計学などで活用できる。 California Housingで注意してほしいのは、データセットの各行が「個別の家の値」ではなく「国勢調査のブロックグループごとにまとめた値（中央値や総数など）」になっていることだ。ブロックグループとは、米国国勢調査局が1つの標本データとして扱う「最小の地理的単位」のことである。1つのブロックグループに含まれる個人の人数は、通常は600～3000人で、California Housing（以下、「データセット」という表記は省略する）では平均して1425.5人となっている。 California Housingの元データ（houses.zip内に含まれるcadata.txt）は具体的には、住宅価格（中央値）、所得（中央値）、築年数（
- Pocket
予測モデルは機械学習パイプライン化しよう（Python）
- 3 users
- www.salesanalytics.co.jp
- テクノロジー
- 2021/08/12
予測モデルなどを構築するとき、パイプライン化することがあります。もちろん、探索的なデータ分析でも、パイプラインを使いながら実施することもあります。例えば、Rなどでは伝統的に、パイプラインを使いながら探索データ分析をします。しかし、そうでなければならないというわけでもありません。一方で予測モデルは、機械学習パイプライン化したほうが、分かりやすいですし扱いやすいです。今回は、「予測モデルは機械学習パイプライン化しよう（Python）」ということで、PythonのScikit-learn（sklearn）を使い、パイプラインの構築の仕方について簡単に説明します。パイプラインとは？「パイプライン」というキーワードは、色々な分野で使われています。今回の「パイプライン」（pipeline）は、「パイプライン処理」と呼ばれるコンピュータ用語です。パイプライン処理とは、複数の処理プログラムを