タグ

Pythonとmlに関するincepのブックマーク (12)

  • ハイパーパラメータのチューニング 【グリッドサーチの欠点とそれを補う手法を解説】

    グリッドサーチによる探索 実際にグリッドサーチによるパラメータのサンプルを実装したうえで解説してきます。 検証ライブラリはscikit-learn、検証データはscikit-learnで提供されている癌の判定データを使います。 from sklearn.datasets import load_breast_cancer import pandas as pd from sklearn.model_selection import GridSearchCV from sklearn.linear_model import LogisticRegression # 検証データの取得(癌の判定データ) data = load_breast_cancer() dataX = pd.DataFrame(data=data.data,columns=data.feature_names) dataY

    ハイパーパラメータのチューニング 【グリッドサーチの欠点とそれを補う手法を解説】
  • Netron - 機械学習のネットワークを可視化

    MOONGIFTはオープンソース・ソフトウェアを紹介するブログです。2021年07月16日で更新停止しました 機械学習ではフォーマットの標準化が進んでいます。これまでTensorflowやCaffe、Chainerなど様々なソフトウェアがありましたが、生成されるモデルがONNXというフォーマットに統一されつつあります(他にもあるようですが)。 そんなONNXフォーマットのモデルをビジュアル化できるソフトウェアがNetronです。 Netronの使い方 ドロップしたところです。これは4か9を判別するモデルです。 拡大もできます。 パラメータも閲覧できます。 Netronを使うことでPythonのコードではなく、ビジュアル化されたモデルを通じて機械学習のネットワークを学ぶことができます。各ノードにおける出力の数も出ており、ネットワークの詳細が分かりやすくなるでしょう。 NetronはJavaS

    Netron - 機械学習のネットワークを可視化
  • scikit-learn 0.20からクロスバリデーションの使い方が変更される模様 - verilog書く人

    機械学習をやるときに結構良く使うところだなと思っていた、クロスバリデーションのスプリッター系モジュールのインターフェースが変わることに気づいたのでメモ。 scikit-learnの従来のクロスバリデーション関係のモジュール(sklearn.cross_vlidation)は、scikit-learn 0.18で既にDeprecationWarningが表示されるようになっており、ver0.20で完全に廃止されると宣言されています。 詳しくはこちら↓ Release history — scikit-learn 0.18 documentation まず、import元がsklearn.cross_varidationからsklearn.model_selectionに変わります。 これによって、例えば従来は from sklearn.cross_varidation import Stra

    scikit-learn 0.20からクロスバリデーションの使い方が変更される模様 - verilog書く人
    incep
    incep 2018/12/19
    cross_validationモジュールはなくなりmodel_selectionへと移行
  • scikit-learn に付属しているデータセット

    scikit-learn には、機械学習やデータマイニングをすぐに試すことができるよう、実験用データが同梱されています。このページでは、いくつかのデータセットについて紹介します。 Iris (アヤメの計測データ、通称:アイリス) “setosa”, “versicolor”, “virginica” という 3 種類の品種のアヤメのがく片 (Sepal)、花弁 (Petal) の幅および長さを計測したデータです。 データセットの詳細 レコード数

    incep
    incep 2017/10/17
    あやめデータセット
  • Deep Learning Tutorials — DeepLearning 0.1 documentation

    Deep Learning Tutorials¶ Deep Learning is a new area of Machine Learning research, which has been introduced with the objective of moving Machine Learning closer to one of its original goals: Artificial Intelligence. See these course notes for a brief introduction to Machine Learning for AI and an introduction to Deep Learning algorithms. Deep Learning is about learning multiple levels of represen

  • ラプラス正則化 (Laplacian Regularization) を使った半教師付き分類

    教師ありデータと教師なしデータを 用いて学習する枠組みを半教師付き学習と呼ぶ. 少量の教師ありデータと大量の教師なしデータを持っているという設定は非常に現実的で, 半教師付き学習は実用的な枠組みだと思う. ラプラス正則化の基的なアイデアは,「似ているものは同じラベルを持つ」というもの. 具体的には,類似度行列を受け取り, 類似度が高いものは予測値も近くなるような正則化を行う. 今回はラプラス正則化のリッジ回帰への適用例を考えてみる. 目的関数は以下で与えられる. 最後の項がラプラス正則化項. この項は結局ラプラス行列というもので表されるのでラプラス正則化と呼ばれている. ここで,非線形な決定境界を表現するために,には以下で定義するRBFカーネルモデルを用いることにする. コードは以下のようになった. This file contains bidirectional Unicode tex

    ラプラス正則化 (Laplacian Regularization) を使った半教師付き分類
    incep
    incep 2016/05/27
    半教師あり学習での分類.2クラスのクラスタのそれぞれに,教師データがたったの1点ずつ.そこから非線形な決定境界を正しく引けている例.
  • NumPy 配列の基礎 — 機械学習の Python との出会い

    NumPy 配列の基礎¶ ここでは,NumPy で最も重要なクラスである np.ndarray について, チュートリアルの方針 の方針に従い,最低限必要な予備知識について説明します. np.ndarray は, N-d Array すなわち,N次元配列を扱うためのクラスです. NumPy を使わない場合, Python ではこうしたN次元配列を表現するには,多重のリストが利用されます. np.ndarray と多重リストには以下のような違いがあります. 多重リストはリンクでセルを結合した形式でメモリ上に保持されますが, np.ndarray は C や Fortran の配列と同様にメモリの連続領域上に保持されます. そのため,多重リストは動的に変更可能ですが, np.ndarray の形状変更には全体の削除・再生成が必要になります. 多重リストはリスト内でその要素の型が異なることが許

  • やったぜ。

    やったぜ。 投稿者:変態IoT土方 (11月23日(月)19時47分42秒) 昨日の11月22日にいつもの組み込みエンジニアのおっさん(34歳)と先日DMくれた機械学習好きのPythonエンジニアのにいちゃん (27歳)とわし(30歳)の3人で県北にあるコワーキングスペースで開発しあったぜ。 今日は明日が休みなんでコンビニでRedBullとお菓子を買ってから滅多に人が来ない所なんで、 そこでしこたまRedBullを飲んでから開発しはじめたんや。 3人でGithubのコード眺めあいながらTシャツだけになり持って来たRasberry Pi3台にコードをインストールした。 しばらくしたら、EthernetのLEDがピカピカして来るし、ログが解析基盤を求めてS3の中でぐるぐるしている。 組み込みエンジニアのおっさんにセンサーデータ取得コードをデバッグさせながら、兄ちゃんの実装した分類アルゴリズムを

    やったぜ。
  • Pythonで情報利得を計算してみる - surolog

    ジニ係数に引き続き、情報利得の関数も作ってみました。 ジニ係数については以下を参照ください、 [Pythonでジニ係数を計算してみる - surolog 以下の流れでご紹介 情報利得の簡単な説明 情報利得の実装 情報利得って wikiによれば カルバック・ライブラー情報量 - Wikipedia カルバック・ライブラー情報量(カルバック・ライブラーじょうほうりょう、英: Kullback–Leibler divergence、カルバック・ライブラー・ダイバージェンス)とは、確率論と情報理論における2つの確率分布の差異を計る尺度である。情報ダイバージェンス(Information divergence)、情報利得(Information gain)、相対エントロピー(Relative entropy)とも呼ばれる。 http://ja.wikipedia.org/wiki/カルバック・ライブ

    Pythonで情報利得を計算してみる - surolog
    incep
    incep 2015/09/29
    numpy, pandas, collections.Counter を使用したすっきりとしたコード
  • 機械学習ライブラリ scikit-learn で簡単ツイート分類 | ぱろすけのメモ帳

    皆様こんにちは。今日も元気に自分を見つめ直していますか?自分を見つめ直す手段として、過去の自分の発言を見返すことは有用だと考えられます。たとえば、Twitter を使っている方ならば、その過去ログを用いることが考えられるでしょう。Twitter の過去ログはライフログとして機能し、それを用いることにより、過去の出来事のみならず、考え方、感じ方、ふとした着想、などなどを読み取ることができます。しかしながら、過去のツイートを全部見返すのは非常に面倒ですね。たとえば僕のアカウントはトータルで4万ツイート以上あります。これは非常にめんどい。Twitter は情報量多くてだるいよね問題については、従来「再生核 Hilbert 空間を用い、脱ベイズ確率主義に立脚したあまりだるくないツイッター」などの試みが行われてきましたが、今なおその面倒さを軽減する手段については十分とはいえません。記事では、過去の

  • Charming Python: Functional programming in Python, Part 3

    IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant technologies such as generative AI, data science, AI, and open source.

    Charming Python: Functional programming in Python, Part 3
  • 機械学習の Python との出会い — 機械学習の Python との出会い

    著者 神嶌 敏弘 (Toshihiro Kamishima) リリース 2020-02-17 08:56:35 +0900 ダウンロード用 [ PDF版 ] [ ePub版 ] ソースレポジトリ [ https://github.com/tkamishima/mlmpy ]

  • 1