タグ

関連タグで絞り込む (176)

タグの絞り込みを解除

pythonとscikit-learnに関するnabinnoのブックマーク (347)

  • コンテンツ抽出のdom-basedモデル - Qiita

    コンテンツ抽出のdom-basedモデルとは、domの構造を特徴量として利用するコンテンツ抽出の手法です。今回は、web2textというツールで使われている特徴量を、RandomForestで実行します。 特徴量一覧 上記特徴量のうち、いくつかを利用します。 データの準備 記事urlの一覧から取得したhtmlファイルから、以下を取り出します。 テキスト要素を持つノードのテキスト テキスト要素を持つノードのxpath そのテキスト要素が抽出したいコンテンツか否か 以下がcsvの例です。(ただし、このcsvは以前の記事のPascal VOCデータから生成しているため、抽出したくないコンテンツも若干含まれています。) #text,label,xpath "We use cookies to ensure that we give you the best experience on our we

    コンテンツ抽出のdom-basedモデル - Qiita
  • Python3(scikit-learn)を使ってロジスティック回帰 - Qiita

    機械学習 機械学習には様々な種類のものがあります.大きく分けると以下のように なります. 教師あり学習 教師なし学習 その他(強化学習など) 今回はロジスティック回帰を使うために簡単に教師あり学習について紹介したいと思います. 教師あり学習(回帰) 教師あり学習ではデータと正解ラベルの2つの情報が渡されます. 大量のデータから「このデータの正解はこのラベルであった」というパターンを見つけ出して,正解ラベルのないデータに対してもそれを予測するものになります. 教師あり学習はさらに正解ラベルの種類によって回帰と分類に分けられます. 回帰は,正解となる値が連続した数値となるものです. よく見られる例として: ビールの売り上げは気温に影響すると言われています. この情報を元に実際の売り上げと気温のデータを利用して機械学習を行うことで、天気予報から得た翌日の気温から売り上げを予測することが可能になり

    Python3(scikit-learn)を使ってロジスティック回帰 - Qiita
  • 【初心者向け】初めての機械学習入門 - Qiita

    初めての機械学習 初めて機械学習を行う方向け、初めての機械学習特集です。 今回は機械学習とはの概要と開発環境について紹介していきます。 機械学習とは データから知識を引きだし活用すること。 大きく教師あり学習と教師なし学習の2種類ある。 教師あり学習 ユーザーが入力データと望ましい出力のペア群をアルコリズムに与える。このペアのデータを「教師」としてアルコリズムは出力を生成するからである。詳しくは次回紹介。 教師なし学習 ユーザーが入力データのみをアルコリズムに与える。よって出力結果はどういったものになるか、わからない。詳しくは第3回で。 開発環境 Visual Studio Code マイクロソフトが開発しているソースコードエディタ。 WindowsMac OS、Linux上でも使え、マークダウン エディタとしても使える優れもの。 多言語対応、拡張機能もあり、Pythonのデバックを可能

    【初心者向け】初めての機械学習入門 - Qiita
  • digitsでランダムフォレストと主成分分析の寄与率を比較してみる - Qiita

    初めに またdigitsネタ、一回目はこちら。同じデータをいろいろな方法を使用して、ごちゃごちゃ分析するのはデータ分析の基中の基(?)なので…。 Random Forestは、パラメータの寄与率まで出せるという利点があります。今回はdigitsをRandom Forestで学習させてみて、一回目で分析したPCAと比較していきたいと思います。 Random Forestを使ってみる # -*- coding: utf-8 -*- from sklearn import datasets from sklearn import ensemble from sklearn import metrics from sklearn import decomposition from sklearn.model_selection import train_test_split import ma

    digitsでランダムフォレストと主成分分析の寄与率を比較してみる - Qiita
  • 機械学習のモデルのライフサイクルを管理するOSS「MLflow」が便利そう - Qiita

    MLflow MLflowはオープンソースで、機械学習処理のライフサイクル管理を行うソフトウェアです。Kubernetesで管理している環境だとKubeflow、AWSならSageMakerとか、この分野の用途で利用できるものはいろいろあるかと思いますが、OSSでいろんなシーンで適用できそうです。 MLflow 現時点(2018/10/03)でバージョン0.7というのがリリースされており、絶賛開発中のようです。 MLflowは、要素として3つで構成されています。 MLflow Tracking : 学習の実行履歴管理 MLflow Projects : 学習処理の実行定義 MLflow Models : 学習モデルを用いたAPIサーバの実行定義 MLflow Tracking 学習モデル生成時に、生成されたモデルの実体や学習モデルの評価結果のスコア情報等を記録し、履歴管理する機能です。 学

    機械学習のモデルのライフサイクルを管理するOSS「MLflow」が便利そう - Qiita
  • [kaggle]タイタニックの乗客情報から生存者を予測しよう - Qiita

  • [Kaggle]画像で遊んでみる(dogs vs cats) - Qiita

    前回までは属性に対しての解析だったので今度は画像を分類わけしてみることにした。 といっても、右も左もわからない状態がどうやって進んだのか?という参考になればという程度のメモである。 犬 試してみたのはこっちのコンペのデータ https://www.kaggle.com/c/dogs-vs-cats 犬かかを分類しようぜというやつだ。 データ確認 DLしながらデータセットの中身を確認 The training archive contains 25,000 images of dogs and cats. Train your algorithm on these files and predict the labels for test1.zip (1 = dog, 0 = cat). といっても、データを確認するも何もない。 画像を犬(1)か(0)に分類しろってだけな模様。 どこか

    [Kaggle]画像で遊んでみる(dogs vs cats) - Qiita
  • 株価をscikit-learnで機械学習してみる 分類編 - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?

    株価をscikit-learnで機械学習してみる 分類編 - Qiita
  • scikit-learnのLOFでテストデータの判定をする - Qiita

    scikit-learnでは外れ値検知の手法の1つであるLOF(Local Outlier Factor)が提供されていますが、versionが0.19以前ではテストデータに対する正常データ・異常データの判定ができませんでした。version0.20からテストデータに対する正常データ・異常データの判定機能が実装されましたので、そちらを紹介します。 使い方 One Class SVMのようなscikit-learnに実装されている外れ値検知の手法では、正常データが大多数であるような訓練データを与え、fitメソッドで学習をおこないます。学習済みのモデルのpredictメソッドを使うことで、テストデータが正常か異常かが判定されます。LOFを使う場合にも同様の流れになりますが、fitメソッドを使うときにちょっとだけ違いがあり、novelty=Trueという引数が必要になります。例えば、次のように訓

    scikit-learnのLOFでテストデータの判定をする - Qiita
  • [Kaggle]いろいろとTitanicしてみる:過剰適合/過学習/交差検証 - Qiita

    目的 交差検証について調べたりコード化してみる そもそもの発端としては 前回の訓練データだと90ぐらいのスコアになったのをアップロードしてみたらちょこっとしかUPしてなかったということである。 以下のようなろくでもない検証にしかしてなかったのでダメだろうとは思っていたが ここまで差が出るとはちょっとびっくりであった。 なので、調べてみることにした。 [過剰適合] https://ja.wikipedia.org/wiki/%E9%81%8E%E5%89%B0%E9%81%A9%E5%90%88 [交差検証] https://ja.wikipedia.org/wiki/%E4%BA%A4%E5%B7%AE%E6%A4%9C%E8%A8%BC ググってみた。 「モデルの説明変数は必要以上に増やせば増やすほど学習データのシグナルだけでなくノイズにまでフィットしてしまう」 訓練データに最適化しすぎ

    [Kaggle]いろいろとTitanicしてみる:過剰適合/過学習/交差検証 - Qiita
  • [Kaggle]いろいろとTitanicしてみる:グリッドサーチ - Qiita

    ハイパーパラメータのチューニング 前回の続き 交差検証を調べていたら以下の記事に遭遇 https://qiita.com/tomov3/items/039d4271ed30490edf7b これの後半にモデルに対するパラメータのチューニングの仕方が載っていたので、それを参考に今回は**「ハイパーパラメータのチューニング」**をやってみることにする。 ググる https://blog.amedama.jp/entry/2017/09/05/221037 いくつかググってみたのだが、ここが自分には一番わかりやすかった。 つまるところ、それぞれのモデル?を作成する際のパラメータについて、 いっぱい試したいからそれを設定できるようにしたぜってことの様子。 なので、これだけ理解しても無駄だった。 それぞれのモデルにわせたいパラメータを理解しないと意味がないと理解。 とりあえず決定木とSVMのパラメ

    [Kaggle]いろいろとTitanicしてみる:グリッドサーチ - Qiita
  • 機械学習PJで最低限やっておきたいこと - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 最近は機械学習関連の書籍やチュートリアルが充実してきており、モデルをとりあえず作ってみることはとても容易になっていますが、そうしてできたモデルと製品投入できる品質のものとの間の隔たりは小さくありません。そこを埋めるために最低限やっておきたいことのまとめです。 考慮すべき点のそれぞれについて深く掘り下げるというよりも、現状を俯瞰して足りない視点を補うために利用することを想定しました。 チェックすべきポイントはカテゴリに分けると以下のようになります。 テスト(検証) 交差検証 学習曲線 データセット 特徴量の選定 サンプリングバイアス デー

    機械学習PJで最低限やっておきたいこと - Qiita
  • 「scikit-learnとTensorFlowによる実践機械学習」でハマった時の解決策

    2.3.2 データをダウンロードする 2.3.3 データの構造をざっと見てみる の話です 「p.44」コードそのままそっくり書いたはずなのに・・・エラーでる問題 問題1:ダウンロードのURLが違う DOWNLOAD_ROOT = "https://raw.githubusercontent.com/ageron/handson-ml/master/" この部分、たたいて見ると404が出ます。 下記のようにすると繋がるようになりました。 DOWNLOAD_ROOT = "https://cdn.rawgit.com/killakalle/ageron_handson-ml/3201b89b/" 他の部分は、?raw=trueとつけてあげると、良いようです。 HOUSING_URL = DOWNLOAD_ROOT + "datasets/housing/housing.tgz" HOUSING

    「scikit-learnとTensorFlowによる実践機械学習」でハマった時の解決策
  • 【SIGNATE】銀行の顧客ターゲティングをやってみる - Qiita

    目的変数の分布 学習データでは口座開設をしなかった人が口座開設者の約8倍であるため、キャンペーンの結果口座開設に至る人は10%程度とやはり低めです。そのためどのような条件の人が口座開設に踏み切っているのかを見極める必要がありそうです。 説明変数の分布 年齢(age) 顧客の年齢を10歳刻みで分割しました。ヒストグラムを見ると20~60歳の人の割合が高いことがわかります。一方で20歳以下と60歳以上の人達は顧客数は少ないものの口座開設率は高いことが読み取れます。 また、20歳以下の若者については大学生になりアルバイトを始める際に口座を開設するだろうと考えられるので、職種(job)も含めた分布を見てみます。 # 各年齢、職種に対する口座開設者の割合を求める # 10歳毎にビニング age_bining = pd.cut(trainX['age'],list(range(10,100,10)))

    【SIGNATE】銀行の顧客ターゲティングをやってみる - Qiita
  • sklearn.lda.LDA — scikit-learn 0.16.1 documentation

    This documentation is for scikit-learn version 0.16.1 — Other versions If you use the software, please consider citing scikit-learn. sklearn.lda.LDA Examples using sklearn.lda.LDA sklearn.lda.LDA¶ class sklearn.lda.LDA(solver='svd', shrinkage=None, priors=None, n_components=None, store_covariance=False, tol=0.0001)[source]¶ Linear Discriminant Analysis (LDA). A classifier with a linear decision bo

  • [Kaggle]いろいろとTitanicしてみる - Qiita

    前回Kagglerになってみたが、それだとしっくりこなかったり、ほかのモデルを試してみてなかったりしたので 以下を参考にいろいろと試行錯誤してみた。 [Kaggle]0から当に機械学習を理解するために学ぶべきこと~一流のデータサイエンティストを例に~ [part2]0から当に機械学習を理解するために学ぶべきこと~一流のデータサイエンティストを例に~ [part3]0から当に機械学習を理解するために学ぶべきこと~0からscikit-learnを使いこなす~ といっても、なんとなく思考をトレースしただけなので項目の追加などは特にせずに 今後使いまわしやすそうなコード構成に修正したぐらいだが。 全体的にやらないといけないことの流れはなんとなくわかった気がするので、次回別のデータセットで試してみるのもいいかもしれない。 で、いろいろなモデルをまとめて試してみた結果が以下。 こんな感じになった

    [Kaggle]いろいろとTitanicしてみる - Qiita
  • [Kaggle]Kagglerになってみる - Qiita

    先日、とあるAI系の勉強会?説明会?でいくつか話を聞いてきたのだが、その中の一つとしてkaggleなるものを知った。 で、面白そうだったので早速試してみることにした。 ※ゼロから作るDeep Learningあたりを読み途中だったので読み切ってからのほうがいいかなとも思ったが、やる気になったときに初めてみるのがいいかなと思ったのと、わからなかったらに戻ってくればいいかなと。 kaggleって何? kaggleって何というのはこの辺を参照してみてください。 https://www.codexa.net/what-is-kaggle/ データサイエンス版のgit hubみたいなものというのが感覚的には一番わかりやすいかも。 カグってみる 何はなくともまずはアカウント作成 どれでも大差ないとは思うが、Facebookのアカウントを使ってサインアップすることにする。 IDを何にする?と聞かれる。

    [Kaggle]Kagglerになってみる - Qiita
  • Yet another 機械学習で株価を予測する (5) - Qiita

    1. 今回の目的 Yet another 機械学習で株価を予測する (1) Yet another 機械学習で株価を予測する (2) Yet another 機械学習で株価を予測する (3) Yet another 機械学習で株価を予測する (4) これまで3までで日経平均およびNYSE総合 (NYA)の日足データから翌営業日の日経平均が始値から終値にかけて上昇するか下落するか予想するプログラムを作り、交差検証で検証を行いました。利益を期待できそうという結果が得られたので、3ではパラメーターを振ったり、検証期間を変えてみたりして様子を見ました。程度の差こそあれ比較的長期に渡ってそれなりに安定して動作しそうでした。そこで今回は3で作成し、4でパラメーターを調整したプログラムをおおよそ直近の1年間動作させていた場合、利益(あるいは損失)がどれだけ出たのか検討してみることにします。 2. プログ

    Yet another 機械学習で株価を予測する (5) - Qiita
  • 本当に巨乳顔なんてないのだろうか? - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? はじめに Courseraの Machine Learning という講座を修了したので、自分で一から何か機械学習プロジェクトに取り組んでみようと思ったのが記事のきっかけです。 とは言ってもテーマが思いつかずQiitaを漁ってたところ、 ディープラーニングで顔写真から巨乳かどうかを判別してみる (うまくいったか微妙) という記事を見つけました。微妙に終わった理由の一つ「そもそも巨乳顔なんてものはない?」に、当にそうなのか?と思い、自分でトライしてみることにしました(勝手にすみません)。 おことわり 先行記事のコメントで巨乳/貧乳とい

    本当に巨乳顔なんてないのだろうか? - Qiita
  • sckit-learnのPiplineを使って、カスタム前処理をモデルの中に組み込む - Qiita

    はじめに Watson Studioの機能を使うと、sckit-learnのモデルを簡単にWebサービスにすることができます。 (参考リンク) Watson Studioでscikit-learn機械学習モデルをWebサービス化する 便利な機能なのですが、この機能を実業務で使うことを想定すると、前処理にあたる部分もモデル処理に含めてしまいたくなります。 sckit-learnのカスタムモデルクラスと、Pipelineを使って、これを実装してみたサンプルコードをメモとして残しておきます。 (2019-01-05 FunctionTransformerを使った方式に全面書き換え) 前提 元データは、Irisデータセットを使います。 このデータセットは、ご存じのとおり、4次元の入力データですが、このうち、1番目と3番目の列は、x に対して np.log(x + 1)に値を変更し、これを後段のモデ

    sckit-learnのPiplineを使って、カスタム前処理をモデルの中に組み込む - Qiita