werdandiのブックマーク / 2019年1月19日

【機械学習初心者向け】scikit-learn「アルゴリズム・チートシート」の全手法を実装・解説してみた - Qiita

scikit-learnのアルゴリズム・チートシートで紹介されている手法を全て実装し、解説してみました。注釈本記事シリーズの内容は、さらに丁寧に記載を加え、書籍「AI エンジニアを目指す人のための機械学習入門実装しながらアルゴリズムの流れを学ぶ」として、出版いたしました。概要 scikit-learn アルゴリズム・チートシート【対象者】機械学習を使用したい方、初心者向けの機械学習本を読んで少し実装してみた方 scikit-learnの説明は英語で分かりにくいし、実装例もシンプルでなくて、よく分からんという方【得られるもの】模擬データを用いて、各手法を使用したミニマム・シンプルなプログラムが実装できるようになります。アルゴリズムの詳細な数式は理解できませんが、だいたい何をやりたいのか、意図と心、エッセンスが分かります。アルゴリズムマップの手法をひとつずつ実装・解説します。

werdandi 2019/01/19

リンク

代表的な機械学習手法一覧 - Qiita

概要本ページは、代表的な機械学習の手法の特性について独自に簡単にまとめたページです。（ご意見、ご指摘等あったらご連絡ください。）世の中のスタンダードなものとして下記もあるので、それを踏まえてご参照いただければと思います。 - ScikitLearn Choosing the right estimator - Microsoft Azure Machine Learning Studio の機械学習アルゴリズムチートシート - 朱鷺の杜Wiki 機械学習教師データあり回帰 (一般化)線形回帰ロジスティック回帰サポートベクターマシーン(SVM) 木決定木（CART) 回帰木ランダムフォレスト勾配ブースティング木ニューラルネットワーク(NN) パーセプトロン畳み込みニューラルネットワーク(CNN) 再起型ニューラルネットワーク(RNN) 残差ネットワーク(ResNe

werdandi 2019/01/19

リンク

Rの data.table と data.frame を dplyr で区別なく扱う - StatsFragments

R を使っていると、組み込み型の data.frame と大規模データ用パッケージである data.table の差異で思わずはまることがあるので使い方をまとめる。どちらか一方しか使わないようにすれば差異を気にする必要はないのかも知れないが、、。基本的にはデータ操作用パッケージ dplyr が data.frame と data.table 両方に対して同じように使えるので、できるだけ dplyr を使って操作するのがよい。ある程度複雑な操作であれば最初から dplyr を使うと思うが、列選択, 行選択, 代入など比較的シンプルな操作はつい通常の書式で書いてしまう (そしてはまる、、)。また、列名を文字列に入れて処理するなど、dplyr 0.2以前では(シンプルには)書けない処理もあった。 dplyr 0.3でこのあたりの処理が素直に書けるようになっているので、その方法と通

werdandi 2019/01/19

リンク

データフレームの特徴をもっと早く掴みたい ~ ハドリーへの挑戦 - cucumber flesh

探索的なデータ分析 (Explore Data Analysis: EDA)を行う際は、データの要約や欠損の有無の確認、可視化が欠かせない作業となります。特に可視化は、データのもつ性質や関係を表現するのに大変役立ちます。一方で、可視化に用いた図はコードとは別に保存する必要があったり、作図のためのコードを書いたりと、面倒な側面もあります。 … きちんとした作図は面倒だけどデータの性質や欠損について把握したい。そんな時にはコンソール上での可視化を試しましょう。そのためのパッケージをHadley Wickhamが開発しています。 https://github.com/hadley/precis Rにはそもそも、オブジェクトの情報を要約してくれるsummary()関数があるのですが、この precisパッケージは、それを置き換えるような設計を目指しているそうです。早速使ってみましょう。 # gi

werdandi 2019/01/19

リンク

tidymodelsによるtidyな機械学習（その2：Cross Varidation） - Dropout

はじめに前処理 Cross Validation ハイパーパラメータのサーチまとめ参考はじめに本記事ではtidymodelsを用いたCross Validationとハイパーパラメータのチューニングについて紹介したいと思います。なお、tidymodelsの基本的な操作方法については以下の記事をご覧下さい。 dropout009.hatena blog.com 前処理まずは前回の記事と同様、訓練/テストデータの分割と前処理を行います。なお、例によってデータはdiamondsを用います。 # パッケージ library(tidyverse) library(tidymodels) set.seed(42) # 分割 df_split = initial_split(diamonds, p = 0.8) df_train = training(df_split) df_test =

werdandi 2019/01/19

リンク

purrrとbroomで複数の回帰モデルを効率的に管理する - Dropout

私は探索的にデータを見てく段階では、可視化に加えて複数の回帰モデルを作成して比較をする、ということをよくやっています。モデルの数が少ない場合は個別にモデルを作成してsummary()で見ていく事もできますが、モデルの数が増えるにつれてそのやり方では管理が難しくなってきます。そこで、本記事では、purrrのmap()とbroomのtidy(), glance()を用いて複数の回帰モデルを効率的に扱う方法を紹介したいと思います。まずはライブラリを読み込みます。tidyverseはおなじみのデータハンドリングと可視化のためのパッケージ群です。tidymodelsはモデリングをtidyなやり方で統一的に扱えるようにするパッケージ群になります。今回はbroomのみ用いますが、後日他のパッケージの紹介記事も書ければと思っています。 library(tidyverse) library(tidym

werdandi 2019/01/19

リンク

tidymodelsによるtidyな機械学習（その1：データ分割と前処理から学習と性能評価まで） - Dropout

目次目次はじめに tidyな機械学習フロー訓練データとテストデータの分割特徴量エンジニアリングモデルの学習モデルの精度評価まとめ参考文献 ※この記事をベースにした2019年12月7日に行われたJapan.R 2019での発表資料は以下になります。 tidymodelsによるtidyな機械学習 - Speaker Deck はじめに本記事ではtidymodelsを用いたtidyな機械学習フローを紹介したいと思います。 tidyverseはデータハンドリングと可視化のためのメタパッケージでしたが、tidymodelsはtydyverseにフィットするやり方で統計モデリング/機械学習をするためのメタパッケージになります。 tidymodels配下のパッケージは量が多く使い所が限られているパッケージも多いため、一度に全ては紹介できません。ですので、今回は典型的な訓練データとテ

werdandi 2019/01/19

リンク

Kaggleで世界11位になったデータ解析手法～Sansan高際睦起の模範コードに学ぶ｜ハイクラス転職・求人情報サイト AMBI（アンビ）

Kaggleで世界11位になったデータ解析手法～Sansan高際睦起の模範コードに学ぶ Kaggleの上位入賞者であるKaggle Grandmasterを獲得した、Sansan株式会社のデータサイエンティスト高際睦起さん。模範となるソースコードをもとに考え方や解析手法を教えていただきました。「Porto Seguro’s Safe Driver Prediction」とは？【技法1】前処理【技法2】特徴抽出【技法3】予測モデルの作成 Kaggle初心者は何から始めるべき？データサイエンティストを目指す若き人たちへ世界中のデータサイエンティストたちが集まり、企業や研究者が投稿したデータに対する高精度なモデルを競い合うプラットフォーム・Kaggle。メンバーは100万人を超えており、良問の多さや参加者のレベルの高さゆえに、機械学習を学ぶ者にとって優れた研鑽（けんさん）の場となって

werdandi 2019/01/19

あとで読む

リンク

pythonでのデータ分析時、死ぬほど調べるTipsをまとめておく。 - プロクラシスト

こんにちは、ほけきよです。 pythonでデータを取り扱っているとき「あれ、これどうやるんだっけ？？」ってなること、ありませんか？僕は10分に1回程度なります。いや、覚えろと自分でも思うんですが、覚えられないんですよね。100回くらい同じコマンドを調べてたりする。物覚えが良くないので、ココを見れば絶対大丈夫なようにしておこうと思い、まとめてみました。 jupyterで最初に開くときに読み込むモジュールたち datetime 日付⇔文字列の変換 datetimeの足し算引き算 json dict型⇔json jsonファイルの入出力 datetimeをjsonにする時、エラーが出る pandas ～以外を表すやつ andとor inf弾くリストをdfにサクッと変換 datetimeとして読み込み読み込み時にcodecのエラーが出る DataFrameのfor文 numpy lins

werdandi 2019/01/19

リンク

はてなブックマーク

タグ

2019年1月19日のブックマーク (9件)

【機械学習初心者向け】scikit-learn「アルゴリズム・チートシート」の全手法を実装・解説してみた - Qiita

代表的な機械学習手法一覧 - Qiita

Rの data.table と data.frame を dplyr で区別なく扱う - StatsFragments

データフレームの特徴をもっと早く掴みたい ~ ハドリーへの挑戦 - cucumber flesh

tidymodelsによるtidyな機械学習（その2：Cross Varidation） - Dropout

purrrとbroomで複数の回帰モデルを効率的に管理する - Dropout

tidymodelsによるtidyな機械学習（その1：データ分割と前処理から学習と性能評価まで） - Dropout

Kaggleで世界11位になったデータ解析手法～Sansan高際睦起の模範コードに学ぶ｜ハイクラス転職・求人情報サイト AMBI（アンビ）

pythonでのデータ分析時、死ぬほど調べるTipsをまとめておく。 - プロクラシスト

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第5週）

今週のはてなブックマーク数ランキング（2024年9月第4週）

今週のはてなブックマーク数ランキング（2024年9月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス