つまりモデルでは穴馬の当選も予測できているが、卍氏の賭け方では予算の金額によって賭けられる最大オッズが下がってしまい、穴馬に賭けることができなくなります。その影響によりオッズの低い人気馬しか賭けることができず、回収率が下がる要因ともなっているようです。しかしその反対に荒れなかったレースについては卍氏の賭け方のように傾斜をつける方が回収率を上げる要因になっています。 なお今考えている予算が10万円の場合、複勝のようにオッズが低い場合(せいぜい5倍前後で)はあまり影響しません。しかし単勝ではオッズが約10倍以上の場合は、最小賭け金が100円のため、特に影響が出るようです。 このあたりは賭け金の計算式の定数(今の場合0.01)と自身の予算、モデルの予測値との検討が必要となります。 コードの公開 noteにて公開します。またコードの詳細な説明は公開するnote及びnotebook内のコメントにて記
PyTorchを勉強したので使い方をまとめていきます. ライブラリー 必要なライブラリをimportします. import numpy as np import torch from torchvision.transforms import ToTensor from torch.utils.data import DataLoader, Dataset, Subset from torchvision.models import resnet50 from sklearn.datasets import fetch_openml from sklearn.model_selection import KFold Datasetの作成 PyTorchにはtorchvision.datasets.MNISTというMNIST Datasetが用意されているが今回は自分でDatasetを作成し
はじめに 一般の方は耳にしたことがないだろうが、「Numerai(ヌメライ)」というヘッジファンドがある。2016年後半から2017年前半くらいにWiredやForbes等のメディアに取り上げられ、界隈で少し名が知られるようになったヘッジファンドだ。このヘッジファンドはいわゆるクラウドソーシング型ファンドと呼ばれる、不特定多数の人間による株価の予測結果をもとに運用するヘッジファンドである。 筆者も2017年頃、Numeraiに参加したことがある。Numeraiの方式は予測結果に基づいてランキングされるトーナメント方式であり、つまりKaggleのようなものだ。トーナメントは毎週開催され、ランキング上位には暗号通貨で報酬が支払われる。しかし当時のトーナメントは、ランキングの基準が不明瞭であり、その順位変動がとてつもなく激しく(TOP10に入っていたのに翌週は100位以下に落ちる等)、いわゆる運
GBDTは分析コンペや業務で頻出しますが、アルゴリズムの詳細はパッケージごとに異なるため複雑です。できることなら公式ドキュメント・論文・実装を読み込みたいところですが、私の実力的にそれは厳しいので参考サイトをまとめておきます。ゆるふわ理解に留まっている自分用のメモです。 GBDT Gradient Boosting Interactive Playground トイデータを使ってGBDTの挙動を確認できる。しばらく遊べる。 YouTube とてもわかりやすい解説動画。Part1~4を視聴すればアルゴリズムの基本が理解できる。 Gradient Boost Part 1: Regression Main Ideas Gradient Boost Part 2: Regression Details Gradient Boost Part 3: Classification Gradient
7. Awesome XGBoost • Vlad Sandulescu, Mihai Chiru, 1st place of the KDD Cup 2016 competition. Link to the arxiv paper. • Marios Michailidis, Mathias Müller and HJ van Veen, 1st place of the Dato Truely Native? competition. Link to the Kaggle interview. • Vlad Mironov, Alexander Guschin, 1st place of the CERN LHCb experiment Flavour of Physics competition. Link to the Kaggle interview. • Josef Slav
【主要なアップデート】 (2020.03.02)Colabノートブックへのリンク追加 こんにちは、Choimirai School のサンミンです。 0 はじめに機械学習のテキストブックとして日本語にも訳されて多くの方に読まれているのが、Christopher Bishopさんの、PRML(Pattern Recognition and Machine Learning、2006年)です。 今回の note では PRMLのPDF版を無料でダウンロードする方法と練習問題を試せる Jupyter Notebook を紹介させていただきます。 "Pattern Recognition and Machine Learning" by @ChrisBishopMSFT is now available as a free download. Download your copy today f
NVIDIA RAPIDSを使ったデータ分析と位置情報分析の入門 皆さん、こんにちは、こんばんは。石黒慎と申します。 この記事では、NVIDIA RAPIDSを使ったデータ分析について、ご紹介させていただきます。 RAPIDSを使うと、データサイエンスに必要な前処理〜機械学習までを簡単に高速化できます。 本記事ではRAPIDSの導入方法・利用方法から、 RAPIDSを用いた位置情報データ分析までをご紹介します。 本記事を参考に、RAPIDSを用いた様々な分析にトライして頂けると幸いです。 本記事の目標: 読者にお持ち帰りいただきたいもの RAPIDSとはなにか? RAPIDSの導入方法 RAPIDSの各種機能のご紹介 RAPIDSを使ったデータ分析入門 (タクシーデータに対して、dask-XGBoostを用いて機械学習) cuSpatialを使った位置情報データ分析 RAPIDSとはなにか
あらすじ ニューラルネットワークを作成する際に、層の数、ニューロンの数、活性化関数の種類等考えるべきパラメータは非常に多くあります。 そこで、これらのパラメータがどのようにモデルや学習に影響を与えるかということをscikit-learnの MLPClassifier を使って解説したいと思います。 MLPClassifierを使うと、非常に簡単にニューラルネットワークを使うことができます。 今回はそれぞれのパラメータの意味と使い方及び各種メソッドの解説していきたいと思います。 ちなみに、scikit-learnの推定器の選び方に関しては、scikit-learn(機械学習)の推定器:Estimatorの選び方 をご参照下さい。 1. hidden_layer_sizes| 層の数と、ニューロンの数を指定 default : (100,) 隠れ層の層の数と、ニューロンの数をタプルで指定します
RGFとは 中身 インストール 実行ファイルの入手 Perlのインストール Wrapperのインストール 多クラス分類に使ってみた 手早くチューニングしたいとき RGFとは RGFはランダムフォレストや勾配ブースティングのように多数の決定木(Forest)を使った分類/回帰のための学習器です。 原著論文では多くのテストデータで勾配ブースティングを超えるとされています(ただし、xgboostではなくRのgbmパッケージが比較対象です)。実際、著者のチームはRGFでBond Trade Price Challengeなど複数コンペで優勝するなど華々しい成績を収めています。 RGF単体がベストなモデルでない場合もアンサンブルの部品として使われるのを見かけます。(例えば、https://github.com/ChenglongChen/Kaggle_CrowdFlower) 中身 RGFはブーステ
rgf_pythonですが、ありがたいことにPorto Seguro’s Safe Driver Prediction Competitionを中心にkaggleで使ったよ、という報告が増えてきました。 Safety in Numbers - My 18th Place Solution to Porto Seguro's Kaggle Competition – Joseph Eddy – Data scientist, teacher, debate coach https://www.kaggle.com/scirpus/regularized-greedy-forest/code RGF単体でXGBやLightGBMを越えない場合でも、アンサンブルのお供には有力な選択肢です。 さて、rgf_pythonは現在も継続的に更新を続けており、デプロイ方法の変更や、docker image
第1回 Google Colaboratoryで始める機械学習のための特徴量エンジニアリング - カウントデータの二値化と離散化 PythonGoogle機械学習MachineLearningcolaboratory はじめに 本記事ではカウントデータに対しての前処理として使用される二値化と離散化について解説しています。本記事は主に「機械学習のための特徴量エンジニアリング」を参考とさせて頂いておりますので、気になる方は是非チェックしてみてください。 また本記事の内容をより詳しくYouTubeで解説しているのでこちらも気になる方はチェックしてみてください。 ※本記事で解説するプログラムは全てこちらにあります。 二値化とは 名前の通りターゲットの値を二値にする処理のことです。例えば以下の様な例を考えます。 そこでとあるユーザーのデータを取り出したところ、以下の様なデータであったと仮定します。1
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く