Jack (Japan)
はじめに 自分は元々pandasが苦手でKaggleコンペ参加時は基本的にBigQuery上のSQLで特徴量を作り、最低限のpandas操作でデータ処理をしていました。 しかし、あるコードコンペティションに参加することになり、pythonで軽快にデータ処理をこなす必要が出てきたので勉強しました。 そこで、当時の勉強メモをもとに「これだけ知っていればKaggleでそこそこ戦えるかな」と思っているpandasの主要機能をまとめました。 注記 実戦入門 のつもりが ほぼ辞書 になってしまいました orz pandasとはなんぞや的な内容は書いていません (import pandasやDataFrameとは何かなど) pandas1.0系でも動くように書いたつもりですが間違ってたらすみません 目次 はじめに 注記 目次 Options DaraFrame 読み書き CSVファイル 読み込み 書き出
In this article, I will discuss some great tips and tricks to improve the performance of your text classification model. These tricks are obtained from solutions of some of Kaggle’s top NLP competitions. Namely, I’ve gone through: Jigsaw Unintended Bias in Toxicity Classification – $65,000 Toxic Comment Classification Challenge – $35,000 Quora Insincere Questions Classification – $25,000 Google QU
不確実性を考慮した予測が可能と噂の NGBoost の論文を読んでみたので、全体のながれをまとめて見ました。加えて自分でも NGBoost を実装して、その結果を載せています。 元の論文 NGBoost: Natural Gradient Boosting for Probabilistic Prediction はこちら https://arxiv.org/abs/1910.03225。 Introduction 一般的な教師あり学習を考えます。このとき予測モデルは入力データ $X$ に対して予測値 $y$ を出力するように学習していきますが、たいていのモデルではひとつのデータに対しては予測値はひとつしか得ることができません。 例えばウェブ上の行動履歴から、ユーザーの年齢を予測してください、という問題があったとすると、ユーザーの期待される年齢そのものを返すようなモデルがそれに当たります。
機械学習を用いた日経電子版Proのユーザ分析 データドリブンチームの知られざる取り組み 機械学習を⽤いた⽇経電⼦版Proのユーザ分析 2019年1月22日、freee株式会社にて、Data Driven Developer Meetupが主催するイベント「Data Driven Developer Meetup #4」が開催されました。サービスをより良いものにするために日々データと向き合っているデータサイエンティストやエンジニアなど、様々な職種で活躍する人々が集い、知見を共有する本イベント。今回は日本経済新聞社とエムスリー株式会社の2社がメインセッションに登壇し、自社の取り組みについて語りました。プレゼンテーション「機械学習を⽤いた⽇経電⼦版Proのユーザ分析」に登場したのは、日本経済新聞社デジタル事業情報サービスユニットの石原祥太郎氏。日経電子版の法人向け情報サービス「日経電子版Pro」
一般的に、時系列データを扱うタスクでは過去のデータを使って未来のデータを予測することになる。 そのため、交差検証するときも過去のデータを使ってモデルを学習させた上で未来のデータを使って検証しなければいけない。 もし、未来のデータがモデルの学習データに混入すると、本来は利用できないデータにもとづいた楽観的な予測が得られてしまう。 今回は、そんな時系列データの交差検証と scikit-learn の TimeSeriesSplit の改良について書いてみる。 使った環境は次のとおり。 $ sw_vers ProductName: Mac OS X ProductVersion: 10.14.6 BuildVersion: 18G3020 $ python -V Python 3.8.1 下準備 あらかじめ、必要なパッケージをインストールしておく。 $ pip install scikit-le
Optuna 開発メンバの小嵜 (@smly) です。この記事では Optuna の拡張機能として開発している LightGBM Tuner について紹介します。 LightGBM Tuner は LightGBM に特化したハイパーパラメータ自動最適化のためのモジュールです。Pyhton コードの import 文を 1 行変更するだけで簡単に利用できます。LightGBM Tuner はエキスパートの経験則を自動化しコードに落とし込むことで、従来より短い時間で最適なハイパーパラメータを探索できます。また記事の後半では従来手法と比較したベンチマーク結果についても紹介します。ベンチマークをとることで、従来の方法と比較して効率的に探索できることを確認しました。 ナイーブな LightGBM のハイパーパラメータチューニング LightGBM は勾配ブースティング法の高速な実装を提供する人気の
LightGBM PyData.Tokyo Meetup #21 AlphaImpact • (@henry0312) • (2015.04−2019.06) • Dwango Media Village • AlphaImpact (2019.02−) • • LightGBM • 2 LightGBM • 2016 10 GBDT + • Python 12 • PR OSS 3 • LightGBM • LightGBM • XGBoost CatBoost • LightGBM • 4 LightGBM LightGBM • Microsoft • • Kaggle (2019/4/4) 6 7 https://twitter.com/fchollet/status/1113476428249464833 GBM • Gradient Boosting Machines • 1 N
LightGBM や XGBoost などで使われている勾配ブースティングのパラメータについて、チューニングノウハウというよりもそのパラメータがどういう意味を持っているのか、に焦点をあててまとめて見ました。 各ライブラリのパラメータすべては以下から確認できます。 lightGBM Parameter XGBoost Parameter NOTE: 以下では lightGBM のパラメータの名前で説明しています。微妙に名前が違うものがあるので適宜読み替えてください。 勾配ブースティングについてざっくりと 一般的な決定木では木はひとつだけで、その木に対してたくさんの分割ルールを適用していきます。 勾配ブースティング木では、木をたくさん作ります。たくさん作る代わりに、一つ一つの木の分割をざっくりとしたものにします。 そして作った木すべての予測の合計を使うことで、ひとつの木では表せないような複雑な
この記事はどんな記事なのだ? こんにちはなのだ、kaggle masterのアライさんなのだ。 この記事はkaggle advent calendar 2019 その1の13日目の記事なのだ。 前日はu++さんのKaggle Days Tokyoの記事なのだ。アライさんも参加したかったのだ。 明日はtakapy0210さんの学習・推論パイプラインについてなのだ。楽しみなのだ。 Kagglerの間では連綿と受け継がれる便利関数がいくつかあるのだ。アライさんはそれをKaggleコード遺産と呼ぶことにしたのだ。この記事ではKaggleコード遺産の紹介とその出処の検証1を行おうと思うのだ。面白かったら是非upvoteしてくださいなのだ。 さあKaggleパークの冒険に出発なのだ! おことわり 今回の記事はPythonコードに限った話になってしまったのだ。KaggleのNotebookではRも使える
https://pydatatokyo.connpass.com/event/77008/
Kaggle Advent Calendar 13日目の投稿です。 初めまして、Lain(@lain_m21)と申します。Qiita初投稿です! 今回はKaggle関連のトピックで何か短いのを一本書こうと思い、私が普段行なっているコンペ用の環境構築についていくつか良いなと思ったtipsをシェアしたいです。 先に結論からまとめておくと、 ローカルPCよりクラウドの計算資源をうまく使おう AWSもいいけど、GCPの方が目的に応じてインスタンススペックを細かくチューニングできるので良いぞ 今後のクラウドの環境構築をスムーズにするためにdockerを使おう といった感じです。昨今のコンペの規模を考えるとクラウドで計算することが増えると思うのですが、いちいちコンペごとに環境構築したりめんどくさいと思うので、できるだけdockerで自動化して楽しよう!というのが趣旨になります。 一応順を追って説明しま
はじめに 『機械学習のための特徴量エンジニアリング』の書誌情報 Kaggleのワークフロー 1. (探索的データ分析) 2. ベースラインモデルの構築 3. Validationの構築 4. 特徴量エンジニアリング 5. ハイパーパラメータ調整 6. アンサンブル 『機械学習のための特徴量エンジニアリング』の貢献箇所 Kaggle観点で本書をオススメする読者 おわりに はじめに このたび、『機械学習のための特徴量エンジニアリング』をご恵贈いただきました。 Kaggleと親和性が高い書籍名で、Twitterのタイムラインなどを見るに、Kaggleに興味がある層を中心に大きな注目を集めているようです。 本記事では本書の発売に寄せて、Kaggleの自分流のワークフローと「特徴量エンジニアリング」の位置づけについての私見を述べます。その上で本書がKaggleのワークフローのどの部分に寄与するかを説
By Victor Powell with text by Lewis Lehe Principal component analysis (PCA) is a technique used to emphasize variation and bring out strong patterns in a dataset. It's often used to make data easy to explore and visualize. 2D example First, consider a dataset in only two dimensions, like (height, weight). This dataset can be plotted as points in a plane. But if we want to tease out variation, PCA
目で数学を理解したい ※随時更新中。良サイトを知っていたらコメントで教えてください。 調べたら、ここにまとめてあった - Distill 機械学習に関する難しい概念をインタラクティブに説明する次世代のアカデミックプラットフォーム。 - 3Blue1Brown 見たら「数学はこれで学びたかった」と誰も思うはず。 - Physics Videos by Eugene Khutoryansky オーバーに可視化しているところもありますが、イメージがつかめる - An Interactive Introduction to Fourier Transforms フーリエ変換をインタラクティブに説明。 - A VISUAL INTRODUCTION TO MACHINE LEARNING スクロールとともにスムーズに可視化が進んでいく。 - A Neural Network Playgroud ブラ
特に特殊なライブラリは用いておりません. sklearnを入れているのは,irisによって挙動を確認するためです. コード コードは以下の通りです. import numpy as np import pandas as pd from sklearn.datasets import load_iris from collections import Counter from sklearn.model_selection import train_test_split """ input: train_X: pd.DataFrame(N1, d) test_X: pd.DataFrame(N2, d) train_Y: pd.DataFrame(N1, 1) k: int output: pred_Y: np.ndarrray(N2, k) """ def calculate_simil
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く