タグ

ブックマーク / upura.hatenablog.com (15)

  • 【書籍メモ】『PythonではじめるKaggleスタートブック』(講談社) - u++の備忘録

    共著で執筆した、3月17日発売の『PythonではじめるKaggleスタートブック』(講談社)が手元に届きました。 記事では、書の関連リンクをまとめました。以前に書いた告知記事については、補足情報も付与します。 Amazon www.amazon.co.jp サンプルコード github.com 告知記事 upura.hatenablog.com 告知記事の補足 1. 私がレビューをお願いした方々のご紹介 告知記事のタイミングではレビューが完了していなかったため積極的に公表していませんでしたが、私が優勝したKaggle「PetFinder.my Adoption Prediction」コンペ*1のチームメイト4人に、書のレビューにご協力いただきました。Kaggle GrandmasterやKaggle Masterの称号を持っている方々に深く議論に参加していただき、より良い書籍に仕上

    【書籍メモ】『PythonではじめるKaggleスタートブック』(講談社) - u++の備忘録
  • 「Data Gateway Talk vol.5」に参加しました&全発表まとめ #dgtalk - u++の備忘録

    データアナリスト/データサイエンティストの登竜門 (Gateway to Success) となることを目指した勉強会「Data Gateway Talk vol.5」に参加しました。 data-gateway-talk.connpass.com 対象を絞った勉強会で以前から関心はあり、今回が初参加です。 記事では、全発表について概要と所感を述べます。 データ分析業務を1年間やって実感したこと 発表資料 概要 所感 「データ分析」の解像度を上げたい 発表資料 概要 所感 GBDTアルゴリズム Gradient Boost Decision Tree with Iris Data 発表資料 概要 所感 Hivemallを使ってSQL機械学習 発表資料 概要 所感 SHAP(SHapley Additive exPlanations)で機械学習モデルを解釈する 発表資料 概要 所感 リサー

    「Data Gateway Talk vol.5」に参加しました&全発表まとめ #dgtalk - u++の備忘録
  • Pythonを用いたKaggle入門書を2020年3月に講談社から出版します - u++の備忘録

    このたびご縁があり、Pythonを用いたKaggle入門書を講談社から出版する運びとなりました*1。現在デザインや校正などを進めている段階で、発売開始は2020年3月17日を予定しています。 https://www.amazon.co.jp/dp/4065190061 同人誌ながら累計2500部以上を売り上げている『Kaggleのチュートリアル』*2を執筆したカレーさんとの共著です。 私がQiitaに投稿した「Kaggleに登録したら次にやること ~ これだけやれば十分闘える!Titanicの先へ行く入門 10 Kernel ~」*3と、カレーさんの『Kaggleのチュートリアル』を基にした書籍です。この2つのコンテンツを土台に、さらなる内容も盛り込みながら「初学者向けのKaggle入門書の決定版」を目指して執筆を進めています。 書の前半では、初学者向けチュートリアルの「Titanic

    Pythonを用いたKaggle入門書を2020年3月に講談社から出版します - u++の備忘録
  • 「初手LightGBM」をする7つの理由 - u++の備忘録

    Kaggleなどのデータ分析コンペでテーブルデータを扱う場合、最近は取りあえずLightGBMを利用する場合が多いです。 記事では、初手の機械学習アルゴリズムとして「LightGBM」*1を採用する理由を紹介します。あくまで2019年10月末時点での個人の主観なので、ご参考までにご覧いただければと思います。 1. 欠損値をそのまま扱える 2. カテゴリ変数の指定ができる 3. 特徴量のスケーリングが不要 4. feature importanceが確認できる 5. 精度が出やすく最終的なモデルとして残る可能性が高い 6. 比較的大きいデータも高速に扱える 7. 過去の経験からハイパーパラメータの勘所がある おわりに 初手としては、手の混んだ特徴量を作らずに、まずは何かしらの予測結果を生成したい場合も多いです。LightGBMは既存のデータセットを極力加工せずに利用するという観点で、特徴量

    「初手LightGBM」をする7つの理由 - u++の備忘録
  • Adversarial Validationを用いた特徴量選択 - u++の備忘録

    先日公開した「IEEE-CIS Fraud Detection」コンペの解法*1の中で、Adversarial Validationの考え方を用いた特徴量選択について何回か質問がありました。 記事では、Adversarial Validationの考え方を用いた特徴量選択を解説します。 Adversarial Validationとは いつ使う? 解決策 Adversarial Validationを用いた特徴量選択 CPMPさんの「Microsoft Malware Prediction」の解法 具体的なやり方 おわりに Adversarial Validationとは 以前に書いた自分の記事*2から抜粋します。 いつ使う? TrainデータとTestデータの分布が異なる場合 → Trainデータから適切にValidationデータを作成するのが難しい → Kaggleの場合、Loca

    Adversarial Validationを用いた特徴量選択 - u++の備忘録
  • 【書評】『Kaggleで勝つデータ分析の技術』(技術評論社) - u++の備忘録

    限定の先行販売*1で紙版を入手した『Kaggleで勝つデータ分析技術』(技術評論社)を読みました。なお電子版をご恵贈いただく予定です。 gihyo.jp 10月7日の発売を待たずして Amazon*2のベストセラー1位になるなど、注目を集めています。 既に著者の一人である threecourse さんは、執筆者視点で見どころを紹介しています*3。 記事では一人の読者、そして Kaggler の視点で書評を記します。なお私は既に1年以上 Kaggle に取り組んでおり、一定程度の知識を有している視点からの書評になります*4。 書の魅力 1. データ分析コンペのテーブルデータコンペに注力して書かれた「教科書」である 2. 技法のみならず筆者および関係者の実体験に基づいた集合知も言語化されている 3. コードが公開されている どんな人に書はお勧めか Kaggleに取り組んだ経験があり、更

    【書評】『Kaggleで勝つデータ分析の技術』(技術評論社) - u++の備忘録
  • Udemy講座「【Python・Django・TensorFlow + 転移学習】画像分類AIアプリ自作入門」をやった - u++の備忘録

    Udemy講座「【Python・Django・TensorFlow + 転移学習】画像分類AIアプリ自作入門」をやりました。タイトル通り、PythonのTensorFlowで作成した機械学習モデルをDjangoを用いてWebアプリ化する講座です。全3.5時間を一晩で流し見しながら追体験しましたが、個人的に求めていた内容にピンポイントで合致して満足しています。 https://www.udemy.com/django-ai-app/ 受講の動機 受講前の知識 各セクションの雑感 イントロ 環境構築(既修者はスキップOK) データの収集・クレンジング CNNによるトレーニング 転移学習でスコアアップを図ろう! コマンドラインアプリ化しよう! Djangoでウェブアプリ化しよう おわりに 受講の動機 受講した理由は、機械学習モデルをWebアプリに組み込む方法をザックリと知りたかったためです。最近

    Udemy講座「【Python・Django・TensorFlow + 転移学習】画像分類AIアプリ自作入門」をやった - u++の備忘録
  • Kaggleにおける「特徴量エンジニアリング」の位置づけ 〜『機械学習のための特徴量エンジニアリング』に寄せて〜 - u++の備忘録

    はじめに 『機械学習のための特徴量エンジニアリング』の書誌情報 Kaggleのワークフロー 1. (探索的データ分析) 2. ベースラインモデルの構築 3. Validationの構築 4. 特徴量エンジニアリング 5. ハイパーパラメータ調整 6. アンサンブル 『機械学習のための特徴量エンジニアリング』の貢献箇所 Kaggle観点で書をオススメする読者 おわりに はじめに このたび、『機械学習のための特徴量エンジニアリング』をご恵贈いただきました。 Kaggleと親和性が高い書籍名で、Twitterのタイムラインなどを見るに、Kaggleに興味がある層を中心に大きな注目を集めているようです。 記事では書の発売に寄せて、Kaggleの自分流のワークフローと「特徴量エンジニアリング」の位置づけについての私見を述べます。その上で書がKaggleのワークフローのどの部分に寄与するかを説

    Kaggleにおける「特徴量エンジニアリング」の位置づけ 〜『機械学習のための特徴量エンジニアリング』に寄せて〜 - u++の備忘録
  • LightGBMでdownsampling+bagging - u++の備忘録

    はじめに データセットの作成 LightGBM downsampling downsampling+bagging おわりに はじめに 新年初の技術系の記事です。 年末年始から最近にかけては、PyTorchの勉強などインプット重視で過ごしています。その一環で不均衡データの扱いも勉強しました。 クラス比1:99の人工的な不均衡データ使ってダウンサンプリングを試してるけど、バカみたいに負例を捨てちゃっても意外と大丈夫なんだな。計算時間が圧倒的に減るので、その時間でアンサンブル的なことすれば精度も確保できそう。— u++ (@upura0) January 8, 2019 上記のツイートを契機に多くのリプライなどで情報を頂戴しましたが、以前に話題になった「downsampling+bagging」の手法が良さそうでした。記事では、模擬的に作成したデータセットにLightGBMを使い、「down

    LightGBMでdownsampling+bagging - u++の備忘録
  • 2018年のKaggleの"leak"を眺めてみる - u++の備忘録

    はじめに 2018年のKaggleでは、何かと "leak" という単語が話題になった印象があります。 https://www.kaggle.com/docs/competitions#leakage 今回は、Meta Kaggleのデータを分析し、2018年のコンペで話題になった "leak" を眺めてみました。 Meta Kaggle 分析の概要 2018年に公開された全てのdiscussionから、タイトルに "leak" を含むものを抽出 ただし対象コンペは、2018年に開始したレート変動を含むものとする 対象コンペの抽出 discussionに関するデータセットには、コンペ名が記載されていませんでした。今回は "ForumId" をキーに結合することで、discussionとコンペ名を紐づけます。 compe = pd.read_csv("Competitions.csv") #

    2018年のKaggleの"leak"を眺めてみる - u++の備忘録
  • 【Kaggleのフォルダ構成や管理方法】タイタニック用のGitHubリポジトリを公開しました - u++の備忘録

    はじめに Kaggleのタイタニック GitHubリポジトリ 執筆の経緯 大まかな方針 参考にした情報 フォルダ構成 configs data input output features logs models notebook scripts utils 計算の実行 Git管理 おわりに はじめに 記事では、Kaggle用フォルダ構成や管理方法について、現時点での自己流の方法をまとめます。「現状自分はこういうやり方を試している」という話なので、よりよい方法などあれば、ぜひTwitterなどで教えてください。 具体例がないと抽象的で分かりづらいと思ったので、Kaggleのタイタニックを題材にしました。GitHubのリポジトリも公開しています。 Kaggleのタイタニック Kaggleのタイタニックとは、Kaggleのチュートリアル的な問題として認知度の高いコンペティションです。タイタニッ

    【Kaggleのフォルダ構成や管理方法】タイタニック用のGitHubリポジトリを公開しました - u++の備忘録
  • 『Kaggle Ensembling Guide』はいいぞ【kaggle Advent Calendar 7日目】 - u++の備忘録

    記事は、kaggle Advent Calendar 2018の7日目の記事です。 qiita.com TwitterでこのAdvent Calendarに書く話題を募集したところ、次のようなリプを頂きました。 あと Kaggle で多用される Ensemble のテクニックに関する記事も読んでみたいです。特に Stacking は巷に資料が少ない気がします。やるときの注意点などもあるとめっちゃ嬉しいです。— もみじあめ (@momijiame) December 5, 2018 この話題については、私自身が記事を書くよりも、既にKaggleの一部界隈の人はご存知?の有名エントリ『Kaggle Ensembling Guide』があります。 https://mlwave.com/kaggle-ensembling-guide/ 正直言って、これ以上のまとめを書くのは相当に骨が折れそうなの

    『Kaggle Ensembling Guide』はいいぞ【kaggle Advent Calendar 7日目】 - u++の備忘録
  • Rを用いて般若心経を感情分析してみた - u++の備忘録

    はじめに 感情分析とは Rのパッケージ 般若心経を感情分析 データの準備 分析結果 おわりに はじめに 記事は、hiro.is(@youjo_DS)さんの以下のブログを読んで着想を得ました。 loveshome.hatenablog.jp 感情分析とは 感情分析とは、その名の通り単語や文章内の「感情」を分析する手法です。事前に単語ごとに[-1, 1]で感情に値を付けた辞書を用意しておきます。値が正に大きいほどポジティブ、負に大きいほどネガティブな感情を意味します。文章の場合は単純に足し合わせで「文章としての値」を算出しているようです。 head(dic) # V1 V2 V3 V4 #1 優れる すぐれる 動詞 1.000000 #2 良い よい 形容詞 0.999995 #3 喜ぶ よろこぶ 動詞 0.999979 #4 褒める ほめる 動詞 0.999979 #5 めでたい めでたい

    Rを用いて般若心経を感情分析してみた - u++の備忘録
  • 技術書典5で弊社の機械学習活用事例を紹介します - u++の備忘録

    2018年10月8日に池袋サンシャインシティで開催される技術書典5に、弊社のエンジニア有志で執筆した書籍を頒布します。 techbookfest.org 私は第1章「機械学習を用いた日経電子版Proのユーザ分析」を担当しました。 私は弊社にて、営業・マーケティング向けのデータ分析や、業務効率化のための環境整備を担当しています。 章では、機械学習を用いた「日経電子版Pro」のユーザ分析事例を紹介しました。課題設定から始め、データの前処理や予測モデルの構築など一連の過程を、Pythonのコードと合わせて掲載しています。 pr.nikkei.com 以下のような読者を想定して執筆しました。Kaggleでテーブルデータを処理するような過程が含まれているので、Kaggleに興味がある方なら楽しんでお読みいただける内容になっていると考えています。 データ分析に興味がある PythonのPan

    技術書典5で弊社の機械学習活用事例を紹介します - u++の備忘録
  • KaggleのWinner solutionにもなった「K近傍を用いた特徴量抽出」のPython実装 - u++の備忘録

    今回は、KaggleのWinner solutionにもなった「K近傍を用いた特徴量抽出」を紹介します。 Rでの実装は公開されていますが、Pythonでの実装は確認できなかったので、自前のPython実装も公開しています。 github.com アルゴリズムの概要 Pythonでの例 可視化のためのパッケージ読み込み サンプルデータの生成 可視化 K近傍を用いた特徴量抽出 可視化 iris での例 追記20180624 実装の修正 はてなホットエントリ入り アルゴリズムの概要 近傍数を、分類するクラス数をとした場合に、アルゴリズムは個の特徴量を生成します。生成される特徴量は下記のように、観測値と各クラス内の最近傍点との間の距離から計算されます。 とあるクラスに属する訓練データの中の第1近傍までの距離を1つ目の特徴量とする とあるクラスに属する訓練データの中の第2近傍までの距離の和を2つ目の

    KaggleのWinner solutionにもなった「K近傍を用いた特徴量抽出」のPython実装 - u++の備忘録
  • 1