タグ

kaggleに関するtokuryooのブックマーク (26)

  • 第9回:Kaggleの「画像コンペ」とは--取り組み方と面白さを読み解く

    印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます 今回は「Kaggle」の画像コンペに取り組む方法を紹介したいと思います。筆者は、2017年9月ごろにKaggleを始め、最初はECサイト向けの画像分類に挑戦しました。それ以降、画像コンペを中心に取り組んでいます。大学の専攻はオペレーションズリサーチで画像認識とは無縁でしたが、コンペを通じて知識や知見を得ながら、念願のKaggle Masterになることができました。稿ではその取り組みを紹介し、少しでもイメージを持ってもらえればと思います。 Kaggleにおける画像コンペとは Kaggleで行われる画像コンペでは、画像認識の分野においてオーソドックスな分類や検出、セグメンテーションといったタスクが多いです。例えば、「Human Prot

    第9回:Kaggleの「画像コンペ」とは--取り組み方と面白さを読み解く
  • この本を読んで機械学習を学び、Kaggleの金メダルをとりました|カレーちゃん

    質問ありがとうございます。今年の7月から専業のKagglerになり、奇跡的に金メダルをとることができました。それをツイートしていたので、質問をしていただけたのだと思います。 私がKaggleをやるにあたり、主に書籍で学んだので、機械学習の実力向上に直結したをあげてみますね。 最近は、日語で学ぶことができる、良い動画もあるようですが、最近の動画は見たことがないので、動画で学びたいようであれば、他のサイトを探してみてください。 また、「Kaggleのチュートリアル」でも「データ分析の勉強方法」として文章を書いているので、最後に貼っておきます。 機械学習を学べ、Kaggleに直結した

    この本を読んで機械学習を学び、Kaggleの金メダルをとりました|カレーちゃん
  • 最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング

    スライドは、弊社の梅により弊社内の技術勉強会で使用されたものです。 近年注目を集めるアーキテクチャーである「Transformer」の解説スライドとなっております。 "Arithmer Seminar" is weekly held, where professionals from within and outside our company give lectures on their respective expertise. The slides are made by the lecturer from outside our company, and shared here with his/her permission. Arithmer株式会社は東京大学大学院数理科学研究科発の数学の会社です。私達は現代数学を応用して、様々な分野のソリューションに、新しい高度AIシステム

    最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
  • Kaggle参戦記 〜入門からExpert獲得までの半年間の記録 & お役立ち資料まとめ〜 - ML_BearのKaggleな日常

    これはなに? デジタルマーケター 兼 プロダクトマネージャー 兼 データアナリスト (肩書長い…) の私が Kaggle に挑戦した約半年間の記録です。現時点で2つのコンペに真面目に取り組んで2つの銀メダル(入賞)を獲得出来ています。 Kaggle挑戦期間を通して、有識者の素晴らしい資料に助けられたのでとても感謝しています。同じような志を持つ方に自分の記録が少しでも役に立てばと思い、有用な資料のリンク集に私のKaggle参戦記ポエムをつけてまとめてみました。 自分の得意領域で勝負しようと思ってテーブルデータのコンペばかり選んでいるのでDeepLearning系の話は全然ないです、すみません。 目次 プロローグ Kaggleへの興味の芽生え 初参戦 → 即撤退 ガチ参戦に向けた修行 初ガチコンペデビュー 初ガチコンペ…、のはずが。 初ガチコンペ参戦 ベースモデル作成 特徴量エンジニアリング

    Kaggle参戦記 〜入門からExpert獲得までの半年間の記録 & お役立ち資料まとめ〜 - ML_BearのKaggleな日常
  • GCPUG kitakyu#1「BigQuery+BigQueryMLでKaggle機械学習を攻略してみた」 - Speaker Deck

    All slide content and descriptions are owned by their creators.

    GCPUG kitakyu#1「BigQuery+BigQueryMLでKaggle機械学習を攻略してみた」 - Speaker Deck
  • GCPとDockerでKaggle用計算環境構築 - Qiita

    Kaggle Advent Calendar 13日目の投稿です。 初めまして、Lain(@lain_m21)と申します。Qiita初投稿です! 今回はKaggle関連のトピックで何か短いのを一書こうと思い、私が普段行なっているコンペ用の環境構築についていくつか良いなと思ったtipsをシェアしたいです。 先に結論からまとめておくと、 ローカルPCよりクラウドの計算資源をうまく使おう AWSもいいけど、GCPの方が目的に応じてインスタンススペックを細かくチューニングできるので良いぞ 今後のクラウドの環境構築をスムーズにするためにdockerを使おう といった感じです。昨今のコンペの規模を考えるとクラウドで計算することが増えると思うのですが、いちいちコンペごとに環境構築したりめんどくさいと思うので、できるだけdockerで自動化して楽しよう!というのが趣旨になります。 一応順を追って説明しま

    GCPとDockerでKaggle用計算環境構築 - Qiita
  • kaggle初心者の私が3ヶ月でソロゴールドを獲得した方法 | リクルート

    リクルートデータ組織のブログをはじめました。※最新情報はRecruit Data Blogをご覧ください。 Recruit Data Blogはこちら こんにちは。今年2018年4月より新卒でRCOに入社した松田です。 kaggle というデータ分析のコンペティション運営サイトが昨今世間に注目されていますが、 今回 TalkingData AdTracking Fraud Detection Challenge において2月にkaggleを始めた私が単独で金メダル(ソロゴールド)を獲得できたのでそれまでにやったことなどをシェアしたいと思います。 図: kaggleサイト( https://www.kaggle.com/ )のプロフィール画面より 図: kaggleでの活動ログ。中2ヶ月はやってないので実質の活動期間は1ヶ月ほど コンペの具体的内容やテクニックの話は 別記事 にまとめたので、

    kaggle初心者の私が3ヶ月でソロゴールドを獲得した方法 | リクルート
  • 社内でKaggleの布教活動をやっている話 - yasuhisa's blog

    最近、社内勉強会で機械学習についてエンジニアに説明する機会があり、その際にKaggleについても説明しました。一方で うーん、「Kaggler はパラメータチューニングやアンサンブル等の自明でインクリメンタルな改善『しか』できない」というような誤解はどうやって解いていけばいいんだろう。— im132nd (@im132nd) 2018年4月4日 という話もあり、(特にデータサイエンティスト以外の職種の人が)Kaggleをやる意義/メリットについてまとめてみました。ガッと勢いで書いたので、項目に結構被りがあります。なお、書いている人はKaggleほぼ初心者であまり説得力がないです。Kaggle Masterの人がもっといいエントリを書いてくれるのを期待しています、議論の叩き台エントリです!! Kaggleをやる意義/メリット 様々なデータセットを触ることができる kernelでデータ分析

    社内でKaggleの布教活動をやっている話 - yasuhisa's blog
  • パワーアップしたKernelでKaggleに飛び込もう - Qiita

    はじめに Kaggleって、初めての人にはちょっと敷居が高いですよね。 私も「猛者ばかり集まっていて辛い」「初心者だと戦えないだろうからまだ使わなくていいや」という印象でアカウントは作ったもののしばらく使っていませんでした。 しかし、最近Kaggleのコンペに参加してみようという社内の有志の集まりがありチャレンジして見たところ、やはり学びが多くて面白く、これからはもっと使ってみようと考えるようになりました。 そこで、まだKaggleを使ったことがない人向けの取っ掛かりとして、この記事を書いて見ることにしました。 最近KaggleのKernelがパワーアップした KaggleにはKernelという機能があり、自分で環境を用意しなくてもブラウザ上で簡単にコードを実際に動かすことができます。さらにそれを公開できるようになっており、他のコンペ参加者とコードを共有することができます。(もちろん非公開

    パワーアップしたKernelでKaggleに飛び込もう - Qiita
  • Kaggleで使われた特徴量エンジニアリングとアルゴリズムまとめ – かものはしの分析ブログ

    都内の事業会社で分析やWebマーケティングの仕事をしています。大学・大学院では経済学を通じて統計解析を行うなどしておりました。企業に勤めてからは、機械学習やテキストマイニング、クローリング技術などに関心を持っています。 Twitterアカウント Mr_Sakaue( SKUE ) GitHub 読書メーター ほしいものリスト Kaggleにおいて、人によってはソリューションを書いてくれているものがあります。特徴量エンジニアリングやアルゴリズムなど業務での参考になるだろうと思われるので、仕事で関わりそうなデータという観点から4つほどですが事例を集めてみました。このような事例のまとまったとかあったらいいのですが。 基的に各事例ごとに ・目的 ・どんなデータセット ・どんな特徴量エンジニアリング ・どんなアルゴリズム ・リンク を記していきます。 Walmart Recruiting – S

    Kaggleで使われた特徴量エンジニアリングとアルゴリズムまとめ – かものはしの分析ブログ
  • Kaggle Student Meetup by Sansan ※Web中継あり (2017/07/29 17:30〜)

    <イベントについて> 【ミートアップ概要】 Sansan初の試みとして、修士・博士の学生を対象とした、 データ解析コンペティション「Kaggle」の勉強会を東京・京都市(web中継会場)で同時開催します! Kaggle:http://www.kaggle.com/ 京都会場は、当社研究員が中継内容を解説する会の開催となります。 ※解説メンバーは当社京都ラボのKaggle Grandmasterです。 ※東京会場と同様に、お寿司とドリンクも準備予定 当社研究員の解説を聞くことが出来るだけでなく、 データ解析を専攻する関西の仲間(横の繋がり)と接点が持てる機会かと思います。 【京都会場アクセス】Sansan 京都ラボ https://www.fvcmesh.com/kyoto/ 住所:京都府京都市下京区烏丸通仏光寺下ル大政所町680-1 第八長谷ビル3階 最寄駅:京都市営地下鉄烏丸線「四条駅」

    Kaggle Student Meetup by Sansan ※Web中継あり (2017/07/29 17:30〜)
  • CNNとKNNの複合による分類精度の観測(機械学習における複数アルゴリズムの併用) - Qiita

    この記事は、自身のブログ、Data Science Struggleを翻訳したものになる。 概略 Kaggleのようなコンテストだと複数のアルゴリズムを組み合わせたモデルを良く見る。ロジスティック回帰やラッソ回帰の結果を用いてxgboostでモデルを作成するといったようなものだ。 今回は実際に、cifar-10のデータセットを用いて、CNNとKNNを組み合わせて予測を行い、実際の精度を見てみる。 手順 行うことはシンプルであり、CNNで予測したスコアを訓練データとしてKNNでモデルを作成し、その予測を最終予測結果とする。 具体的な手順は以下のようになる。 データを3つに分割する 一つ目のデータからCNNモデルを作成する 二つ目のデータと三つ目のデータに対してCNNモデルで予測を行う 二つ目のデータのCNN予測スコアを用いてKNNモデルを作成する 三つ目のデータのCNN予測スコアに対して、K

    CNNとKNNの複合による分類精度の観測(機械学習における複数アルゴリズムの併用) - Qiita
  • 国内外のトップランカーが語るデータマイニングコンペの勝ち方~PyData.Tokyo Meetup #6、7イベントレポート

    こんにちは、PyData.Tokyoオーガナイザーのシバタです。ボストンに向かう飛行機の中でこの記事を書き始めました。私事ですが、昨年12月よりDataRobot,Inc(下記「データロボット社」)という会社で働き始めました。今回は昨年10月に行われたPyData.Tokyo Meetup #6と今年2月に行われたPyData.Tokyo Meetup #7でのデータマイニングコンペをテーマに行った勉強会の様子をお伝えしたいと思っています。実はデータロボット社は多数のコンペ入賞者が働いていることで知られており、2つの勉強会に非常に関連の深い会社です。 DataRobot,Inc PyData.Tokyo Meetup #6 PyData.Tokyo Meetup #7 PyDataではこれまで機械学習や深層学習などデータ分析関連技術をテーマ別に扱ってきましたが、今回のテーマは、技術というよ

    国内外のトップランカーが語るデータマイニングコンペの勝ち方~PyData.Tokyo Meetup #6、7イベントレポート
  • KerasのLSTM model.predictを解読した話 - Qiita

    概要 KerasやTensorflowを使用してニューラルネットワークの重みを計算したものの、それをどうやって実アプリケーション(iPhoneアプリとか、Androidアプリとか、Javascriptとか)に使えば良いのかって、意外と難しい。 単純なニューラルネットワークとなれば、単純で良いのだが、今回LSTMで学習した重みを使用する必要があったので、KerasのLSTMのPredictの内容を解読した。 学習済みの重みはmodel.get_weights()で取ってこれるが、こいつに関する情報がググっても全く出てこない。 結局、コードを書いて、ごちゃごちゃ手当たり次第に試していった結果、model.get_weights()で取ってくる重みは、 1つ目(インデックス0):LSTMの入力層の入力に対する重み、入力ゲートの重み、出力ゲートの重み、忘却ゲートの重み 2つ目(インデックス1):隠

    KerasのLSTM model.predictを解読した話 - Qiita
  • Practical Deep Learning for Coders - 人工知能に関する断創録

    最近、fast.aiのPractical Deep Learning for CodersというMOOCを受講している。 この講座は 無料 動画形式の講義(1回2時間というボリューム) Jupyter NotebookとKerasを使用 CNN、Finetuning、VGG16、ResNet、RNNなどが実践的な例題を通して学べる 実務家がDeep Learningで自分の問題を解決できることが目標 という特徴がある。講義内容は高度で実践的なものが多い印象。例えば、Lesson1でMNISTと思いきや・・・いきなりKaggleのDogs vs. CatsをVGG16 + Finetuningで解いてKaggleに投稿するところまでが課題になっている。これさえできれば画像認識が必要ないろんな課題に同じ技術を適用できるとのこと。 今はまだPart1しかないが、ForumのなかでPart2の動画

    Practical Deep Learning for Coders - 人工知能に関する断創録
  • Chainerの学習の様子をリモートで確認するExtensionを作った - のんびりしているエンジニアの日記

    皆さんこんにちは お元気ですか。私はGWでリフレッシュして、生き返りました。 Kaggleをやっているとき(特に画像などの長い場合)にリモートで 今学習されているかどうか、誤差はどうかなどのモデルの 様子が気になることはありませんか? 私は画像認識系のコンペを実際に行っている時に、気になることがあります。 これどうしようかと考えていたのですが、歩いている時にふと思いついたので実装しました。 このアイデアの実装のために、新しいChainerのExtensionを開発しました。(Trainerを使う想定です) アイデア Slackであれば外出中も見れると考えました。 そのため、学習の途中経過(lossなど)を投稿すれば見れる! 実装イメージは次の図に掲載しました。 コードを見た限りだと、Extensionで実装できそうだったので、トライしました。 Extensionの実装方法 Extensio

    Chainerの学習の様子をリモートで確認するExtensionを作った - のんびりしているエンジニアの日記
  • Kaggle Blog – Medium

    Kaggle BlogOfficial Kaggle Blog ft. interviews from top data science competitors and more!

    Kaggle Blog – Medium
  • Kaggleを始めてみる - サイバースイッチ

    Kaggleとは Kaggleというサイトをご存知でしょうか? Kaggleとは、データ分析のコンペに参加したり、勉強するためのサイトで、世界中のデータサイエンティストが参加して分析のアルゴリズムを競っています。参加している人のことをカグラー(Kaggler)と言ったりします。 Kaggle: The Home of Data Science 参加するメリット ここに参加するメリットは、まず分析の進め方や手法が学べること分析とはなんぞやという人向けコンテンツも用意されていて、最初はチュートリアルの分析事例に沿って手を動かしながら学べるようになっているので(具体的な内容は、後述します)、やりながら分析を学べること。 あとは、企業や団体が実際に解いて欲しい分析の問題を、Kaggleを通して世界中のデータサイエンティストに公開していたりして、それを解くための一番精度の良い分析を提示した人に、賞金

    Kaggleを始めてみる - サイバースイッチ
  • Kaggle事始め - Qiita

    はじめに データ解析の情強な方なら、Kaggle はご存じだと思います。データ解析のSkillを競うCompetitionサイトで、与えられたテーマ(Dataset)に対して、世界中のデータ解析有識者が様々なデータ解析手法を駆使してより高い正答率(Score)を競い合う場所です。 が、Kaggleそのものは知っていても、どうやればKaggleに実際に参加できてランキングに加われるのかは知らない、と言う方は多いと思います。この記事では、とりあえずKaggleの何らかのCompetitionに参加して、解析結果をSubmitして、(その時点の)順位/Scoreを確認するまでの操作手順/流れをチラ裏したいと思います。 KaggleのWeb pageは色々な情報/Linkが詰まっているので、ぱっと見取っ付きにくいかもしれませんが、ポイントをつかめば参加してScoreを付けて貰う所まではとても簡単で

    Kaggle事始め - Qiita
  • Kaggleで、Deep Oceanの画像コンペの結果が出ました - のんびりしているエンジニアの日記

    皆さんこんにちは お元気ですか。私は元気です。 久々の投稿ですね。Kaggleで出場したコンペについて記載します。 どんなコンペティション? コンペティションのページはこちらです。 プランクトン121種類の画像を識別します。プランクトンの画像サイズは異なり、 画像はモノクロ画像です。 どんな手法を使ったの? ConvolutionalNeuralNetwork(CNN)を使って、識別を行いました スコア自体はpublic 0.899218,private 0.904137と非常にお粗末なスコアでした 実装アルゴリズムは ①リサイズ(32 x 32) ②150枚以下のクラスについては学習する前に150前後まで数を増加させる ③pre-processing(flip、切り取り)で28倍に増加 ④CNNで学習 ⑤Baggingでテスト CNNは3x3のカーネルを組み合わせ、多層にして構築しました

    Kaggleで、Deep Oceanの画像コンペの結果が出ました - のんびりしているエンジニアの日記