Eedi - Mining Misconceptions in Mathematics 4th place solution

Eedi - Mining Misconceptions in Mathematics 4th place solution
2022-08-27 データ抽出に特化したAirbyteによるEL(T) 環境構築の実践 データ基盤 Airbyte ELT こんにちは。今回は、データ基盤の構築の一部を実際に体験してみたいと思います。 データ基盤を作成するにあたり、まずは、社内に眠る様々なデータを集めてくる必要があります。前回の記事では、その機能を「収集」と紹介していました。 データ基盤とは何か… データ基盤 データ分析基盤 実践 2022-08-18 Metaflowでモデルの学習をpipeline化するまで MLOps Metaflow Pipeline 皆さんは「MLOps」について取り組んでいらっしゃるでしょうか。私は2018年頃からデータクレンジングや機械学習モデルの構築や運用をしてきましたが、当時の日本で私の耳にはMLOpsという言葉が入ってくることはありませんでした。 ただMLOpsの元となった「Dev…
データ分析LT会第二回で発表した際の資料です。 youtube: https://www.youtube.com/watch?v=jDZwX3jxhK4 conppass url: https://kaggle-friends.connpass.com/event/214854/ gi…
やりたいこと kaggleなどのコンペ参加時にColabで計算して、wandbなどの実験管理ツールを使いたい。 現状wandbなどのAPI keyが生のままColabに貼っているので、そのままgithubにpushできない。 driveにtxtやyamlファイルを置いて管理すると、自分の性格上散らかすと分かっているので、GCPのサービスを使ってバージョンを含めて一括管理したい。 やったこと GCPのSecret Managerを使ってAPI keyを秘匿化して、Colabで呼び出した。 やりかた GCP上の設定 自分のGCPのコンソールを立ち上げて、Secret Manager APIを有効化する。 そのままUI上で作成する。 有効化されているのを確認する。 これで設定は終わり。 Colab上の設定 参考googleの公式レポジトリ
2020.10.05 KaggleOpsを考える ~ MLflow + Colaboratory + Kaggle Notebook ~ こんにちは。次世代システム研究室のY. O.です。 筆者はデータ分析のスキルアップのためにkaggleというデータ分析プラットフォームを活用しています。kaggleを始めてから約2年間を経て、スキルアップの枠を超え、趣味・生活の一部・etc.になってきてしまっているのも認めざるを得ません。。。 今回は、先日kaggleの自然言語処理コンペ(Tweet Sentiment Extraction)で2位になった結果を題材に、振り返りの意味を込めて”こうしておけば良かった”という点をMLOpsの観点でまとめていきたいと思います。 ここで、kaggleを取り巻くMLOpsの構成をKaggleOpsと勝手に呼ぶこととし、少なくとも筆者は今後のコンペでも以下にまとめ
はじめに この記事は強化学習苦手の会Advent Calenderの12日目の記事です。 私は11月末までKaggle上で開催されていたGoogle Research Football with Manchester City F.C.に参加していました。このコンペはGoogle Researchが用意したサッカーゲーム上でサッカーエージェント(プレイヤー)を作成し、その強さを競うというものです。 私はhigeponさんとチームを組ませていただき、強化学習アプローチでコンペ開催から終了まで取り組みました。そこでサッカーエージェントを強化学習で育成する際に工夫した点や苦労した点を共有できればと思います。 kaggle: Google Research Football competition www.kaggle.com GitHub: Google Research Football gi
何ヶ月か前にTwitterのタイムラインに流れてきたのですが、それっきり話題を聞かないので検証してみることにしました。 ちなみに、個人的に普段使って慣れているのは、癖が少なくて扱いやすい scikit-image です。 (OpenCVはBGRがデフォルトなので基本的に避けたいですし、PILは癖が強めなのであまり好きではないです) 高速の画像処理ライブラリを使うモチベは、もちろん Kaggle です。 特に画像の読み込みが速いと、時間短縮に直結するので個人的に嬉しいです。 Lyconとは C++で書かれたPython用の軽量画像処理ライブラリらしいです。 PyPI にあるので pip install ですぐに使えます。(一応依存関係も気にしなきゃいけないかも) github.com 性能の割にスターが控えめな気がする。 試しに使ってみる 多少の実戦を仮定して、Kaggle の Notebo
金山(@tkanayama_)です。先日終了したKaggleの"M5 Forecasting"というコンペに参加した際、クラウドやCI/CDの勉強も兼ねて、AWS, GitHub Actionsを使って遊んでみました。 免責 N番煎じだったらすみません。一応、同じことをやっているネット記事は見つかりませんでした。 私はクラウドなど勉強中の身分ですので、もっといいやり方がある or 説明が間違っている、などありましたら教えてください。 私がこのシステムを使って参加したコンペの順位は5,558チーム中1,000,000,000位だったので、Kaggleで勝てるかどうかは別問題のようです :pien: この記事のゴール 下記のようなシステムを構築することをゴールとします。 ユーザーがやることは2つ(図中でユーザーから伸びている黄色矢印)で、 実装したコードをgit pushし、 AWSコンソール
はじめに 自身の転職活動にあたり皆さんの転職エントリが非常に参考になったので、私も同じ境遇の方の参考になればと思い、書き残すことにしました。(ただ、本当に私と似た境遇の方にはなかなかリーチしづらい気がしていますが・・・) TLDR; 30歳でIT未経験からMLエンジニアに転職 約2年半独学で勉強(ほとんどkaggleしてただけ) 無関係に思えた現職での経験もなんだかんだ転職で役に立った 目次 自己紹介 現職について 転職の理由 勉強したこと 転職活動 終わりに 1.自己紹介 かまろという名前でTwitterなりkaggleなりをやっています。kaggleでは画像やNLPといったdeep learning系のコンペを中心に取り組んでおり、2019年の9月に金メダルを獲得しMasterになることができました。 恐らくここが他の転職エントリを書かれている方々と大きく異なる点かと思うのですが、現職
In this article, I will discuss some great tips and tricks to improve the performance of your structured data binary classification model. These tricks are obtained from solutions of some of Kaggle’s top tabular data competitions. Without much lag, let’s begin. These are the five competitions that I have gone through to create this article: Home credit default risk Santander Customer Transaction P
はじめに 本記事では2020年3月~6月にかけて開催され、約2200チームが参加したKaggleのコンペ Tweet Sentiment Extraction(通称Tweetコンペ)について、振り返りを兼ねてまとめたいと思います。 はじめに コンペ概要 データ データ数について Sentimentについて 元データについて 評価指標 BERTによるQ&Aアプローチ Question Answeringについて 本コンペにおけるアプローチ QAアプローチの課題 最後に コンペ概要 Tweetと正解ラベルの例 まず初めに本コンペのポイントをいくつか挙げます Sentimentラベルの与えられたTweetから、そのSentimentに該当する箇所を抜き出す課題。 アノテーションの問題で正解ラベルにノイズが多く含まれており、noisy labelへの対処もポイントとなった。 BERTやRoBERT
はじめに 自然言語処理タスクでBERTをfinetuningして使うことが当たり前になってきました。Kaggleなどのコンペや精度要件がきつい案件を行う場合に少しでも精度を向上させたいというシーンが増えてくると考えられます。そこで、精度向上手法をまとめます。タスクとしては分類タスクを想定しています。 文字数調整 学習済みのBERTに入力可能な単語数は最大512個です。そのため、512単語以上のテキストを使用する場合は特別な工夫が必要となります。ここの処理方法の変更が精度向上に寄与することが多いので要チェックです。 例として次のテキストから6単語取得することを考えます(句点も1単語とします) 吾輩 / は / 猫 / で / ある / 。 / 名前 / は / まだ / ない / 。 1. Head-Tail 吾輩 / は / 猫 / で / ある / 。 / 名前 / は / まだ / な
「○○100本ノックとは」? プログラミング関係のエクササイズ集・Tips集的なものです。ちょっとしたテクニックや、基礎がまとまっているので解いてみると練習になります。 最初にやるのは退屈かもしれませんが、学習の停滞期にやってみると、思わぬ発見があるのではないかなと思います。 この記事では、Python関係の100本ノックを簡単にまとめてみました。自分が知っているのは、以下くらいですが、他にも良いもの(絶対ある気がします)知っている人はぜひコメントなどで教えてください。 画像処理100本ノック 画像処理100本ノック!! 追記:本家が惜しくも無くなってしまっていたので、fork(?)されていたものにリンク張り替えました。 解説・Google Colaboratoryで実行するときは以下記事参考にしてみてください。 ディープラーニング ∞本ノック 注:元サイトが消えてしまったので、私がfor
はじめに 弊社が主催するデータコンペのatmaCupに、 普段はサーバーサイドエンジニアで機械学習ほぼ未経験の私が、 AutoML Tablesを使って参加し、 数多のKaggler犇めく中で31チーム中8位になりました。 本記事はAutoML Tablesを実際のデータコンペに投入してみた結果と感想です。 結論 AutoML Tablesはかなりの運ゲー 1時間程でそれなりの結果が出るAutoML Tablesはすごい AutoML TablesよりKagglerはすごい 概要 対象者 本記事の対象者は、機械学習初心者の方や、AutoML Tablesって聞いたことあるけど実際どうなの?という方向けです。 自己紹介 atma株式会社でサーバーサイド及びフロントエンドエンジニアをしている田中です。 機械学習はほぼ未経験です。 最近はFirebase+Vue.jsを使用したアプリケーションを
上記の方々の推奨本 2票(naotaka1128、カレーちゃん)[第2版]Python 機械学習プログラミング 達人データサイエンティストによる理論と実践 (impress top gear) 1票(naotaka1128)PythonとKerasによるディープラーニング 1票(naotaka1128)scikit-learnとTensorFlowによる実践機械学習 1票(mlm_kansai)機械学習のための特徴量エンジニアリング ―その原理とPythonによる実践 (オライリー・ジャパン) 記事の概要 Kaggle参戦記 〜入門からExpert獲得までの半年間の記録 & お役立ち資料まとめ〜 *1) 特徴量エンジニアリング 次元削減系 LDA、PCA、tSNE Kaggle TalkingData Fraud Detection コンペの解法まとめ(基本編) 「カテゴリー変数を組み合わ
.app 1 .dev 1 #11WeeksOfAndroid 13 #11WeeksOfAndroid Android TV 1 #Android11 3 #DevFest16 1 #DevFest17 1 #DevFest18 1 #DevFest19 1 #DevFest20 1 #DevFest21 1 #DevFest22 1 #DevFest23 1 #hack4jp 3 11 weeks of Android 2 A MESSAGE FROM OUR CEO 1 A/B Testing 1 A4A 4 Accelerator 6 Accessibility 1 accuracy 1 Actions on Google 16 Activation Atlas 1 address validation API 1 Addy Osmani 1 ADK 2 AdMob 32 Ads
創薬においてコンピュータの活用はますます盛んになってきており、2012年にはKaggleでコンペも開催されました。このコンペは標的に対する分子の活性を推定するというタスクでした。 用いられた手法としては1位はDeep Learning、2位は非Deepな機械学習手法でありスコアにこそ大差はありませんでしたが、創薬においてDeep Learningの適用可能性を示したことで当時は話題になったそうです。だいぶ前のコンペなの解説記事はすでに多くありますが、コンペを通じて創薬の概要とDeep Learningがどのようなアプローチで適用されたのかを紹介してみます。 !Caution! できる限りの調査をしましたが、私は製薬や医療に詳しい人ではないので誤った解釈をしてしまっている可能性があります。「ここ間違っている」と言う点がありましたら指摘いただけると幸いです。 では、はじめにコンペのタスク背景と
これはなに? Kaggleのテーブルデータコンペに参加するときに役立つ(と思う)Tipsを Kaggle Coursera の授業メモに色々追記する形でまとめたものです 自分で理解できている内容を中心にまとめました。各種資料の内容はまだまだ理解できていない内容が多く、今後も随時更新していきます(随時更新できるように勉強します)。 この記事に書いてあるTipsをどのように活かしたかはKaggle参戦記に書いたので、併せてどうぞ。 参考文献 主として以下の資料の内容をピックアップさせていただきました。引用を明記していない部分は(ほぼ100%) Kaggle Coursera の内容です。 Kaggle Coursera kaggle_memo by nejumiさん Kaggleで世界11位になったデータ解析手法〜Sansan高際睦起の模範コードに学ぶ Kaggle TalkingData F
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く