[B! mlops] ishideoのブックマーク

ishideo id:ishideo

mlopsに関するishideoのブックマーク (34)

GitHub - nsakki55/aws-mlops-handson: This repository provides a comprehensive ML infrastructure for CTR prediction, focusing on AWS services and offering practical learning experience for MLOps.
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
ishideo 2023/05/29
aws

mlops

ml

github

cyberagent
リンク
Rules of Machine Learning: | Google for Developers
Rules of Machine Learning: Stay organized with collections Save and categorize content based on your preferences. Best Practices for ML Engineering Martin Zinkevich This document is intended to help those with a basic knowledge of machine learning get the benefit of Google's best practices in machine learning. It presents a style for machine learning, similar to the Google C++ Style Guide and othe
ishideo 2022/09/06
ml

mlops

google

dev

best-practices
リンク
MakefileでDocker+Jupyter Notebookなどの機械学習環境をスマートに扱う - CC56
先日機械学習界隈の方とDockerの話をした際、Makefileを使って機械学習環境の整備をしている人は実は少数派なんじゃないかと感じました。機械学習で使うコマンドは引数が長く、とても覚えられるものじゃありません。暗記できていてもミスタイプしたり、tmux内とかだと折り返されて何書いてるかよくわからなくなりがち。Ctrl＋Rとかで検索かけようとしても大体はdocker...から始まるのでタイプ数多くなりがち。 Makefile は、Docker のコマンドをいい感じにまとめやすく、jupyter notebook に使う長ったらしいコマンド jupyter notebook --port 8888 --ip="0.0.0.0" --allow-root なども簡略化できます。そういうわけで、全体的な生産性の向上に繋がると信じています。今回紹介する Makefile は Docker
ishideo 2021/02/15
ml

makefile

docker

jupyter

notebook

mlops
リンク
本物のウェブアクセスログを使用した、機械学習による異常検知(全データ/ソースコード公開)
おまたせしましたこの度、ついにこの記事を完成させることができました。これは私が数年前からずっと書きたいと思っていた、ウェブのアクセスログに対する、機械学習を使った異常検知の実例です。私は事あるごとに(※1)「情報セキュリティ分野でもデータサイエンスの技術は非常に重要だ」と繰り返していますが、この記事の内容はまさにその1つの証となると思います。この記事で示される内容を見れば、「うわ、機械学習、マジでヤバイい(語彙力)んだな...」となるでしょう。以下に心当たりのあるセキュリティエンジニアはぜひ読んで、そして実践してみてください。機械学習に興味はあるものの、どこから手を付ければよいのかイメージがわかない本当にAIやデータサイエンス、機械学習がセキュリティの分野で役に立つのか、確信がもてないデータサイエンスや機械学習は難しそうだと思っているログ解析において、grepや単純な統計処理より
ishideo 2021/01/22
log

ml

mlops

security

vulnerability

waf
リンク
Analystのスループットを継続的に最大化させるデータ基盤の運用思想
この記事は「Eureka Advent Calendar 2020」の16日目の記事です。こんにちは、Head of BIの鉄本です。 15日目は Jun Ernesto Okumuraによるエウレカのデータ組織運営の1年間でした。今日はこの話に関連して、もう少し具体的にEureka BIチームのAnalystの分析フローを支える分析環境について書きます。主に運用の思想や仕組みづくりの紹介になります。想定読者Data Lake・Data Ware House・Data Martなどのデータ基盤周辺知識があるAnalystを活かすデータ基盤の開発運用に興味がある前置きBIチームの紹介やAnalystの業務フローに関する前置きが少し長くなりますがお付き合いくださいませ。お急ぎの方は、本題まで飛ばしてください。チームのミッションとデータ基盤BIチームは、「価値のある意思決定」と「意思決定
ishideo 2020/12/17
analyst

mlops

medium

bigquery

airflow

eureka

dag

python

workflow
リンク
GitHub - visenger/awesome-mlops: A curated list of references for MLOps
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
ishideo 2020/07/27
awesome

mlops

github
リンク
gokartを使ってデータパイプライン上のpandas関連をテストする。 - Qiita
書くこと gokartを使ってpandas関連の確認をする方法 1つ目はinputのpd.Dataframeがemptyだったときに正常終了をするかの確認 2つ目はdumpするときに各columnが想定通りの型になっているかの確認 gokartとは? エムスリーやfringe81などが開発しているOSS Spotifyが開発しているluigiをラップして使いやすくしている。特にコードを書く量が減る。対象バージョン 0.3.11 inputのpd.Dataframeがemptyだったときに正常終了をするかの確認下記のコードはpd.Dataframeがemptyのときにエラーが発生する。単体テストを書くことは前提だが、拾いきれないことが多々あった。 class DataTask(gokart.TaskOnKart): task_namespace = 'sample' def run(s
ishideo 2020/02/03
python

pandas

gokart

pipeline

mlops

luigi

qiita
リンク
医療データベースMIMICの使い方 | シェアする挑戦者
アクセス権をリクエストまずはMIMICへのアクセス権をもらう必要があります。以下、その手続きを開設していきますが、こちらも合わせて参照してください。 CITIトレーニング MIMICへのアクセス権をリクエストする前に、CITI programの”Data or Specimens Only Research”というコースを、オンラインで修了しておく必要があります。まず、こちらのサイトに行き、”affiliation”のところで”Massachusetts Institute of Techno logy Affiliates”を選びます（”independent learner”ではないのでご注意を）。 “Massachusetts Institute of Techno logy Affiliates course”→”Human Subjects training category”→
ishideo 2020/01/15
mimic

medical

mlops

db

python

pandas

sql
リンク
Netflix開発のMLワークフローツール，Metaflowを試してみた【概要編】 - Qiita
Netflixから機械学習ワークフロー管理用のPythonライブラリ，Metaflowがリリースされました。これを使うと，データ処理・モデル構築プロセスを統一フォーマットで記述でき，全体のフローを追いやすいモデル・前処理工程のバージョン管理ができる AWS環境上での分散処理が可能といったメリットがあります。気になる人は，tutorialを動かしつつ公式ドキュメントに目を通してみましょう。 Tutorialについては，pip install metaflowでライブラリを入れた後，とするだけで一式揃いますので，気軽に試すことができます。本記事では，ざっくりとした機能概要と使い方をまとめていきたいと思います。ライブラリ概要 Metaflowでは，データ処理や機械学習モデル構築・予測のワークフローをPythonのクラスとして定義し，コマンドラインから実行します。その際実行の都度
ishideo 2019/12/16
python

mlops

metaflow

netflix

workflow

pipeline

qiita
リンク
私の考えた最強のログ＆モニタリング設計 - 下町柚子黄昏記 by @yuzutas0
この記事はRecruit Engineers Advent Calendar 2018 - 8日目の記事です。注意点タイトルは煽りです。「新規事業におけるデータエンジニアリングの勘所」の方が正しいかもです。クオリティというか記事の信頼度は、投稿時間がギリギリになってしまったことから察してもらえるとありがたいです。本エントリーの内容は個人的な見解であり、所属する組織を代表するものではありません。データの取り扱いは非常にセンシティブなトピックでもあるため気軽に発信すべきではないということは重々承知しております。もし誤りや考慮不足だと感じる点があれば、それは全て私個人の力不足によるものですので、どうぞ私個人当てにご指摘のコメントをいただけると幸いです。もくじ注意点もくじ背景前提体制システム開発スコープ機械学習WebAPIは分離データ基盤設計全体の設計ポリシーデータ
ishideo 2019/12/12
api

monitoring

log

webapi

firebase

db

analytics

mlops

design
リンク
PySparkはじめました - 分散処理デビューする前にやったこと - JX通信社エンジニアブログ
「JX通信社Advent Calendar 2019」10日目の記事です. 昨日は, @rychhrさんの「Pure WebSocketsをサポートしたAWS AppSyncでWebとiOS間のリアルタイムチャットを作ってみた(1)」でした. 改めまして, こんにちは. JX通信社でシニア・エンジニア&データ基盤エンジニアをしています, @shinyorke（しんよーく）と申します. JX通信社では, データ駆動での意思決定および施策実施をより円滑に進めるため, データ基盤の構築・運用を進めながらトライアル的に様々なFrameworkやツールの検証を行っています.*1 このエントリーでは, 私がシュッとPySparkで分散処理をする...前に, 手元で試したときの感想とその知見のお話を残していきたいと思います. なお, 分散処理そのものの知見・ノウハウではなく, する前にPySparkに
ishideo 2019/12/10
python

pandas

spark

pyspark

mlops

sql

dataframe

parallel

baseball
リンク
Qiitaのスパム狩りをしたらAutoMLに仕事を奪われた件 - Qiita
知っている人は知っていると思うが、Qiitaではたびたび大量のスパム記事が投稿されている。深夜24~26時頃に記事一覧を確認してみて欲しい。スパム記事がわんさか出てくるはず。登録したてのQiitaユーザは不安よな。1 ———— @dcm_chida 動きます🧐 はじめにこれはNTTドコモサービスイノベーション部AdventCalendar2019の1日目の記事です。我々の部署では日頃から「KDDCUP2」や「論文読み会」に取り組んでおり、若手から中堅社員まで最先端の技術取得に励んでいます。そうした活動をもっと外部へと発信していこうと始めたのがこのAdventCalendarです。社員一人一人が書いた記事を通して、少しでも多くの方に興味を持って頂ければ幸いです。さて、僕は4年目社員ですがプログラミング初心者の頃から現在に至るまで、Qiitaにはかなりお世話になりました。自分
ishideo 2019/12/02
python

aws

athena

gcp

automl

mlops

qiita

spam

quicksight

lambda
リンク
machine_learning_security/Security_and_MachineLearning at master · 13o-bbr-bbq/machine_learning_security · GitHub
ishideo 2019/10/28
security

mlops

ml

machine-learning

bypass

malware

vulnerability

infosec

github
リンク
Python - from None to AI — Python - from None to AI
ishideo 2019/07/12
python

mlops

book
リンク
人間参加型（human-in-the-loop）機械学習とは？
We help companies test and improve machine learning models via our global AI Community of 1 million+ annotators and linguists. Our proprietary Ground Truth AI training platform handles all data types across 500+ languages and dialects. Our AI Data Solutions vastly enhance AI systems across a range of applications from advanced smart products, to better search results, to expanded speech recognitio
ishideo 2019/06/06
spanish

mlops

dataset
リンク
Python Code Examples
Search portal for python code examples
ishideo 2019/05/17
programcreek

python

code

example

django

apachespark

scipy

mlops
リンク
Docker入門して機械学習環境構築 - karaage. [からあげ]
最新版にアップデートしました。古くなっていたところなど多数あったので、アップデートして所属のテックブログとして投稿しました。よろしければこちらをまずは参照ください。このページは、残しておきます。機械学習の環境構築のために今更ながらDocker入門最初に、この記事の対象者は、私のように趣味で機械学習しているエンジョイ勢や学生さん、初心者が対象です。インフラなど本職での運用などは全く想定しておりませんので、ご承知おき下さい。詳しい方は色々教えていただけると嬉しいです、それか生暖かく見守っておいて下さい。というわけで、今更ながら機械学習の仮想環境としてDockerがとても優秀であることに気づいたので、Dockerに入門してみました。Dockerは何か？という基礎的な解説は、以下のさくらインターネットさんの記事が非常に分かりやすかったので、以下参照下さい。仮想環境に関しては、Virtu
ishideo 2019/05/17
docker

mlops

jupyter

python
リンク
Apache Spark縛りでKaggleのコンペティションやってみた #Spark - クリエーションライン株式会社
こんにちは。木内です。今回はデータサイエンティストのコンペティションサイトとして有名な kaggle に Apache Spark で挑戦してみたいと思います。使っている方は知ってはいるのですが、実は kaggle では Apache Spark を使用している人はあまり多くありません。日本でも kaggle の例を見てみると、Python+numpy+pandas+scikit-learn(+TensorFlow)という組み合わせで挑戦している方が多数です。今回の記事はあえてApache Spark縛りで kaggle のコンペティションに参加してみて、実際 Pandas/numpy/scikit-learnでやっていることをApache Sparkに置き換えることができるのか、置き換えるとしたらどうするのか、というところに着目し、実際に結果を投稿するところまでやってみたいと思いま
ishideo 2019/04/18
apachespark

kaggle

python

pandas

pyspark

spark

mlops
リンク
Vaex入門 / 可視化もXGBoostも - フリーランチ食べたい
はじめに昨日Vaexの性能評価の記事を書きました。その記事では長くなってしまうので基本的な使い方などを省略しました。なので今回は入門記事として使い方を紹介します。 blog.ikedaosushi.com Vaexとは昨日の記事でも書きましたが、遅延評価/Pandasライク/アウトオブコアという特徴を持ったデータフレームライブラリです。 github.com リンク集ドキュメント: https://docs.vaex.io/en/latest/index.html ライブラリ作者解説記事①: Vaex: Out of Core Dataframes for Python and Fast Visualization ライブラリ作者解説記事②: Vaex: A DataFrame with super-strings – Towards Data Science インストール・読み
ishideo 2019/04/15
vaex

xgboost

gcp

vaex-ml

mlops

join

jit
リンク
Apache Sparkを勉強して分散処理できますよ！って言えるようになる　その２ - Qiita
前回はこちらはじめに今日はsparkの標準ライブラリであるMLlibを利用してみます。 sparkにはMLlibを含め、４種類の標準ライブラリがあります。他のライブラリに関しては、こちらを参照ください。 MLlibとは spark上に実装されている機械学習のライブラリです。機械学習の実装はすごくムズカシイのですが、MLlibは割と簡単に試すことができ、サポートしているアルゴリズムも豊富なのでとっつきやすい気がします（私見です）。とりあえず、協調フィルタリングを試してみます。協調フィルタリングについてはこのブログが大変参考になりました。実装手順 1. 必要なライブラリをimportする from pyspark.mllib.recommendation import ALS, MatrixFactorizationModel, Rating
ishideo 2019/04/14
apachespark

spark

qiita

mllib

mlops
リンク
1 2 次のページ