You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
Rules of Machine Learning: Stay organized with collections Save and categorize content based on your preferences. Best Practices for ML Engineering Martin Zinkevich This document is intended to help those with a basic knowledge of machine learning get the benefit of Google's best practices in machine learning. It presents a style for machine learning, similar to the Google C++ Style Guide and othe
先日機械学習界隈の方とDockerの話をした際、Makefileを使って機械学習環境の整備をしている人は実は少数派なんじゃないかと感じました。 機械学習で使うコマンドは引数が長く、とても覚えられるものじゃありません。暗記できていてもミスタイプしたり、tmux内とかだと折り返されて何書いてるかよくわからなくなりがち 。Ctrl+Rとかで検索かけようとしても大体はdocker...から始まるのでタイプ数多くなりがち。 Makefile は、Docker のコマンドをいい感じにまとめやすく、jupyter notebook に使う長ったらしいコマンド jupyter notebook --port 8888 --ip="0.0.0.0" --allow-root なども簡略化できます。そういうわけで、全体的な生産性の向上に繋がると信じています。 今回紹介する Makefile は Docker
おまたせしました この度、ついにこの記事を完成させることができました。これは私が数年前からずっと書きたいと思っていた、ウェブのアクセスログに対する、機械学習を使った異常検知の実例です。私は事あるごとに(※1)「情報セキュリティ分野でもデータサイエンスの技術は非常に重要だ」と繰り返していますが、この記事の内容はまさにその1つの証となると思います。この記事で示される内容を見れば、「うわ、機械学習、マジでヤバイい(語彙力)んだな...」となるでしょう。以下に心当たりのあるセキュリティエンジニアはぜひ読んで、そして実践してみてください。 機械学習に興味はあるものの、どこから手を付ければよいのかイメージがわかない 本当にAIやデータサイエンス、機械学習がセキュリティの分野で役に立つのか、確信がもてない データサイエンスや機械学習は難しそうだと思っている ログ解析において、grepや単純な統計処理より
この記事は「Eureka Advent Calendar 2020」の16日目の記事です。 こんにちは、Head of BIの鉄本です。 15日目は Jun Ernesto Okumuraによるエウレカのデータ組織運営の1年間でした。今日はこの話に関連して、もう少し具体的にEureka BIチームのAnalystの分析フローを支える分析環境について書きます。主に運用の思想や仕組みづくりの紹介になります。 想定読者Data Lake・Data Ware House・Data Martなどのデータ基盤周辺知識があるAnalystを活かすデータ基盤の開発運用に興味がある前置きBIチームの紹介やAnalystの業務フローに関する前置きが少し長くなりますがお付き合いくださいませ。 お急ぎの方は、本題まで飛ばしてください。 チームのミッションとデータ基盤BIチームは、「価値のある意思決定」と「意思決定
書くこと gokartを使ってpandas関連の確認をする方法 1つ目はinputのpd.Dataframeがemptyだったときに正常終了をするかの確認 2つ目はdumpするときに各columnが想定通りの型になっているかの確認 gokartとは? エムスリーやfringe81などが開発しているOSS Spotifyが開発しているluigiをラップして使いやすくしている。特にコードを書く量が減る。 対象バージョン 0.3.11 inputのpd.Dataframeがemptyだったときに正常終了をするかの確認 下記のコードはpd.Dataframeがemptyのときにエラーが発生する。 単体テストを書くことは前提だが、拾いきれないことが多々あった。 class DataTask(gokart.TaskOnKart): task_namespace = 'sample' def run(s
アクセス権をリクエスト まずはMIMICへのアクセス権をもらう必要があります。以下、その手続きを開設していきますが、こちらも合わせて参照してください。 CITIトレーニング MIMICへのアクセス権をリクエストする前に、CITI programの”Data or Specimens Only Research”というコースを、オンラインで修了しておく必要があります。 まず、こちらのサイトに行き、”affiliation”のところで”Massachusetts Institute of Technology Affiliates”を選びます(”independent learner”ではないのでご注意を)。 “Massachusetts Institute of Technology Affiliates course”→”Human Subjects training category”→
Netflixから機械学習ワークフロー管理用のPythonライブラリ,Metaflowがリリースされました。 これを使うと, データ処理・モデル構築プロセスを統一フォーマットで記述でき,全体のフローを追いやすい モデル・前処理工程のバージョン管理ができる AWS環境上での分散処理が可能 といったメリットがあります。 気になる人は,tutorialを動かしつつ公式ドキュメントに目を通してみましょう。 Tutorialについては,pip install metaflowでライブラリを入れた後, とするだけで一式揃いますので,気軽に試すことができます。 本記事では,ざっくりとした機能概要と使い方をまとめていきたいと思います。 ライブラリ概要 Metaflowでは,データ処理や機械学習モデル構築・予測のワークフローをPythonのクラスとして定義し,コマンドラインから実行します。 その際実行の都度
この記事はRecruit Engineers Advent Calendar 2018 - 8日目の記事です。 注意点 タイトルは煽りです。「新規事業におけるデータエンジニアリングの勘所」の方が正しいかもです。 クオリティというか記事の信頼度は、投稿時間がギリギリになってしまったことから察してもらえるとありがたいです。 本エントリーの内容は個人的な見解であり、所属する組織を代表するものではありません。データの取り扱いは非常にセンシティブなトピックでもあるため気軽に発信すべきではないということは重々承知しております。もし誤りや考慮不足だと感じる点があれば、それは全て私個人の力不足によるものですので、どうぞ私個人当てにご指摘のコメントをいただけると幸いです。 もくじ 注意点 もくじ 背景 前提 体制 システム 開発スコープ 機械学習WebAPIは分離 データ基盤設計 全体の設計ポリシー データ
「JX通信社Advent Calendar 2019」10日目の記事です. 昨日は, @rychhrさんの「Pure WebSocketsをサポートしたAWS AppSyncでWebとiOS間のリアルタイムチャットを作ってみた(1)」でした. 改めまして, こんにちは. JX通信社でシニア・エンジニア&データ基盤エンジニアをしています, @shinyorke(しんよーく)と申します. JX通信社では, データ駆動での意思決定および施策実施をより円滑に進めるため, データ基盤の構築・運用を進めながらトライアル的に様々なFrameworkやツールの検証を行っています.*1 このエントリーでは, 私がシュッとPySparkで分散処理をする...前に, 手元で試したときの感想とその知見 のお話を残していきたいと思います. なお, 分散処理そのものの知見・ノウハウではなく, する前にPySparkに
知っている人は知っていると思うが、Qiitaではたびたび大量のスパム記事が投稿されている。 深夜24~26時頃に記事一覧を確認してみて欲しい。 スパム記事がわんさか出てくるはず。 登録したてのQiitaユーザは不安よな。1 ———— @dcm_chida 動きます🧐 はじめに これはNTTドコモサービスイノベーション部AdventCalendar2019の1日目の記事です。 我々の部署では日頃から「KDDCUP2」や「論文読み会」に取り組んでおり、若手から中堅社員まで最先端の技術取得に励んでいます。 そうした活動をもっと外部へと発信していこうと始めたのがこのAdventCalendarです。社員一人一人が書いた記事を通して、少しでも多くの方に興味を持って頂ければ幸いです。 さて、僕は4年目社員ですがプログラミング初心者の頃から現在に至るまで、Qiitaにはかなりお世話になりました。 自分
We help companies test and improve machine learning models via our global AI Community of 1 million+ annotators and linguists. Our proprietary Ground Truth AI training platform handles all data types across 500+ languages and dialects. Our AI Data Solutions vastly enhance AI systems across a range of applications from advanced smart products, to better search results, to expanded speech recognitio
最新版にアップデートしました。 古くなっていたところなど多数あったので、アップデートして所属のテックブログとして投稿しました。よろしければこちらをまずは参照ください。 このページは、残しておきます。 機械学習の環境構築のために今更ながらDocker入門 最初に、この記事の対象者は、私のように趣味で機械学習しているエンジョイ勢や学生さん、初心者が対象です。インフラなど本職での運用などは全く想定しておりませんので、ご承知おき下さい。詳しい方は色々教えていただけると嬉しいです、それか生暖かく見守っておいて下さい。 というわけで、今更ながら機械学習の仮想環境としてDockerがとても優秀であることに気づいたので、Dockerに入門してみました。Dockerは何か?という基礎的な解説は、以下のさくらインターネットさんの記事が非常に分かりやすかったので、以下参照下さい。 仮想環境に関しては、Virtu
こんにちは。木内です。 今回はデータサイエンティストのコンペティションサイトとして有名な kaggle に Apache Spark で挑戦してみたいと思います。 使っている方は知ってはいるのですが、実は kaggle では Apache Spark を使用している人はあまり多くありません。日本でも kaggle の例を見てみると、Python+numpy+pandas+scikit-learn(+TensorFlow)という組み合わせで挑戦している方が多数です。 今回の記事はあえてApache Spark縛りで kaggle のコンペティションに参加してみて、実際 Pandas/numpy/scikit-learnでやっていることをApache Sparkに置き換えることができるのか、置き換えるとしたらどうするのか、というところに着目し、実際に結果を投稿するところまでやってみたいと思いま
はじめに 昨日Vaexの性能評価の記事を書きました。 その記事では長くなってしまうので基本的な使い方などを省略しました。 なので今回は入門記事として使い方を紹介します。 blog.ikedaosushi.com Vaexとは 昨日の記事でも書きましたが、遅延評価/Pandasライク/アウトオブコアという特徴を持ったデータフレームライブラリです。 github.com リンク集 ドキュメント: https://docs.vaex.io/en/latest/index.html ライブラリ作者解説記事①: Vaex: Out of Core Dataframes for Python and Fast Visualization ライブラリ作者解説記事②: Vaex: A DataFrame with super-strings – Towards Data Science インストール・読み
前回はこちら はじめに 今日はsparkの標準ライブラリであるMLlibを利用してみます。 sparkにはMLlibを含め、4種類の標準ライブラリがあります。 他のライブラリに関しては、こちらを参照ください。 MLlibとは spark上に実装されている機械学習のライブラリです。 機械学習の実装はすごくムズカシイのですが、MLlibは割と簡単に試すことができ、サポートしているアルゴリズムも豊富なのでとっつきやすい気がします(私見です)。 とりあえず、協調フィルタリングを試してみます。 協調フィルタリングについてはこのブログが大変参考になりました。 実装手順 1. 必要なライブラリをimportする from pyspark.mllib.recommendation import ALS, MatrixFactorizationModel, Rating
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く