ML models often exhibit unexpectedly poor behavior when they are deployed in real-world domains. We identify underspecification as a key reason for these failures. An ML pipeline is underspecified when it can return many predictors with equivalently strong held-out performance in the training domain. Underspecification is common in modern ML pipelines, such as those based on deep learning. Predict
Apache Sparkの内部構造・動作について説明している情報源を紹介します(今後、随時更新していきたいと思いますので、誤り・他の情報源などありましたらお知らせください)。 (翻訳を除き)全て英語のスライド・文書ですが、長い文が書かれているものは少ないので、理解できるかと思います。 全体像 A Deeper Understanding of Spark’s Internals https://spark-summit.org/2014/wp-content/uploads/2014/07/A-Deeper-Understanding-of-Spark-Internals-Aaron-Davidson.pdf Execution modelとShuffleに絞って解説しています(Cachingについては説明していません) Spark Architecture http://0x0fff.c
プログラムの実行速度やウェブサイトの表示速度は、たった数秒の改善でも多くのエンジニアたちの苦心を必要としますが、時として拍子抜けするほどにあっけなく、かつ劇的な改善がなされる場合もあります。画像共有サービスのPinterestが自社のブログで「たった1行の変更でコードの実行時間を99%短縮した」事例を紹介しています。 How a one line change decreased our build times by 99% | by Pinterest Engineering | Pinterest Engineering Blog | Oct, 2020 | Medium https://medium.com/pinterest-engineering/how-a-one-line-change-decreased-our-build-times-by-99-b98453265370
Microsoftが「ML.NET 1.5.2」を公開、.NET開発者向け機械学習フレームワーク:ONNXエクスポートなどの機能も強化 Microsoftは、.NET開発者向けのオープンソース機械学習(ML)フレームワークの最新版「ML.NET 1.5.2」を公開した。Model Builderツールで「Azure ML」を使ってオブジェクト検出モデルをトレーニングできるようになった他、ML.NET CLIで画像分類モデルをローカルでトレーニングすることも可能になった。 Microsoftは2020年9月25日(米国時間)、オープンソースの.NET開発者向けクロスプラットフォーム機械学習(ML)フレームワークの最新版「ML.NET 1.5.2」を公開した。 ML.NETでは、.NETエコシステムから離れることなく、MLやデータサイエンスの経験が乏しい開発者でも、.NETアプリケーションにM
Amazon Web Services ブログ Drop が Apache Spark の Amazon EMR ランタイムを使用してコストを半分にし、結果取得までの速度を 5.4 倍にした方法 これは、Drop のソフトウェアエンジニアである Michael Chau 氏と AWS ビッグデータスペシャリストソリューションアーキテクトの Leonardo Gomez 氏によるゲスト投稿です。彼らは、次のように述べています。「Drop には、一度に 1 回の報酬で、消費者の生活を向上させるという使命があります。パーソナライズされたコマースプラットフォームを通じて、適切なブランドを適切なタイミングでインテリジェントに表示し、会員の暮らしを以前よりも素晴らしいものにしています。機械学習を利用し、200 を超えるパートナーブランドと消費者をマッチングさせることで、2 つの主要な目標を実現して
AWS Big Data Blog Submitting User Applications with spark-submit Francisco Oliveira is a consultant with AWS Professional Services Customers starting their big data journey often ask for guidelines on how to submit user applications to Spark running on Amazon EMR. For example, customers ask for guidelines on how to size memory and compute resources available to their applications and the best reso
先日、このようなツイートをしたところ想像以上の反響がありました。せいぜい10いいねつけばいいかなって思っていたのですが、1,000いいね以上もついてかなり吃驚しています。 AWSのネットワーク・データ転送料金がひと目で分かる図を作った。Direct ConnectとGlobal Acceleratorは描ききれんかった・・・ pic.twitter.com/97RM8fxgbe— shu1 (@ohsawa0515) 2020年1月30日 twitter.com ありがたいことにフィードバックをいただきましたし、この図だけでは説明できないことも多くあったので、図の修整と補足についてブログ記事にしました。なお、この内容は2/29 技術書典8に頒布する「AWSコスト最適化入門」の一部を転載したものです。 おことわり データ転送料金 Amazon VPC AWS VPN AWS Transit
3つの要点 ✔️ 損失関数/入力空間/タスク/モデルに依存しない新しい正則化手法(flooding)を提案 ✔️ 「training lossが0になるまで学習し続けると汎化性が低下する」という自然な仮定に基づく ✔️ floodingを使った副次的な効果として、早い段階(epoch数100前後)でdouble descentという現象が確認できる Do We Need Zero Training Loss After Achieving Zero Training Error? written by Takashi Ishida, Ikko Yamane, Tomoya Sakai, Gang Niu, Masashi Sugiyama (Submitted on 20 Feb 2020) Comments: Published by arXiv Subjects: Machine Le
English version 要約 dockerはデフォルトでセキュリティ機構(Spectre脆弱性の対策)を有効にします。この影響で、RubyやPythonのようなインタプリタは速度が劣化します。特にCPU律速なプログラムで顕著に遅くなります(実行時間が倍くらいになることがあります)。 現象 Rubyで1億回ループするコードを、直接ホスト上で実行する場合と、docker上で実行する場合で実行時間を比較してみます。 直接ホスト上で実行した場合: $ ruby -ve 't = Time.now; i=0;while i<100_000_000;i+=1;end; puts "#{ Time.now - t } sec"' ruby 2.7.1p83 (2020-03-31 revision a0c7c23c9c) [x86_64-linux] 1.321703922 sec docker
Kyle Brown, IBM Fellow, CTO Cloud Architecture, IBM Garage Shahir Daya, IBM Distinguished Engineer, IBM Global Business Services It seems that the Microservices architecture has finally started to become well entrenched as an architectural pattern. The seminal paper on the subject by Martin Fowler and James Lewis turned six years old this past month, and it feels like we can’t have an architectura
Most of the progress made in software projects comes from incrementalism. The ability to quickly see the outcome of an execution and iterate has been one of the main reasons for the success of Jupyter, especially in scientific exploratory workflows. Jupyter users like to experiment in the notebook, and to use the notebook as an interactive communication tool. However, for more classical software d
新型コロナウイルス感染症(国内事例) 現在患者数 / 対策病床数 ※軽症者等は自宅療養など、病床を使用しないことがあります(詳細) (現在患者数 前日より増加 前日より減少) credit APP (アプリ開発/提供): CC BY jig.jp 福野泰介 @taisukef (src on GitHub) 「厚生労働省提供 新型コロナウイルス対策ダッシュボードについて」「感染者PDFデータをJSON-API化して公開」 DATA: CC BY「新型コロナウイルス感染症について - 厚生労働省」→ JSON / CSV / TXT (集約版 CSV / JSON / APP) DATA: CC BY COVID-19 Japan 新型コロナウイルス対策ダッシュボード JSON / CSV / TXT(厚生労働省、各都道府県公表データの集約) DATA: CC BY 「新型コロナウイルス患者
マイクロソフトは、これまでプレビュー機能として提供してきたRPA機能「UI Flows」を正式版として搭載した「Power Automate」を4月2日にワールドワイドでリリースすることを明らかにしました。 Power Automateは2019年11月に行われたイベント「Microsoft Ignite 2019」で発表されたサービスです。これまでMicrosoft Flowと呼ばれていた自動化ツールを改名し、RPA機能を追加したもの。 もともとMicrosoft Flowは、IFTTT的なサービス連係サービスとして、GitHub、Dropbox、Slack、メール、Twillio、Googleカレンダーなど多数のサービスを連係する機能を備え、2016年にリリースされました。 Power Automateでも300以上のクラウドサービスやアプリケーションとの接続、連係が可能です。例えば、
はじめに 以前、日本語のBERT事前学習済モデルやXLNet事前学習済モデル等の紹介記事を投稿しましたストックマークの森長です。 モデル公開の記事を多くの皆様に読んでいただき、ありがとうございます。 今回は、ALBERTの日本語事前学習済モデルを公開します。 さて、様々な事前学習済モデルが多数提案されている中、なぜALBERT日本語モデルを公開するかといいますと、ALBERTが、A Lite BERTと記載されるように、ただSOTAを突き詰めたものではなく、精度を維持・向上させつつもBERTを軽量化しているモデルのためです。 事前学習済モデルのサイズを大きくすると性能が向上する傾向にありますが、学習時間が長くなったりメモリにのらなくなったり、作成の上での制約が(費用面の制約も)増えてきます。そのため、比較的短時間でモデルを作成でき、モデルサイズが小さいALBERTは、とても使いやすいです。
はじめに 本稿では、「Hack The Box」(通称、HTBとも呼ばれています)を快適に楽しむために必要となるKali Linuxのチューニングについて解説します。 Hack The Boxとは Hack The Boxは、2017年6月に設立されたサイバーセキュリティトレーニングのオンラインプラットフォームです。 いくつかのソーシャル要素とゲーミフィケーション要素が採用されていることで、学習体験を楽しくやりがいのあるものにしています。 ダッシュボード Hack The Boxを楽しむ手順 攻撃環境としてペネトレーションテスト用のOS(Kali Linux / Parrot Security Linux / CommandoVM など)を用意する。 Hack The Boxの[Invite Challenge]ページのHTMLソースコードを解析し、「Invitation Code(招待コ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く