Way back in 1992, just as the ‘Internet’ was starting to sound interesting, a company in the UK used technology to disrupt television. Rupert Murdoch’s Sky realised that you could buy football rights for far more than anyone had ever thought of paying before, and you could make your money back by selling the games on subscription instead of pay-per-view or advertising, and you would be able to del
どうも緒方@conta_です。 みなさんAI頑張ってますか? きっと昼はGPUサーバーを回して、夜は結果待ちでビールサーバーを回してる人が多いことでしょう。 機械学習を実際のプロダクトに活用する場合、自分が解きたいタスクがそのままオープンなデータセットで解決できることは少ないので、まず最初に課題となるのはデータセット作成です。 実際にカメラやセンサーを取り付けて収集したり、Webからクローリングしてきたり、事業会社であれば自社のデータセットに教師ラベルをつけることで新しいタスクに取り組むことが可能になるでしょう。 よく疑問になるポイントとして、データセットの量と質は、多ければ多いほど良く、高品質であれば高品質であるほど良いのですが教師データを作成するのは一苦労です。 *下記アノテーションの量や質について実験した結果がまとまってます tech-blog.abeja.asia もちろん少数デー
ステラ・マッカートニー MARY McCARTNEY (c) FAIRCHILD PUBLISHING, LLC グーグル(GOOGLE)は「ステラ マッカートニー(STELLA McCARTNEY)」と提携し、ファッション業界向けに素材のサステイナビリティーを計測するクラウドツールを試験的に開発する。5月15日にデンマークで開かれた、コペンハーゲン・ファッション・サミット(Copenhagen Fashion Summit)で発表した。 ニック・マーティン(Nick Martin)=グーグル クラウド部門リテールヘッドは、「世界の廃水量の20%、そして二酸化炭素排出量の10%がファッション業界によるものだ。これらは生産工程の中でも主に原材料の段階で発生するが、その実態をブランド側が知るすべはほとんどない」とツール開発の動機を語る。なお、これらの数値は国際連合欧州経済委員会(United
By: Di Lin, Girish Lingappa, Jitender Aswani Imagine yourself in the role of a data-inspired decision maker staring at a metric on a dashboard about to make a critical business decision but pausing to ask a question — “Can I run a check myself to understand what data is behind this metric?” Now, imagine yourself in the role of a software engineer responsible for a micro-service which publishes dat
150 successful Machine Learning models: 6 lessons learned at Booking.com Booking.com is the world’s largest online travel agent where millions of guests find their accommodation and millions of accommodation providers list their properties including hotels, apartments, bed and breakfasts, guest houses, and more. During the last years we have applied Machine Learning to improve the experience of ou
Amazon Web Services ブログ Deequ で大規模なデータ品質をテスト 一般的に、コード用のユニットテストを書くと思いますが、お使いのデータもテストしているのでしょうか? 不正確または不正なデータは、本番システムに大きな影響を与える可能性があります。データ品質問題の例は次のとおりです。 値がない場合は、本番システムで null 以外の値を必要とするエラー (NullPointerException) が発生する可能性があります。 データ分布が変化すると、機械学習モデルで予期しない出力につながることがあります。 データの集計を誤ると、ビジネスでの判断を下す際に誤った意思決定につながる可能性があります。 このブログ記事では、Amazon で開発し、使用されているオープンソースツールである Deequ を紹介したいと思います。Deequ では、データセットのデータ品質メトリクス
AWS Machine Learning Blog Use the built-in Amazon SageMaker Random Cut Forest algorithm for anomaly detection Today, we are launching support for Random Cut Forest (RCF) as the latest built-in algorithm for Amazon SageMaker. RCF is an unsupervised learning algorithm for detecting anomalous data points or outliers within a dataset. This blog post introduces the anomaly detection problem, describes
Software 2.0 and the Paradigm Shift in Programming ML Systems Alex Ratner and Chris Ré And referencing work by many other members of Hazy Research Back to the Snorkel Blog [DRAFT] Recent advances in techniques and infrastructure have led to a flurry of excitement about the capabilities of machine learning (ML), leading some to call it a new “Software 2.0” [1,2]. At the core of this excitement is a
Large-Scale Item Categorization in e-Commerce Using Multiple Recurrent Neural Networks Precise item categorization is a key issue in e-commerce domains. However, it still remains a challenging problem due to data size, category skewness, and noisy metadata. Here, we demonstrate a successful report on a deep learning-based item categorization method, i.e., deep categorization network (DeepCN), in a
the morning paper a random walk through Computer Science research, by Adrian Colyer Made delightfully fast by strattic Software engineering for machine learning: a case study Amershi et al., ICSE’19 Previously on The Morning Paper we’ve looked at the spread of machine learning through Facebook and Google and some of the lessons learned together with processes and tools to address the challenges ar
There is an extensive literature about online controlled experiments, both on the statistical methods available to analyze experiment results as well as on the infrastructure built by several large scale Internet companies but also on the organizational challenges of embracing online experiments to inform product development. At Booking.com we have been conducting evidenced based product developme
2019年、明けましておめでとうございます。プロジェクト推進室 (PJD) の 服部 (@yhatt) です。本年も Speee をよろしくお願いいたします。 私個人としては、相変わらず Markdown スライド作成ツールである Marp の刷新に向けて鋭意開発中ですが、Speee では PJD (プロジェクト推進室) という部署で、主に社内向けシステムの開発/運用を担当しています。 その中でも今回は、Speee の書籍に関する福利厚生制度を支える Speee Library システムについてご紹介したいと思います。 Speee Library Speee Library は、いわゆる従業員向けの社内図書館で、2010年10月より運用がスタートしました。現在、弊社オフィスのラウンジの壁一面に、ビジネス書・啓発本・技術書・デザイン関連など、様々なジャンルの書籍を約 3,000 冊を所蔵して
はじめに 今回は、前回の読書ログ2019年1-6月で予告していた、当社が独自開発したSpeeeLibraryについて書いてみようかと思います。 SpeeeLibraryとは、いわゆる従業員向け社内図書館です。 当社独自の福利厚生として、2010年10月より運用がスタートし、創業3期目から現在まで10年もの間、運用し社員に親しまれてきました。 現在は、当社オフィスSpeeeLoungeの壁一面に、ビジネス書・啓発本・技術書・デザイン関連など、様々なジャンルの書籍を約 3,000 冊ほど所蔵。 書籍は、従業員がログインできる Webシステムで管理・運用されており、書籍の検索・貸出の予約・延長・レビューの投稿などが可能になっています。 この制度を作った背景や、システムの裏話など、以下の順番で軽くまとめていこうかと思います。 なぜ作ったのか? どう使われているのか? 今後どうしていくのか? ①なぜ
Amazon Web Services ブログ AWS Data Wranglerを使って、簡単にETL処理を実現する 2019年9月、Github上にAWS Data Wrangler(以下、Data Wrangler)が公開されました。Data Wranglerは、各種AWSサービスからデータを取得して、コーディングをサポートしてくれるPythonのモジュールです。 現在、Pythonを用いて、Amazon Athena(以下、Athena)やAmazon Redshift(以下、Redshift)からデータを取得して、ETL処理を行う際、PyAthenaやboto3、Pandasなどを利用して行うことが多いかと思います。その際、本来実施したいETLのコーディングまでに、接続設定を書いたり、各種コーディングが必要でした。Data Wraglerを利用することで、AthenaやAmazo
Lecture 11: Hiring and Culture, Part II Patrick Collison Follow @patrickc John Collison Follow @collision Ben Silbermann Follow @8en View the annotated transcript, and add annotations of your own, on Genius, or directly at the bottom of this page! Discuss this lecture!
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く