  • 大量のデータを分析して可視化するオープンソースのLooker代替・「MLCraft」

    MLCraftは大量のデータを分析して可視化するオープンソースのLooker代替となるBIツールです。データ解析のスタートアップだったLookerは2020年の2月にGoogleに買収されました。 データの処理と可視化自体はCube.jsによって処理されます。MLCraftはダッシュボードを提供し、チームへのデータ共有の場や機械学習実験をワンクリックで行えるUIの提供をするそうです。 LookerはGoogle Cloudに統合されましたので、もともとGoogle Cloudを採用していたのならLookerを使うでしょうが、コスト的な問題、プライバシー、セキュリティ的な問題で使えない際にMLCraftは1つの選択肢となりそうです。MITライセンスのもとでソースコードが公開されています。 GithubMLCraft

    • 事業者が匿名加工情報の具体的な作成方法を検討するにあたっての参考資料(「匿名加工情報作成マニュアル」)を取りまとめました!(METI/経済産業省)

      事業者が匿名加工情報の具体的な作成方法を検討するにあたっての参考資料(「匿名加工情報作成マニュアル」)を取りまとめました! 経済産業省は、平成27年9月の個人情報保護法の改正に伴い、新たに定義された匿名加工情報の作成手順・方法について、事業者の今後の検討の参考資料として、「匿名加工作成マニュアル」を作成、公表しました。 1.匿名加工情報とは 平成27年9月に改正された個人情報保護法において、ビッグデータをはじめとするパーソナルデータの利活用に向けて、本人の同意に代わる一定の条件の下、特定の個人を識別することができないように加工された「匿名加工情報」制度が創設されました。 2.位置づけ 匿名加工情報を作成する際の加工の程度は、個人データを取り扱う事業の内容や利用形態によって判断されるべきものであり、一律の基準はありません。個人情報保護法においても

      • Democratizing data analysis with Google BigQuery

        Infrastructure Democratizing data analysis with Google BigQuery Every day, over a hundred million people come to Twitter to find out what’s happening in the world and talk about it. Every Tweet and user action generates an event that we make available for internal data analysis at Twitter. Hundreds of employees analyze and visualize this data, and improving their experience is a top priority for t

          Democratizing data analysis with Google BigQuery
        • Accelerate the Development of AI Applications | Scale AI

          With Your DataMake the best models with the best data. Scale Data Engine leverages your enterprise data, and with Scale GenAI Platform, safely unlocks the value of AI.

            Accelerate the Development of AI Applications | Scale AI
          • LinkedIn、データマイニングソフト「WhereHows」をオープンソースに

            LinkedIn、データマイニングソフト「WhereHows」をオープンソースに ビジネス特化型SNSのLinedInは、社内で利用しているエンタープライズ情報のデータマイニングポータル「WhereHows」をオープンソースとして公開すると発表した。 LinkedInはWhereHowsを「データ発見・系統付けポータル」と呼んでいる。ビジネスの観点から見ると、WhereHowsはメタデータを利用して複数のデータストアからデータを発見し引き出すためのソフトウェアだ。 LinkedInによれば、同社のWhereHowsのレポジトリは、容量にして合計で15ペタバイトを超える5万件のデータセット、1万4000件のコメント、3500万件のジョブ実行履歴情報、および関連する系統付け情報のステータスを保持しているという。

            • Scikit-Learn でモデルカードを作成してクラウドにデプロイする方法 | Google Cloud 公式ブログ

              ※この投稿は米国時間 2020 年 10 月 17 日に、Google Cloud blog に投稿されたものの抄訳です。 機械学習モデルは、多数の難しいタスクを遂行するために使用されるようになりました。大きな可能性を秘める ML モデルですが、その使用方法、構成、制限に関して疑問も寄せられています。そうした疑問に対する回答を文書化することで状況が明確になり、共通の理解を得ることができます。これらの目標を達成するために、Google はモデルカードを導入しました。 モデルカードの目的は、機械学習モデルの全体像を簡潔に提供することです。まず、モデルカードはそのモデルの機能、意図するユーザー層、その管理者について説明します。また、アーキテクチャや使用されているトレーニング データなど、モデルの構成に関する情報も提供します。さらに、生のパフォーマンス指標だけでなく、モデルの制限とリスク緩和の機会

                Scikit-Learn でモデルカードを作成してクラウドにデプロイする方法 | Google Cloud 公式ブログ
              • ヤフーのデータをビジネスに活用できるサービス「DATA FOREST」の内容を同社が説明

                ヤフーのデータをビジネスに活用できるサービス「DATA FOREST」の内容を同社が説明 ヤフーは2019年2月13日、同社の「データフォレスト構想」に基づく企業や自治体向けのデータソリューションサービス「DATA FOREST」の第1弾を、2019年10月に提供開始する予定であることを発表、その内容を説明した。 ヤフーは2019年2月13日、同社の「データフォレスト構想」に基づく企業や自治体向けのデータソリューションサービス「DATA FOREST」の第1弾を、2019年10月に提供開始する予定であることを発表した。同日、事前受け付けを開始したという。 これはヤフーが多様なサービスを通じて捕捉するユーザー関連情報に処理を加え、個人を特定できないようにして分析できる環境を提供するサービス(データそのものを売るのではない)。ユーザー組織はこの環境をその

                  ヤフーのデータをビジネスに活用できるサービス「DATA FOREST」の内容を同社が説明
                • Using StreamSets Control Hub for Scalable Deployment via Kubernetes - StreamSets: Where DevOps Meets Data Integration

                  Use webMethods & StreamSets to integrate applications, data and B2B with APIs and events in the market's first AI-enabled Super iPaaS.

                  • 大量のユーザーデータを横断的に使うために LINEのデータサイエンティストが気をつけているいくつかのこと

                    2020年11月25〜27日の3日間、LINE株式会社が主催するエンジニア向け技術カンファレンス「LINE DEVELOPER DAY 2020」がオンラインで開催されました。そこで LINEのフェローであり、Data Science and Engineeringセンターに所属する並川淳氏が、「LINEではどのようにサービス横断でのデータ活用を実現しているのか」というテーマで、LINEにおけるデータの扱い方について共有しました。 LINEにおけるデータ活用の取り組み 並川淳氏(以下、並川):本日は「LINEではどのようにサービス横断でのデータ活用を実現しているのか」というタイトルで、並川が発表いたします。私は、LINEではふだん機械学習に関わる開発全般を担当しています。ですが、今日は機械学習に限らず、LINEにおけるデータ活用の取り組みについて幅広く紹介させてもらえればと思っています。よ

                      大量のユーザーデータを横断的に使うために LINEのデータサイエンティストが気をつけているいくつかのこと
                    • 社内勉強会「Modern Data Stack入門」の内容をブログ化しました - PLAID engineer blog

                      プレイドの社内向けに行ったModern Data Stack勉強会の内容が好評だったので、データ基盤に携わる方に向けてModern Data Stackの概要、主要サービス、重要だと思うトレンドをまとめました。

                        社内勉強会「Modern Data Stack入門」の内容をブログ化しました - PLAID engineer blog
                      • http://www.sysml.cc/

                        • 1ペタバイトのデータセットで機械学習する / WebDataset入門

                          深層学習をする上で、最も大切なマシンスペックを聞かれたら何と答えますか? GPUのTensor性能、VRAM、GPUの数、CPU性能、メモリ、… 問題によって正解は異なりますね。 しかし、特に大規模なデータセットで機械学習する場合では、しばしばネットワーク帯域とストレージシステムのディスクI/Oによって制限されます。この記事ではそのような課題に対して、学習側でどのようにデータを扱うかを見ていきたいと思います。 1. この記事は? こんにちは、TURING MLチームです。TURINGはEnd-to-Endな深層学習モデルでLv5完全自動運転車の開発を目指す会社です。 私たちは自動運転モデルを動かすため、可視域のカメラセンサによる画像で学習し、カメラ映像のみから車体の操作や経路選択、安全性の判断を行わせています。(実際の車を動かす事例はこちらの記事をご覧ください。) そのため、機械学習のため

                            1ペタバイトのデータセットで機械学習する / WebDataset入門
                          • Uber’s Big Data Platform: 100+ Petabytes with Minute Latency

                            Data / ML, EngineeringUber’s Big Data Platform: 100+ Petabytes with Minute LatencyOctober 17, 2018 / Global Uber is committed to delivering safer and more reliable transportation across our global markets. To accomplish this, Uber relies heavily on making data-driven decisions at every level, from forecasting rider demand during high traffic events to identifying and addressing bottlenecks in our

                              Uber’s Big Data Platform: 100+ Petabytes with Minute Latency
                            • A Decade at Google – ACM SIGMOD Blog

                              I recently celebrated my 10th anniversary at Google and decided to take the opportunity to share some of my reflections on the past decade. Prior to joining Google, I was on the faculty of the Department of Computer Science and Engineering at the University of Washington, where I founded the database research group that is thriving today even more than it did a decade ago. During my tenure at UW I

                                A Decade at Google – ACM SIGMOD Blog
                              • 機械学習品質管理・保証の動向と取り組み

                                Trends and Our Activities in Quality Management and Assurance of Machine LearningRead less

                                • JDMC

                                  JDMC会員による「リレーコラム」。メンバーの皆さんそれぞれの経験・知見・想いをリレー形式でつなげていきます。今回、バトンを受け取ったのは、三井住友ファイナンス&リース株式会社 實方 弘樹さん です。 JDMC会員の皆様 […] Read More

                                  • データインテリジェンスの動向を呟く|Rytm / Quollio

                                    冒頭2023年現在、Generative AIの台頭により”Data is new oil.”という言葉の重みが日に日に増してきている。そんな中、企業向けデータマネジメントを担うツールであった”データカタログ”にも転機が訪れている。ここ数年の欧米動向を見ていると、旧来データカタログと自身を呼んでいた海外ベンダーが、Active Metadata PlatformやData Intelligence Platformへと自身を再定義するに至っている。以前の記事では、前者について説明を行った。本日は、よりエンタープライズ企業へとフォーカスを当てた取り組みである後者について、特に国内状況についての考察を行う。 “Intelligence”とは?Data Intelligenceと似た名前に、Business Intelligenceという概念がある。今となっては”BIツール”として慣れ親しまれ、

                                      データインテリジェンスの動向を呟く|Rytm / Quollio
                                    • Dataplex: data governance

                                      Centrally discover, manage, monitor, and govern data and AI artifacts across your data platform, providing access to trusted data and powering analytics and AI at scale.

                                        Dataplex: data governance
                                      • GOのデータ・AIを活用する「組織」を30分で紹介

                                        GO TechTalk #25 で発表した資料です。 ■ YouTube https://www.youtube.com/live/lH0z49oHRWI?feature=shared&t=98 ■ connpass https://jtx.connpass.com/event/306325/

                                        • Microsoft Teams用 Project Oakdale に関する機能と Common Data Service の違いについて - 吉田の備忘録

                                          Microsoft Teams用 Project Oakdale に関する機能と Common Data Service の違いについて データ Project Oakdale はリレーショナルデータ(親子関係などの構造化データ)に対応し、データを検索、フィルター、並び替えなどができます。また、文字列や数値などの主なデータタイプに対応しつつ、画像やファイルにも対応します。Project Oakdale は Common Data Service の恩恵を受け、通貨やロールアップ計算、計算項目も搭載します。 Project Oakdale により、新しい編集可能なグリッド(エディタブルグリッド)によって、素早くテーブル/表を作成し、データもExcelのように入力することが可能です。Common Data Model(CDM)としては、既定でユーザーテーブルが搭載されており、今後様々なテーブルが追加される予定となっております。 Common Data Service は上記の Project Oakdale に加え、ログなどの非

                                            Microsoft Teams用 Project Oakdale に関する機能と Common Data Service の違いについて - 吉田の備忘録
                                          • Introducing MLflow: an Open Source Machine Learning Platform

                                            Unified governance for all data, analytics and AI assets

                                              Introducing MLflow: an Open Source Machine Learning Platform
                                            • Metacat: Making Big Data Discoverable and Meaningful at Netflix

                                              by Ajoy Majumdar, Zhen Li Most large companies have numerous data sources with different data formats and large data volumes. These data stores are accessed and analyzed by many people throughout the enterprise. At Netflix, our data warehouse consists of a large number of data sets stored in Amazon S3 (via Hive), Druid, Elasticsearch, Redshift, Snowflake and MySql. Our platform supports Spark, Pre

                                                Metacat: Making Big Data Discoverable and Meaningful at Netflix
                                                Comet’s machine learning platform integrates with your existing infrastructure and tools so you can manage, visualize, and optimize models—from training runs to production monitoring.

                                                • International Image Interoperability Framework: Image API 1.1

                                                  Gain richer access to the world's image and audio/visual files IIIF is a set of open standards for delivering high-quality, attributed digital objects online at scale. It’s also an international community developing and implementing the IIIF APIs. IIIF is backed by a consortium of leading cultural institutions. Get started Break down silos with open APIs Many of the images and audio/visual resourc

                                                  • GitHub - dat-ecosystem/dat: :floppy_disk: peer-to-peer sharing & live syncronization of files via command line

                                                      GitHub - dat-ecosystem/dat: :floppy_disk: peer-to-peer sharing & live syncronization of files via command line
                                                    • Discovering millions of datasets on the web

                                                        Discovering millions of datasets on the web
                                                      • Concurrency Control and Recovery in Database Systems - Microsoft Research

                                                        About I am a member of the Data Systems Group (opens in new tab) in Microsoft Research Redmond (opens in new tab). I work on various aspects database systems, mostly related to data integration and transaction processing. I’m currently working applications of disaggregated memory as a remote database cache. From 2012-2019, I worked on a distributed systems programming framework, called Orleans (op

                                                          Concurrency Control and Recovery in Database Systems - Microsoft Research
                                                        • The Data Catalog Platform

                                                          Product Launch: data.world has officially leveled up its integration with Snowflake’s new data quality capabilities

                                                            The Data Catalog Platform
                                                          • データ基盤開発ひとりのカレンダー | Advent Calendar 2019 - Qiita

                                                              データ基盤開発ひとりのカレンダー | Advent Calendar 2019 - Qiita
                                                            • Introduction to Data Validation: MLOps における重要性とその分類、実用上の注意点について - Qiita

                                                              Introduction to Data Validation: MLOps における重要性とその分類、実用上の注意点についてMachineLearningMLOps この記事では MLOps における Data Validation (データバリデーション: データの検証) について概要を述べます。 Data Validation はこれ単体では新しい概念ではありません。たとえば入力フォームで入力値に制約を設け、その制約を満たすデータのみを入力値として受け入れるようにするのは、サービス開発では一般的なことでしょう。入力欄において空欄を許さない、値は特定のリストからのみ選択できるといった制約を設けている例は、開発者でなくても一般的に目にしたことがあるかと思います。 このように Data Validation は一般的な概念ですが、MLOps においては非常に重要な概念となります。また、そこ

                                                                Introduction to Data Validation: MLOps における重要性とその分類、実用上の注意点について - Qiita
                                                              • IEICE Trans

                                                                pp.290-299  論文-軌跡データ,地図,地理情報システム,情報可視化,モバイルアプリケーション 平面図と断面図による軌跡可視化のためのLine Simplification手法 村上 司  藤田 秀之  新谷 隆彦  大森 匡

                                                                • logfmt — brandur.org

                                                                  If you’ve ever run an app on Heroku, you may have come across log messages produced by the Heroku router and wondered about their unusual formatting. Each line consists of a single level of key/value pairs which are densely packed together compared to other well-known structured formats like JSON. For example: at=info method=GET path=/ host=mutelight.org fwd="" dyno=web.2 connect=4ms

                                                                  • Domino Data Lab: Enterprise AI platform

                                                                    Build, deploy, and manage AI with Domino's unified platform. Access data, tools, compute, models, and projects across any environment. Foster collaboration, establish best practices, and track models in production to accelerate and scale AI while ensuring governance and reducing costs.

                                                                      Domino Data Lab: Enterprise AI platform
                                                                    • GitHub - onnx/models: A collection of pre-trained, state-of-the-art models in the ONNX format

                                                                        GitHub - onnx/models: A collection of pre-trained, state-of-the-art models in the ONNX format
                                                                      • Home

                                                                        While AI technology offers immense potential for businesses, it also presents risks and requires governance. Explore our resources to learn more.

                                                                        • The Dataverse Project - Dataverse.org

                                                                          Enjoy full control over your data. Receive web visibility, academic credit, and increased citation counts. A personal Dataverse collection is easy to set up, allows you to display your data on your personal website, can be branded uniquely as your research program, makes your data more discoverable to the research community, and satisfies data management plans. Want to set up your personal Dataver

                                                                          • 大規模分散学習でGPUを食べまくる人|マソラ

                                                                            こんにちは!東工大修士2年/産総研RAの高島空良と申します。本記事は、研究コミュニティ cvpaper.challenge 〜CV分野の今を映し,トレンドを創り出す〜 Advent Calendar 2022の17日目の記事となります。 本記事では、私がcvpaper.challengeに研究メンバーとして参画した経緯から1年間活動してきた内容の振り返りを、ざっくばらんに記載します。メインコンテンツは「大規模分散学習」になる見込みです。 私の体験を通して「cvpaper.challengeでの研究・活動の流れ」や「cvpaper.challengeの研究コミニュティの雰囲気」なども伝えられれば幸いです。 注:勢いに任せて執筆した結果、かなり長くなってしまったので、ご興味に応じて適当に読み飛ばしていただければと思います🙇‍♂️ 自己紹介私は現在、東京工業大学の情報工学系修士2年で、高性能計

                                                                            • Data Catalog Vocabulary (DCAT) - Version 2

                                                                              Data Catalog Vocabulary (DCAT) - Version 2 W3C Recommendation 04 February 2020 This version: https://www.w3.org/TR/2020/REC-vocab-dcat-2-20200204/ Latest published version: https://www.w3.org/TR/vocab-dcat-2/ Latest editor's draft:https://w3c.github.io/dxwg/dcat/ Implementation report: https://w3c.github.io/dxwg/dcat-implementation-report/ Previous version:https://www.w3.org/TR/2019/PR-vocab-dcat-

                                                                                Tesla has the attention of the U.S. Department of Justice — again. Tesla has received requests for information, including subpoenas from the DOJ, the automaker disclosed Monday in a U.S. Securities TikTok is testing the ability for users to upload 15 minute videos, the company confirmed to TechCrunch on Monday. The social media giant said the new upload limit is being tested in select regions wi

                                                                                • Marmaray: An Open Source Generic Data Ingestion and Dispersal Framework and Library for Apache Hadoop

                                                                                  Marmaray: An Open Source Generic Data Ingestion and Dispersal Framework and Library for Apache Hadoop Connecting users worldwide on our platform all day, every day requires an enormous amount of data management. When you consider the hundreds of operations and data science teams analyzing large sets of anonymous, aggregated data, using a variety of different tools to better understand and maintain

                                                                                    Marmaray: An Open Source Generic Data Ingestion and Dispersal Framework and Library for Apache Hadoop