用語「データ中心のAI」について説明。性能を向上させるために、モデルやアルゴリズムを改善する「モデル中心」のアプローチではなく、機械学習ライフサイクル全体を通じてデータを改善する「データ中心」のアプローチの方が大切だとする、AIの開発方法に関する考え方を指す。 連載目次 用語解説 データ中心のAI(DCAI:Data-Centric AI)とは、従来通りのモデルやアルゴリズムを偏重するアプローチよりも、データに焦点を当てたアプローチの方が大切であるとする、AIの開発方法に関する考え方である。 この考え方の根拠として、たとえ比較的少ないデータ量であったとしてもクリーン(Clean)で高品質なグッドデータ(Good Data)の方が、ノイズの多い(Noisy)ビッグデータ(Big Data)よりも良い性能を発揮することが示されている(図1)。 図1 クリーンなGood DataがノイズありのB
What's New ¶ 2022.03.18 ワークショップは終了しました.沢山の方々のご参加ありがとうございました! また今後も様々なイベントを開催していく予定です.公式Twitterアカウント@jedws などをご覧ください. NLP2023 OKINAWAに合わせ,JED2023の開催を目指しています.来年は沖縄科学技術大学院大学(OIST)でお会いしましょう! 趣旨 ¶ 言語処理学会第28回年次大会(NLP2022) 併設ワークショップ - 日本語における評価用データセットの構築と利用性の向上(JED2022) 日本語NLP技術の性能評価のためのデータセットが近年いくつか公開されているが,他の言語と比べると基本的なタスクが不足しており,日本語NLPの迅速な発展を阻害する要因となっている.英語などのデータセットを日本語に翻訳するアプローチもあるが,翻訳プロセスに由来するアーティファ
Introduction to Data Validation: MLOps における重要性とその分類、実用上の注意点についてMachineLearningMLOps この記事では MLOps における Data Validation (データバリデーション: データの検証) について概要を述べます。 Data Validation はこれ単体では新しい概念ではありません。たとえば入力フォームで入力値に制約を設け、その制約を満たすデータのみを入力値として受け入れるようにするのは、サービス開発では一般的なことでしょう。入力欄において空欄を許さない、値は特定のリストからのみ選択できるといった制約を設けている例は、開発者でなくても一般的に目にしたことがあるかと思います。 このように Data Validation は一般的な概念ですが、MLOps においては非常に重要な概念となります。また、そこ
この記事はMLOps Advent Calendar 2021の18日目の記事です。 2016年にもTensorFlowとMLサービスの2016年の布教活動報告を書きましたが、ここ3年くらいはMLOps系の活動をメインにしてきたので、その報告です。COVID後はイベント登壇も減り、ブログ記事の執筆が多くなりました。その裏話的な内容です。 Feature Store のブログ記事 今年5月のGoogle I/OでVertex AIのMLOps系プロダクトがいくつかリリースされたので、その後にフォローアップのブログ記事を出し始めました。まずは6月にPMのAnandと書いた Kickstart your organization’s ML application development flywheel with the Vertex Feature Store(日本語版)です。 このプロダクト
CloudDQ is a cloud-native, declarative, and scalable Data Quality validation Command-Line Interface (CLI) application for Google BigQuery. CloudDQ allows users to define and schedule custom Data Quality checks across their BigQuery tables. Data Quality validation results will be available in another BigQuery table of their choice. Users can then build dashboards or consume data quality outputs pro
Monitoring feature attributions: How Google saved one of the largest ML services in trouble An emergency in the largest MLOps at GoogleClaudiu Gruia is a software engineer at Google who works on machine learning (ML) models that recommend content to billions of users daily. In Oct 2019, Claudiu was notified by an alert from a monitoring service. A specific model feature (let us call this feature F
tl;drすべてのデータを高品質に保とうとしない。事業フェーズやプロダクト仕様、マネタイズ方法に応じて、品質を守るべきデータを明確に定義し、「品質が守られた箱の中の世界」を明確にする。データ品質維持の前提は、Single Source of Truth。SSOTなDWHを構築することとセットな取り組みであることが大切。データ品質管理のHowとしては、dbtがおすすめ。not_nullやrelationshipなどdbtがもつtest機能を活用し、データ品質監視を実現しよう。当然、dbtだけでは品質は守られない。Data Meshのような議論から運用体制を考えていく必要もある。聞こえのよい新しいものに踊らされる前に、着実に必要なデータ品質を守っていこうね。 こんにちは、こんばんは。Ubie Discoveryのsotaronです。データエンジニアをやったり、小倉唯さんのファンクラブ会員などを
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く