並び順

ブックマーク数

期間指定

  • から
  • まで

321 - 360 件 / 530件

新着順 人気順

Databricksの検索結果321 - 360 件 / 530件

  • Databricks 認定データエンジニアアソシエイト Databricks

    「Databricks 認定:データエンジニアアソシエイト」の認定試験は、Databricks インテリジェンスプラットフォームを使用して入門的なデータエンジニアリングタスクを完了する能力を評価します。データインテリジェンスプラットフォームとそのワークスペース、アーキテクチャ、機能の理解が含まれます。また、Apache Spark™ SQL と Python を使用して、バッチ処理とインクリメンタル処理の両方のパラダイムでマルチホップアーキテクチャの ETL タスクを実行する能力も評価します。最後に、基本的な ETL パイプラインと Databricks SQL クエリおよびダッシュボードを、エンティティの権限を維持しながら本番環境に導入する能力を評価します。この認定試験に合格すると、Databricks とその関連ツールを使用して基本的なデータエンジニアリング作業を完了することができます

      Databricks 認定データエンジニアアソシエイト Databricks
    • SeamlessM4T v2を試す on Databricks - Qiita

      導入 Meta社からSeamlessM4Tのv2が出ました。 GIGAZINEさんでも取り上げられています。 以下の記事でv1を試してみており、非常におもしろかったので今回もDatabricks上で試してみます。 Seamless M4T v2とは テキストと音声を同時に取り扱うマルチモーダルモデルです。 指定した文章を違う言語で文章に翻訳したり(T2T)、音声出力したり(T2S)、その逆(S2T)をしたりなどできます。 研究用途を想定しており、商用不可のライセンス体系で公開されています。 v2ではv1よりもレイテンシの短縮や品質向上が図られているようです。 また、音声の感情を維持したまま別の言語に翻訳した音声を出力するSeamlessExpressiveや、ストリームでの音声を翻訳出力するSeamlessStreamingが公開されています。 試す では、試してみましょう。以下の内容をベ

        SeamlessM4T v2を試す on Databricks - Qiita
      • データエンジニアリング初学者の学習記録(前編 データエンジニアリングとは何か?) - JBS Tech Blog

        本記事では、データエンジニアリング初学者の学習記録として、データエンジニアリングの概要から実践までの内容をまとめています。 今回は前編として、データエンジニアリングおよびAzure Data Factoryについてご紹介します。 データエンジニアリングとは? データエンジニアリングの必要性 データエンジニアリングのプロセス Azure Data Factoryについて 実践するシナリオについて おまけ:ダミーデータを用意する ユーザー情報の作成 Power Platform監査ログの作成 まとめ データエンジニアリングとは? データエンジニアリングはデータサイエンティスト協会が定義している3つのスキルセットの1つです。 (出典:一般社団法人データサイエンティスト協会スキル定義委員会[2023]「2023年度スキル定義委員会活動報告/2023年度版スキルチェックリスト&タスクリスト公開」 具

          データエンジニアリング初学者の学習記録(前編 データエンジニアリングとは何か?) - JBS Tech Blog
        • Unity Catalogのオープンソース化を発表します!

          Translation Review by saki.kitaoka Unity Catalogのオープンソース化を発表できることを非常に嬉しく思います。 これは、クラウド、データ形式、データプラットフォーム全体でデータとAIのガバナンスを行う業界初のオープンソースカタログです。ここでは、Unity Catalogビジョンの最も重要な柱をご紹介します: オープンソースのAPIと実装: OpenAPI仕様に基づいて構築され、Apache 2.0ライセンスのもとでオープンソースのサーバー実装があります。Apache HiveのメタストアAPIやApache IcebergのRESTカタログAPIとも互換性があります。マルチフォーマットサポート: 拡張性があり、Delta Lake、UniForm経由のApache Iceberg、Apache Parquet、CSVなど、すべての形式をサポート

            Unity Catalogのオープンソース化を発表します!
          • Snowflake×非構造データ ~Notebooksを添えて~

            この記事の対象ユーザー Snowflakeユーザー 「Snowflakeで非構造データを取り扱う必要ってあるの?」と思っている人 非構造データから情報を抽出して何らかの仕事に利用している人 背景 「Data Cloud Summit 2024の発表見てると、やたらAIとの統合を推しているなぁ・・・」 弊社がSnowflakeを導入した当時は、「超高速でコスパの良いDWH、それがSnowflake」「データ共有方法が色々あって、特に社外とのデータコラボレーションが便利そう」という印象が強かったです。この印象は今なお変わっていませんが、それに加えて「データサイエンス」「AI」のキーワードがSnowflakeの顔の1つになってきました。 正直、データサイエンティストの端くれとして嬉しい反面、「Databricksにどんどん似てきているなぁ・・・」「これから製品の導入を検討する会社さんは、両製品の

              Snowflake×非構造データ ~Notebooksを添えて~
            • Intel Gaudi 2 AIアクセラレーターによるLLMトレーニングと推論

              Databricksでは、お客様がデータのプライバシーやコントロールを犠牲にすることなく、ご自身のデータでジェネレーティブAIアプリケーションを構築し、展開できるようにしたいと考えています。 カスタムAIモデルのトレーニングをご希望のお客様には、簡単かつ効率的に、低コストでトレーニングできるようお手伝いします。 この課題に対処するための1つの手段は、MLハードウェアの最適化です。この目的のために、私たちはLLMスタックが様々なMLハードウェアプラットフォーム(例えば、NVIDIA [1][2]、AMD [3][4])をシームレスにサポートできるよう、たゆまぬ努力を続けてきました。 本日は、AIトレーニングおよび推論市場におけるもう1つの主役、Intel® Gaudi® AIアクセラレーター・ファミリーについてご紹介します! これらのアクセラレータは、AWS(第一世代のGaudi)、Inte

                Intel Gaudi 2 AIアクセラレーターによるLLMトレーニングと推論
              • Azure Updates (2024-05-22) Build 2024 Day 1

                こっちもぼちぼち拾っていきます。大体は Microsoft Build 2024 Book of News を見たらいいと思う。 Azure App Service Unlock JBoss EAP on Azure App Service – Free Trials and Memory-Optimized Plans What’s New in Azure App Service at Build 2024 GitHub Copilot Skills for Azure Migrate App Service on LinuxでSidecarシナリオサポートとWebJobsのサポート。 Automatic ScalingがGA。 5月1日時点でアプリの回復性の公式アナウンスが99.99%になりました。(AZ構成してる場合) ASEv3でメモリ集中SKUが追加、TLS1.3サポート、ポー

                  Azure Updates (2024-05-22) Build 2024 Day 1
                • メタに挑戦、Databricksもオープンソースモデル開発に参戦 最新モデルが示す意外な日本語能力 | AMP[アンプ] - ビジネスインスピレーションメディア

                  Databricksのオープンソースモデル「DBRX」、既存モデルを超える性能 OpenAI、Anthropic、Cohere、グーグルが強い存在感を示す生成AI市場だが、メタを筆頭にオープンソースモデルの展開により、AIコミュニティでの支持を集める企業も増えつつある。 データ管理プラットフォームを提供するDatabricksも最近オープンソースモデルをリリースし、この流れに乗る算段だ。 2023年4月、DatabricksはオープンソースAIモデル「DBRX」を発表した。同モデルは1,320億のパラメータを有する比較的大きなモデルで、言語理解(MMLU)、プログラミング能力(Human Eval)、数学的スキル(GSM 8K)などの主要ベンチマークで、Llama 2-70BやMixtralといった主要なオープンソースモデルを上回る性能を示したとされる。 DBRXの特徴は、「mixture

                    メタに挑戦、Databricksもオープンソースモデル開発に参戦 最新モデルが示す意外な日本語能力 | AMP[アンプ] - ビジネスインスピレーションメディア
                  • 第2回金融データ活用チャレンジにDataikuのノーコードでチャレンジしてみた - Qiita

                    概要 夏秋といいます。 2月15日までSIGNATEで開催されていた「第2回金融データ活用チャレンジ」に参加してました。 普段は金融機関に勤めていて、データ分析とは無縁の仕事をしていますが、去年の「第1回金融データ活用チャレンジ」に参加してPythonと機械学習を勉強し、データ分析コンペの楽しさに触れました。 第1回に参加した時は「Databricks」というプラットフォーム上でPythonを使用してデータ分析をしていたのですが、今回は「Dataiku」というプラットフォーム上でノーコードでデータ分析ができるとのことで、今回はそちらを使ってノーコードでのデータ分析にチャレンジしてみました。 コンペの成績まずまずでしたが、データ分析初心者の目線から去年のフルコードと今回のノーコードの差について説明できればと思い、この記事を書くことにしました。 また、本記事はコンペにおいて「精度での入賞」と別

                      第2回金融データ活用チャレンジにDataikuのノーコードでチャレンジしてみた - Qiita
                    • Dataikuが2023年の年間最優秀AIパートナーとして3社から選出される - Qiita

                      「一度でも何かをすれば、人はそれを事故と呼ぶ。二度起こったら、偶然と言われる。しかし、三度目は自然法則を証明したことになる。" これはアメリカのコンピューター科学者で数学者のグレース・ホッパーの名言である。 もしそれが本当なら、私たちは今年、新たな自然法則を証明したことになる: データ・インフラに関係なく、DataikuはAIで成功する方法です。 2023年は誰が見てもAIの年であり、DataikuはデータとAIの分野で最も影響力のある大企業、Snowflake、Databricks、AWSから3つ以上の年間最優秀パートナー賞を受賞しました。 1: Snowflakeは6月、3年連続でDataikuを年間最優秀パートナーとして選出 2: Dataikuは同じく6月にDatabricksのAIパートナーオブザイヤーを受賞 3: DataikuがAWSグローバルISV AI/機械学習パートナー

                        Dataikuが2023年の年間最優秀AIパートナーとして3社から選出される - Qiita
                      • New Relic、オブザーバビリティプラットフォーム「New Relic」とNVIDIA NIMの統合により、企業のAI導入とROIの向上を加速

                        New Relic、オブザーバビリティプラットフォーム「New Relic」とNVIDIA NIMの統合により、企業のAI導入とROIの向上を加速New Relicが、NVIDIA NIM推論マイクロサービスとの統合により、NVIDIA GPUに最適化された高性能モデルの開発をサポート New Relic AI Monitoringが、NVIDIA NIMで構築されたアプリのAIスタック全体から詳細なインサイトを提供 New Relicのプラットフォームは60以上のAIインテグレーションからのデータを一元化し、包括的なオブザーバビリティを提供 ※本リリースは、2024年6月21日(米国現地時間)に米国カリフォルニア州サンフランシスコで発表されたプレスリリースの抄訳版です。 デジタルビジネスにオブザーバビリティ(可観測性)プラットフォームを提供するNew Relic株式会社(本社:東京都港区

                          New Relic、オブザーバビリティプラットフォーム「New Relic」とNVIDIA NIMの統合により、企業のAI導入とROIの向上を加速
                        • 「Databricks Marketplace」を日本で提供開始 8社とパートナーシップを締結

                          Databricks(以下、データブリックス)は9月14日、「Databricks Marketplace」の国内提供を開始した。日本企業を中心とする8社と新たなパートナーシップを締結したという。 同パートナーシップにより、ネットワンシステムズ、unerry、MaaS Tech Japan、MILIZE、ジール、EduCare、TxTo、Cartoの8社は、Databricks Marketplaceにおける新たなデータプロバイダーとしてデータセットを提供することが可能となり、サードパーティデータの活用ニーズに応えていくという。 なお、同パートナーシップの締結は、9月14日に東京都内で開催されたデータブリックスのイベント「データ+AIワールドツアー東京」の中で発表された。会場には1,000人以上が来場し、大規模言語モデル(LLM)、レイクハウスパラダイム、最新のデータブリックス製品のイノベ

                            「Databricks Marketplace」を日本で提供開始 8社とパートナーシップを締結
                          • 【TC24 現地レポート】Data Villageゾーンを楽しんだ #DATA24 | DevelopersIO

                            こんにちは、データアナリティクス営業部のTORAMIです。 2024年4月29日(月) ~ 2024年5月1日(水)米国サンディエゴ開催のTableau Conference 2024(TC24) 本記事では、私が一番足を運んだ場所、Data Villageについてレポートしたいと思います。 TC24 会場案内図 TC24の会場は、サンディエゴConvention Centerで開催されました。 イベントマップよりData Villageでは1FのホールA&Bに位置していました。 近くにみえますが、距離は長いです。入口から結構歩きます。。 Data Village 正面 ドーン!とてもカラフル!キラキラしてますね~。「DATA」の置物に何かペタペタ貼ってます。 という事で、私も書いてきました。(ぼかしはお客様の会社名です) さて、ほかの方はどんな書いているのかなーとみていたら... おや?

                              【TC24 現地レポート】Data Villageゾーンを楽しんだ #DATA24 | DevelopersIO
                            • 最近読んだ技術記事(2024/05/02) - シャツとソックスの日記

                              Serverless security like a pro(Google Cloud Next '24セッションレポート) - G-gen Tech Blog コンテナのセキュリティアップデートを自動でやってくれるようになる機能は初耳。これはさすがにありがたいな クラウド費用のコスト削減を試みたけど失敗した話 - Inside of LOVOT 新たな Cloud Storage オペレーションの被害者が生まれてしまったか 設計って技術的にも大変だけど組織的な大変さもあるよねという話 - Uzabase for Engineers ドキュメントがない(E2Eテストで動作するかどうかは担保しているので)ってことなのかな。すごい文化だな。 Yappli Analytics のデータマートを dbt へ切り替えた話 - Yappli Tech Blog dbt 基盤の開発フローを改善した話 -

                                最近読んだ技術記事(2024/05/02) - シャツとソックスの日記
                              • データエンジニアリング初学者の学習記録(後編 実践) - JBS Tech Blog

                                本記事では、データエンジニアリング初学者の学習記録として、データエンジニアリングの概要から実践までの内容をまとめています。 今回は後編として、Azure Data Factoryの実装手順やパイプラインについてご紹介します。 データの準備 必要な Azure リソースの作成 ストレージアカウント Azure Data Factory Azure SQL Database SQLテーブル Function App Azure Data Factoryでの操作 Linked Service / データセットの作成 パイプラインの作成 データセットの作成 データフロー アクティビティの作成 データの可視化(Power BIとの連携) つまづいた点 まとめ データの準備 今回は以下のデータを使用します。 監査ログ(Power Automate・Power Apps・Power BI) Micros

                                  データエンジニアリング初学者の学習記録(後編 実践) - JBS Tech Blog
                                • 【Databricks】コスト管理ダッシュボードをインポートしてみた - Qiita

                                  Account admins can now import a customizable cost management dashboard from the account console into any Unity Catalog workspace in their account. There are two versions of the dashboard, one that monitors account-wide usage, and another for single-workspace usage. アカウント管理者は、アカウントコンソールからアカウント内の任意のUnity Catalogワークスペースにカスタマイズ可能なコスト管理ダッシュボードをインポートできるようになった ダッシュボードには2つのバージョがある アカウント全体の使用状況 単一のワークスペースの

                                    【Databricks】コスト管理ダッシュボードをインポートしてみた - Qiita
                                  • Databricksに対するFAQ - Qiita

                                    Databricksソリューションアーキテクトの弥生です。 前回は私が使用したDatabricks学習コンテンツをシェアさせていただきましたが、こちらでは2020年の入社後、多くのお客様とのやりとりの中でいただいたご質問および回答をまとめました。 「Databricksって聞くけど、一体何なの?」と感じている方にとって、本書が一助になれば幸いです。 Databricksの概要 レイクハウスとは何ですか? Databricksが提供するプラットフォームの名称です。Databricksが作った造語であり、由来は従来型データプラットフォームであるデータウェアハウスとデータレイクであり、両者の長所を兼ね備えたプラットフォームであるという意味を込めてレイクハウスとしています。 想定されるエンドユーザーは誰ですか? データエンジニア、データサイエンティスト、SQLアナリスト、MLエンジニアなど機械学習

                                      Databricksに対するFAQ - Qiita
                                    • データエンジニアリングをマスターするための6つのプロジェクト - Qiita

                                      はじめに データエンジニアリングは、データがビジネスにおいて価値を生むための基盤を提供する非常に重要な分野です。 しかし、このスキルを効果的に習得するためには、実際に手を動かして学ぶことが不可欠です。 この記事では、さまざまなデータエンジニアリングスキルに焦点を当てた6つのプロジェクトを紹介します。これらのプロジェクトは、データパイプラインの構築からデータの可視化まで、幅広いスキルを網羅しており、初心者から中級者まで役立つ内容です。 1. データパイプラインの開発 データエンジニアリングの核となるスキルは、データパイプラインを設計・構築することです。 パイプラインは、さまざまなデータソースからデータを抽出し、変換して、最終的にビジネスユーザーが利用できる形にするプロセスです。 このプロジェクトを通じて、ETL(Extract, Transform, Load)の全体像を理解し、データの流れ

                                        データエンジニアリングをマスターするための6つのプロジェクト - Qiita
                                      • DatabricksとLangGraphで学ぶシリーズまとめ - Qiita

                                        Register as a new user and use Qiita more conveniently You get articles that match your needsYou can efficiently read back useful informationYou can use dark themeWhat you can do with signing up

                                          DatabricksとLangGraphで学ぶシリーズまとめ - Qiita
                                        • LoRAによる効率的なファインチューニング:大規模言語モデルの最適パラメータ選択ガイド

                                          翻訳:Junichi Maruyama.  -  Original Blog Link ニューラルネットワークベースの技術や大規模言語モデル(LLM)研究の急速な進歩に伴い、企業は価値生成のためのAIアプリケーションにますます関心を寄せている。これらの企業は、分類、要約、シーケンス間タスク、制御されたテキスト生成など、テキスト関連の課題に対処するために、生成および非生成の両方で、さまざまな機械学習アプローチを採用している。組織はサードパーティのAPIを選択することもできるが、独自のデータでモデルを微調整することで、ドメイン固有の適切な結果を提供し、安全な方法でさまざまな環境に展開可能な、費用対効果の高い独立したソリューションを可能にする。 ファインチューニングの戦略を選択する際には、効率的なリソース利用と費用対効果を確保することが重要です。このブログでは、このようなパラメータ効率的な手法の

                                            LoRAによる効率的なファインチューニング:大規模言語モデルの最適パラメータ選択ガイド
                                          • (dbdemos)Databricks Lakehouseにおける患者の再入院を減らすための医療予測モデルの構築: MLモデル編 - APC 技術ブログ

                                            はじめに GLB事業部Lakehouse部の鄭(ジョン)です。 Databricks Lakehouse Platformが提供するデモであるdbdemosの中で、患者の再入院を減らすための医療予測モデルの構築するデモを紹介したいと思います。 デモ名: Lakehouse for HLS: Patient readmission www.databricks.com 今回の投稿はdbdemosを活用して医療データを探求し、予測モデルを作成することを目標にしています。 投稿は2編に分かれています。 1編はデモの概要とデータの探索的分析について紹介しています。 モデルに使われるテーブルと変数についての説明があります。 詳細は下記をご参照ください。 techblog.ap-com.co.jp 今回は2編で患者の再入院を減らすための医療予測モデルを作る過程を紹介してみます。 目次 はじめに 目次

                                              (dbdemos)Databricks Lakehouseにおける患者の再入院を減らすための医療予測モデルの構築: MLモデル編 - APC 技術ブログ
                                            • 辞めたい!日立製作所からの転職先は?何がやばい?年収は上がる?日立卒業生を調査!【SIer転職先特集】 | 外資転職ドットコム

                                              外資系IT企業では多くのJTC/日系企業卒業生が活躍しています。特に多いのがSIer出身者です。 SIerはその事業の特性上、外資ITの製品を含む幅広い製品を取り扱っているので、外資系IT企業は「即戦力」として好んでSIer出身者を採用しています。 SIer卒業生特集、今回は日立製作所の卒業生の転職先を見てみましょう。 まずは、卒業生が日立製作所のどんなところに不満を持って退職を決めたのか、複数の口コミサイトの調査を踏まえて紹介し、その後、外資ITのほとんどの社員が使っているビジネスSNSのLinkedIn上で調査して日立製作所出身者がどのような外資系IT企業で活躍しているのかを紹介します。 日立製作所の年収コラム 日系SIer卒業生の退職理由として多く聞かれるのが「給料への不満」です。 冒頭のこのコラムでは、日立製作所の平均給料と日本にオフィスを構える外資系IT企業の職種別平均年収や日立

                                                辞めたい!日立製作所からの転職先は?何がやばい?年収は上がる?日立卒業生を調査!【SIer転職先特集】 | 外資転職ドットコム
                                              • 【Databricks】Pricingのメモ- 2024年4月時点 - Qiita

                                                背景・目的 Databricksでは、契約プランにより各サービスの単価(DBUあたりの金額)が変わります。 どれくらい変わるか、また変更有無について、変化点をまとめておきます。

                                                  【Databricks】Pricingのメモ- 2024年4月時点 - Qiita
                                                • 今さら聞けないSQL - Qiita

                                                  こちらのウェビナーで説明した内容の抜粋です。 ウェビナーで使用したノートブックはこちらにあります。 スライドはこちら。 SQLとは SQLが何かをお話しする前に、SQLとの関係が深いデータやデータベースの話をさせてください。 データとは データとは1人または複数の人や物や事象に関する定性的または定量的な値の集まりである。 データ - Wikipedia 例えば、以下の様にさまざまな人に関する属性の集合はデータと言えます。データは必ずしも電子データである必要はありません。この様な属性が紙の台帳に記載されていたとしてもデータであると言えます。 データベースとは コンピューティングにおいて、データベースは、電子的に保存され、アクセスできる組織化されたデータの集合である。 データベース - Wikipedia コンピュータで、これらデータを取り扱う際にデータベースを使用することは一般的です。そして

                                                    今さら聞けないSQL - Qiita
                                                  • 「十分な能力があれば十分だ」。GPTより手頃で安価なモデルを追求し始めたAI企業たち

                                                    カリフォルニア州マウンテンビューで開催されたGoogle I/Oイベントでスピーチするサンダー・ピチャイ最高経営責任者(CEO)。 Jeff Chiu / AP Photo 2024年初め、データブリックス(Databricks)がAI基盤のフラッグシップモデルであるDBRXを発表した際、プレスリリースでは競合他社に比べ、DBRXがいかに多くの点で優れているかをアピールした。特にこのモデルは、2年前にリリースされ、AIの時代に永遠のモデルとされたOpenAIのGPT-3.5を上回ったという。 当時、私はデータブリックスのCEOであるアリ・ゴドシ(Ali Ghodsi)に、なぜ彼らの新しいモデルをさらに新しいGPT-4やGPT-4 Turboではなく、2022年3月に発売されたものと比較するのかと尋ねた。その答えとして、ゴドシはOpenAIのウェブサイトの価格ページを見せた。GPT-4の10

                                                      「十分な能力があれば十分だ」。GPTより手頃で安価なモデルを追求し始めたAI企業たち
                                                    • Azure DatabricksからのAWS S3へのアクセス - Qiita

                                                      警告! クラウド横断での接続を行う構成ですので、以下の点には注意してください。 アクセスに用いる認証情報は厳重に管理してください。 クラウド間通信のコストが発生することに注意してください。 AWS側での作業 S3バケットの作成 taka-bucket-from-azureというS3バケットを作成します。S3ブロックパブリックアクセスは有効化してください。 IAMユーザーの作成 ここではs3-userというユーザーを作成し、AmazonS3FullAccessのポリシーをアタッチします。

                                                        Azure DatabricksからのAWS S3へのアクセス - Qiita
                                                      • Power Apps のデータフローでセルフサービス データを準備する - Power Apps

                                                        データ量が増え続けている中で、堅牢な構成を持った実用的な情報にデータをまとめる際の困難も、同様に増え続けています。 大量のデータをすぐに実行できるインサイトにすばやく変換するには、アプリ、AI での作業、または分析の準備が整ったデータが必要です。 Power Apps ポータルのセルフサービス データ準備を使用して、Microsoft Dataverse、または組織内の Azure Data Lake Storage Gen2 取引先企業にわずか数クリックでデータを移行して読み込むことができます。 データフローは、組織が異種ソースからのデータを統合して、それを消費に備え準備する際に役立つように導入されました。 親しみやすいセルフサービス ツールを使用してビッグ データを取り込み、移行し、統合し、エンリッチするためのデータフローを簡易作成できます。 データフローを作成するときは、データソース

                                                          Power Apps のデータフローでセルフサービス データを準備する - Power Apps
                                                        • 【Webinar記録】データ活用の最新トレンド解説セミナー ~ユースケースもご紹介~ | Nissho Electronics USA Corporation

                                                          データの品質管理やセキュリティへの懸念からAIを本番環境で活用する企業がまだ少ないなか、今後その推進の鍵となりうるのがデータとAIの一元化、包括的なセキュリティとガバナンス、そしてデータインテリジェンスへの移行です。 本ウェビナーでは、まずデータ+AIの活用を理解する土台としてモダンデータスタックを押さえたうえで、上記3つを推進するDatabricksの取り組みと、そのユースケース、さらには注目スタートアップを「Data + AI Summit 2024」から紹介します。解説を担当するのは日商エレクトロニクスUSA米国駐在員の門馬とSojitz Tech-Innovation(7月より日商エレクトロニクスから商号変更)にてDatabricks社製品のビジネスをリードする藤村です。 データ関連のエコシステム、モダンデータスタック モダンデータスタックとは、クラウド環境における「データ関連のエ

                                                            【Webinar記録】データ活用の最新トレンド解説セミナー ~ユースケースもご紹介~ | Nissho Electronics USA Corporation
                                                          • Snowflake×Icebergを採用すべきか迷った時に読む記事

                                                            結論 以下の条件に当てはまれば、Icebergの採用を検討すべきです。 データ量がペタバイトを超える 社内でSnowflake以外のデータ活用製品(Databricks、Redshiftなど)も多く利用している 同一のデータを使う関連グループ・企業が多く存在する Icebergの採用は、特に巨大企業においてメリットが大きいです。 逆に上記の条件に1つも当てはまらない場合は、採用を見送るのがよいでしょう。 Icebergとは何に代わるものなのか? Icebergは、Snowflakeのテーブルを置き換えることができます。 Icebergは完全にSnowflakeから独立した技術であり、Snowflakeの機能ではないことに注意が必要です。 最近Snowflakeが別のツールで作成したIcebergテーブルを、読めるようになっただけと捉えるのが1番実態に近いと思います。(※特定の条件下では書き

                                                              Snowflake×Icebergを採用すべきか迷った時に読む記事
                                                            • Databricksチューニングあれこれ (JEDAI 2023 X'mas/忘年会 Meetup!) - Qiita

                                                              Databricksチューニングあれこれ (JEDAI 2023 X'mas/忘年会 Meetup!)SparkDatabricks性能評価登壇 はじめに 株式会社NTTデータグループ 技術革新統括本部技術開発本部のnttd-kitabahです。 2023/12/8にデータブリックス・ジャパン株式会社主催のユーザ会、 JEDAI 2023 X'mas/忘年会 Meetup!で「Databricksチューニングあれこれ」というタイトルで従来のチューニングとDatabricksの新機能であるリキッドクラスタリング/Predictive IOを性能比較した結果をたのしくLTしてきました。 発表で使用した資料はこちらに掲載しております。 今回は登壇内容と会場の雰囲気をお伝えします! 登壇者ってだあれ? 左:北波 (nttd-kitabah) 普段はOSSを扱うチームに所属し、Apache Spar

                                                                Databricksチューニングあれこれ (JEDAI 2023 X'mas/忘年会 Meetup!) - Qiita
                                                              • RAG処理の改善: langchainでハイブリッド検索を実装してみる(勉強メモ) - Qiita

                                                                参考記事 Step1. 環境・データの準備 いつものようにDatabricks上で実装・検証しています。 ノートブックを作成し、必要なモジュールをインストール。(いくらか余計なものが入っています) %pip install -U -qq transformers accelerate ctranslate2 langchain faiss-cpu sentencepiece rank_bm25 mecab-python3 unidic-lite dbutils.library.restartPython() 検索に用いるデータは、以前の記事で利用・作成したdolly-15k-jaにチャンクデータ・埋め込みデータを追加したデータセットを使います。 こんな感じで、chunkとembeddingのペアを一列に保持したデータです。 Step2. セマンティック検索用Retrieverの作成 これも

                                                                  RAG処理の改善: langchainでハイブリッド検索を実装してみる(勉強メモ) - Qiita
                                                                • DatabricksにおけるMLOpsワークフロー - Qiita

                                                                  本書では、あなたの機械学習(ML)システムのパフォーマンスと長期にわたる効率性を最適化するために、どのようにDatabricksにおけるMLOpsを活用できるのかを説明します。これには、MLOpsアーキテクチャの一般的な推奨事項が含まれており、MLの開発からプロダクションに至るプロセスのモデルとして活用できるDatabricksレイクハウスプラットフォームを用いた一般的なワークフローを説明します。 MLOpsとは? MLOpsとは、コード、データ、モデルを管理するための一連のプロセスと自動化されたステップです。これは、DevOps、DataOps、ModelOpsを組み合わせたものです。 コード、データ、モデルの様なMLアセットは、厳しいアクセス制限がなく厳密なテストが行われない初期の開発ステージから、中間のテストステージを経て、厳密にコントロールされる最終のプロダクションステージで開発さ

                                                                    DatabricksにおけるMLOpsワークフロー - Qiita
                                                                  • Software Design 2024年8月号

                                                                    2024年7月18日紙版発売 2024年7月18日電子版発売 B5判/192ページ 定価1,562円(本体1,420円+税10%) Amazon 楽天ブックス ヨドバシ.com Fujisan(定期購読のみ) 電子版 Gihyo Digital Publishing Amazon Kindle 本書のサポートページサンプルファイルのダウンロードや正誤表など 第1特集 LangChainではじめる LLMアプリ開発入門 今やIT業界にとどまらない知名度を誇るChatGPT。このサービスに使われているのがGPT(Generative Pre-trained Transformer)と呼ばれる「大規模言語モデル(LLM:Large Language Models)」です。LLMは,ディープラーニング技術を使って大量のテキストデータを学習することで,人間が行うような受け答えや自然な文章の作成を可能

                                                                      Software Design 2024年8月号
                                                                    • dbtとDatabricksを用いてコスパの良いリアルタイムデータ処理を行う

                                                                      ビジネスが成長するにつれ、データ量はGBからTB(またはそれ以上)に拡大し、レイテンシー要求は数時間から数分(またはそれ以下)になり、ビジネスに新鮮な洞察を提供するためのコストはますます高くなります。これまでPythonやScalaのデータエンジニアは、このような需要に応えるためにストリーミングを利用し、新しいデータをリアルタイムで効率的に処理してきましたが、SQLベースのdbtパイプラインを拡張する必要があるアナリティクスエンジニアには、このような選択肢はありませんでした。 しかし今は違います!このブログでは、Databricks の新しいストリーミングテーブルとマテリアライズドビューを使用して、SQL と dbt のシンプルさで新鮮なリアルタイムのインサイトをビジネスに提供する方法を説明します。 背景2023 Data + AI Summitでは、Databricks SQLにストリー

                                                                        dbtとDatabricksを用いてコスパの良いリアルタイムデータ処理を行う
                                                                      • 「AIがプラットフォームになる時代の始まり」--米マイクロソフト沼本EVP

                                                                        印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます 日本マイクロソフトは10月2日、報道機関向けの説明会を開催し、来日中の米Microsoftのエグゼクティブ バイスプレジデント(EVP)兼コマーシャル チーフ マーケティング オフィサーである沼本健氏が同社のAI戦略を明らかにした。 沼本氏はまず、現在は「AIがプラットフォームになる時代の始まりにある」と切り出し、その特徴となる大きな技術要素として「Natural User Interface」と「Reasoning(推論)Engine」の2つを挙げた。「この2つが合わさることで、プラットフォームとしてのAI時代の幕開けを迎えている」 Microsoftでは、インフラストラクチャーやデータ&AIサービス、ビジネスアプリケーション、セキュ

                                                                          「AIがプラットフォームになる時代の始まり」--米マイクロソフト沼本EVP
                                                                        • 「データ指向アプリケーションデザイン」Data Engineering Study #18 | trocco®(トロッコ)

                                                                          今回の勉強会では、『データ指向アプリケーションデザイン』の監役者である斉藤太郎氏にデータ指向アプリケーションデザインの内容を約30分でご説明していただいた後、田籠聡氏にも加わっていただき、データ指向アプリケーションデザインについての理解を深めるトークセッションを行います。 当日の発表内容はこちらからご覧ください。 過去のイベントレポートはこちら 基調講演「30分でわかるデータ指向アプリケーションデザイン」 斉藤 太郎氏 Treasure Data社 Principal Software Engineer 東京大学理学部情報科学科卒。情報理工学 Ph.D。データベース、大規模ゲノムデータ処理の研究に従事した。その後、Treasure Data社に加わり、アメリカ、シリコンバレーを拠点に活動している。現在では、OSSを中心にプログラミングやデータ処理を簡単にするためのプロダクトを作成している。

                                                                            「データ指向アプリケーションデザイン」Data Engineering Study #18 | trocco®(トロッコ)
                                                                          • Azure Data Lake Storage Gen2 の使用に関するベスト プラクティス - Azure Storage

                                                                            アカウントは、あらゆる分析シナリオで必要とされるスループットを提供するようにスケーリングできます。 既定では、Data Lake Storage Gen2 対応アカウントは、広範なカテゴリのユース ケースのニーズを満たすのに十分なスループットを既定の構成で提供します。 既定の制限に達した場合、Azure サポートに連絡して、さらに高いスループットを提供するようにアカウントを構成することができます。 構造体のデータセット データの構造を事前に計画することを検討してください。 ファイル形式、ファイル サイズ、ディレクトリ構造は、すべてパフォーマンスとコストに影響します。 ファイル形式 データはさまざまな形式で読み込むことができます。 データは、JSON、CSV、XML などの人間が判読できる形式、または .tar.gz などの圧縮されたバイナリ形式で表示できます。 データのサイズもさまざまです

                                                                              Azure Data Lake Storage Gen2 の使用に関するベスト プラクティス - Azure Storage
                                                                            • Microsoft | Next-Level Analytics with Power BI and Databricks (マイクロソフト | Power BI と Databricks による次のレベルの分析) - APC 技術ブログ

                                                                              Power BIとDatabricksがもたらすデータイノベーション ​​GLB事業部Global Engineering部 ヨハンです。 ​ 今回は、Microsoftの講演「Next-Level Analytics with Power BI and Databricks」について、わかりやすく解説していきたいと思います。この講演では、Power BIとDatabricksのパートナーシップによるデータイノベーションの推進と、誰でも成功できるようにすることがテーマとされていました。 ​ はじめに ​ 講演の発表者は、Mahesh PrakriyaとBob Tanで、彼らはDaybricksのデータチームに所属しており、Power BIのデータ統合コンポーネントを所有しています。また、Mahesh Prakriyaは、Microsoftで長年働いており、Power BIを含む複数の製品に

                                                                                Microsoft | Next-Level Analytics with Power BI and Databricks (マイクロソフト | Power BI と Databricks による次のレベルの分析) - APC 技術ブログ
                                                                              • MetaのLlama 2をDatabricksでQLoRAを使ってファインチューニングしてみる - Qiita

                                                                                こちらの続きです。04_langchainは、サービングしているモデルを呼び出しているだけなのでスキップします。あと、05_fine_tune_deepspeedは途中のエラーで動かず。 QLoRAとは 私は知らなかったです。そもそもLoRAもまだよく分かってないです。こちらのようですね。 完全な16bitのファインチューニングタスクのパフォーマンスを維持しつつも、単一の48GB GPUで65Bのパラメーターモデルをファインチューニングするのに十分なメモリーの使用量を削減する効率的なファインチューニングアプローチであるQLoRAを発表します。QLoRAは凍結された4-bitの量子化された学習済み言語モデルを通じて勾配をLow Rank Adapters(LoRA)に逆伝播します。 ライブラリのインストール %pip install -U git+https://github.com/hug

                                                                                  MetaのLlama 2をDatabricksでQLoRAを使ってファインチューニングしてみる - Qiita
                                                                                • dotData、各製品の機能強化を発表

                                                                                  Microsoft Azureとの連携強化に加えて、dotData Enterprise、dotData Feature Factory、dotData Opsの機能を拡充 企業のデータサイエンスの自動化・運用化の業界リーダーであるdotData, Inc.(本社:米国 カリフォルニア州、CEO:藤巻 遼平、以下 dotData)は、 dotDataの各製品の機能を強化しました。 今回の各製品の性能強化・拡張の概要は以下のとおりです。 dotData Feature FactoryとdotData Opsの連携により、モデルと特徴量の運用化がさらに柔軟に dotDataのAIによってデータ中心の特徴量エンジニアリングを実現する「dotData Feature Factory」とデータ加工、特徴量、機械学習による予測のパイプライン全体の運用を効率化、自動化する「dotData Ops」の連携

                                                                                    dotData、各製品の機能強化を発表