並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 64件

新着順 人気順

Databricksの検索結果1 - 40 件 / 64件

  • Microsoft Build 2024 キーノート完全日本語化まとめ・意訳 - 吉田の備忘録

    今年も開催されたMicrosoft Build 2024のキーノートを日本語でまとめをお届けします!今年は吉田が製品チームとして「Ask the Expert」ブース対応を現地で3日連続アサインされた上、夜は無謀にも48時間以内にPower Platform の発表について2時間にわたってお届けするイベントを開催した関係上、まとめが遅くなってしまいました。 Build 2024 のPower Automateブース その分、Satya Nadellaが登壇で利用したスライドを丸ごと日本語化し、より丁重なまとめ?(もはやフル原稿…)を作ることができました。このページの一番下にはスライド完全意訳版をダウンロードできるようにしてありますので、ぜひ読んでくださいね。 それでは以下、キーノートの情報をお伝えします! 開発者会議は常に最もエキサイティングで、最も楽しい瞬間です。私は成人してからの人生を

      Microsoft Build 2024 キーノート完全日本語化まとめ・意訳 - 吉田の備忘録
    • NVIDIAのGPUはコモディティー化するか、快進撃の裏でよみがえる「Ciscoの悪夢」

      時価総額が2.6兆ドル(約410兆円)を超え、2.9兆ドルで世界2位の米Apple(アップル)の背中が見えてきた米NVIDIA(エヌビディア)。エヌビディアの専売特許であるGPU(画像処理半導体)の今後を占う連載の第2回は、2つめの死角「コモディティー化」の可能性を検討する。 GPUにとって2つめの死角は低価格化だ。コモディティー化ともいえる。市場参入時には高付加価値を持っていた製品が、市場の活性化や競合の出現などによって他の製品との機能・サービスの差がなくなり、価格競争を余儀なくされる状態を指す。 例えば2010年代に日系電機メーカーが苦しんだ薄型テレビはその典型だろう。当時、売れ筋だった40インチの薄型テレビの店頭実売価格は2009年には14万円程度だったが、3年後の2012年には6万円台と半額以下になった。「3年で半額」という法則はDVDやブルーレイディスクのレコーダーにも当てはまっ

        NVIDIAのGPUはコモディティー化するか、快進撃の裏でよみがえる「Ciscoの悪夢」
      • [2024年6月6日号]個人的に気になったModern Data Stack情報まとめ | DevelopersIO

        さがらです。 Modern Data Stack関連のコンサルタントをしている私ですが、Modern Data Stack界隈は日々多くの情報が発信されております。 そんな多くの情報が発信されている中、この2週間ほどの間で私が気になったModern Data Stack関連の情報を本記事でまとめてみます。 ※注意事項:記述している製品のすべての最新情報を網羅しているわけではありません。私の独断と偏見で気になった情報のみ記載しております。 Data Extract/Load Fivetran 「Fivetran Managed Data Lake Service」を発表 Fivetranが新機能として、「Fivetran Managed Data Lake Service」を発表しました。 基本的には、宛先にS3、Azure Data Lake Storage、Microsoft OneLa

          [2024年6月6日号]個人的に気になったModern Data Stack情報まとめ | DevelopersIO
        • セールスフォース・ジャパン、CRM向け対話型AIアシスタントの日本市場提供予定が10月になる旨を発表

          セールスフォース・ジャパン(以下、Salesforce)は、CRM向け対話型AIアシスタント「Einstein Copilot(ベータ版)」とハイパースケールのデータプラットフォーム「Salesforce Data Cloud」の「Data Cloudベクトルデータベース」を日本市場で提供開始すると発表。 これにより、ユーザー企業は信頼できるデータソースを確保し、SalesforceのCRMアプリで生成AIを活用できるようになるほか、SlackとTableauの最新AIイノベーションを用いて、働き方と分析を加速できるとのこと。 CRM向け対話型AIアシスタント「Einstein Copilot」 「Einstein Copilot」は、SalesforceのすべてのCRMアプリ向けの統合的な対話型AIアシスタント。顧客は自社で保有する信頼できるデータを活用し、質問への回答、コンテンツの要約

            セールスフォース・ジャパン、CRM向け対話型AIアシスタントの日本市場提供予定が10月になる旨を発表
          • Databricks、独自AI構築基盤を日本で提供 効率的な学習でコスト圧縮へ

            データブリックス・ジャパンが2024年6月、同社の「データ・インテリジェンス・プラットフォーム」(DIP)で、独自の大規模言語モデル(LLM)を構築できるツール「Mosaic AI Training」の提供を始めた。GPUのスケーリング機能やエラー発生時のリカバリー機能などを備える。Databricksの基盤でデータ管理と整形をやり、Mosaic AI Trainingでモデルを構築するといった使い方ができる。 AIは自分で作る時代に Databricksといえばデータウェアハウス(DWH)をはじめとするビッグデータ分析基盤を提供する企業だ。2023年にはそこから発展してAI分析基盤として、データの収集・蓄積基盤とAIの統合を進めた。 データブリックス・ジャパンの笹 俊文社長は5月の記者発表会で「一昔前なら、データはDWHで使うのがメインでした。AIは要素技術であり、ユーザーがAIを教育す

              Databricks、独自AI構築基盤を日本で提供 効率的な学習でコスト圧縮へ
            • SnowflakeとDatabricks、サンフランシスコで火花を散らす ―現地レポート

              まずは2社のプロフィールから紹介しよう。 Snowflakeは、元Oracleのエンジニアたちが2012年に創業した、カリフォルニア州サンマテオに本拠地を置くデータクラウドベンダーだ。2020年のIPOでは34億ドルを調達し、当時は「ソフトウェア企業で最も成功したIPO」と言われた。対するDatabricksは、「Apache Spark」や「Delta Lake」といったオープンソースプロジェクトの創始者らが中心となり、2013年に創業したデータプラットフォームベンダー。本拠地はカリフォルニア州サンフランシスコにある。 両社は「データ」と「AI」という、現在最も注目される領域のプロダクトを提供する点で共通している。Snowflakeは自社を「AI Data Cloudカンパニー」と称し、対するDatabricksは「Data and AIカンパニー」をうたっている。 この2社の間で何が起

                SnowflakeとDatabricks、サンフランシスコで火花を散らす ―現地レポート
              • SnowflakeとDatabricks、サンフランシスコで火花を散らす ―現地レポート(アスキー) - Yahoo!ニュース

                米国では、競合するハイテク企業どうしがライバル心をあらわにすることも少なくない。その最新の事例が、データプラットフォーム製品を提供するSnowflake(スノーフレイク)とDatabricks(データブリックス)だ。6月のサンフランシスコを舞台に2社が激しく火花を散らしている模様をレポートしたい。 【もっと写真を見る】 米国では、競合するハイテク企業どうしがライバル心をあらわにすることも少なくない。その最新の事例が、データプラットフォーム製品を提供するSnowflake(スノーフレイク)とDatabricks(データブリックス)だ。 今回は、6月のサンフランシスコを舞台に2社が激しく火花を散らしている模様をレポートしたい。 まずは2社のプロフィールから紹介しよう。 Snowflakeは、元Oracleのエンジニアたちが2012年に創業した、カリフォルニア州サンマテオに本拠地を置くデータクラ

                  SnowflakeとDatabricks、サンフランシスコで火花を散らす ―現地レポート(アスキー) - Yahoo!ニュース
                • NVIDIAのGPUはコモディティー化するか、快進撃の裏でよみがえる「Ciscoの悪夢」

                  時価総額が2.6兆ドル(約410兆円)を超え、2.9兆ドルで世界2位の米Apple(アップル)の背中が見えてきた米NVIDIA(エヌビディア)。エヌビディアの専売特許であるGPU(画像処理半導体)の今後を占う連載の第2回は、2つめの死角「コモディティー化」の可能性を検討する。 GPUにとって2つめの死角は低価格化だ。コモディティー化ともいえる。市場参入時には高付加価値を持っていた製品が、市場の活性化や競合の出現などによって他の製品との機能・サービスの差がなくなり、価格競争を余儀なくされる状態を指す。 例えば2010年代に日系電機メーカーが苦しんだ薄型テレビはその典型だろう。当時、売れ筋だった40インチの薄型テレビの店頭実売価格は2009年には14万円程度だったが、3年後の2012年には6万円台と半額以下になった。「3年で半額」という法則はDVDやブルーレイディスクのレコーダーにも当てはまっ

                    NVIDIAのGPUはコモディティー化するか、快進撃の裏でよみがえる「Ciscoの悪夢」
                  • データブリックス、企業による AI 活用の急増により、 日本での記録的な成長を達成

                    顧客および国内パートナー企業が 2 倍以上に拡大し、事業成長は前年比 100% 超 データと AI の企業である Databricks(本社:米国カリフォルニア州サンフランシスコ、以下「データブリックス」)は、日本における企業のデータおよび AI 活用に対する需要の急増を背景に、2023年度の日本事業の成長率が、前年比 100% 超となったことを、本日発表しました。 データブリックスの2023年度(2023年2月~2024年1月)のグローバルにおける収益は16億米ドルを超え、前年比50%以上の成長を達成しました。これは、迅速な製品イノベーションがけん引したことによるものです。昨年度、データブリックスは、日本における新規顧客を大幅に増やしました。イオン株式会社、全日本空輸株式会社(ANA)、株式会社ブリヂストン、コスモエネルギーホールディングス株式会社、コニカミノルタ株式会社、ネットワンシス

                      データブリックス、企業による AI 活用の急増により、 日本での記録的な成長を達成
                    • [2024年版] DatabricksにおけるAWS PrivateLinkのバックエンド接続の設定(実践編) - Qiita

                      注意 ここでは基本的な構成でのウォークスルーを行っています。ご自身のネットワーク要件に基づいて適宜変更してください。 当時は日本語マニュアルもありませんでした。 事前の検討事項 構成 どれを選ぶべきかに関してはこちらを参考にしてください。 バックエンドのみ バックエンド+フロントエンド バックエンド+フロントエンド+公衆回線からのアクセスをシャットダウン クラスターから外部へのアクセスを許可するかどうか リージョン VPCにおけるIPアドレスのサイズ(CIDR) Databricksワークスペースで使用するサブネットは最低2つ必要です。それらのサブネットは異なるアベイラビリティゾーンに存在する必要があります。Databricksの計算資源を構成するノード(1台のドライバー/ワーカー)は2つのIPアドレスを必要とします。このため、あるサブネットに配備できるノードの数は、確保しているIPアドレ

                        [2024年版] DatabricksにおけるAWS PrivateLinkのバックエンド接続の設定(実践編) - Qiita
                      • 【備忘録】大規模言語モデルをLoRA/QLoRAでファインチューニング - Qiita

                        はじめに huggingfaceに公開されている大規模言語モデルをLoRA/QLoRAでファインチューニングするのに調べた情報をまとめた備忘録。 各LoRA実行用のコードとコード内容の理解にあたって調査した内容をまとめている。 想定読者 大規模言語モデルをLoRAでファインチューニングしたい人(画像は対象外) LoRAや大規模言語モデルについては説明省略。以下の記事は参考になった。 実行環境 GPU RTX3090 V100×4 pip transformers: 4.38.2 torch: 2.2.0 trl: 0.7.10 peft: 0.10.0 コード集 後々Githubにまとめて公開予定 コードの説明 モデルの読み込み from transformers import AutoModelForCausalLM, AutoTokenizer # 利用するLLMを指定 model_i

                          【備忘録】大規模言語モデルをLoRA/QLoRAでファインチューニング - Qiita
                        • gpt-4oの動画処理サンプルをDatabricksで動かしてみる - Qiita

                          %pip install --upgrade openai --quiet dbutils.library.restartPython() from openai import OpenAI import os ## Set the API key and model name MODEL="gpt-4o" client = OpenAI(api_key=dbutils.secrets.get(scope="demo-token-takaaki.yayoi", key="openai_api_key")) 動画処理のセットアップ 動画処理では2つのパッケージを使います - opencv-pythonとmoviepyです。 これらはffmpegを必要とするので、事前にインストールするようにしてください。お使いのOSによって、brew install ffmpegやsudo apt insta

                            gpt-4oの動画処理サンプルをDatabricksで動かしてみる - Qiita
                          • Azure Databricksとは?特長と基本的な使い方を紹介 - システムエグゼ コーポレートサイト

                            Azure Databricksとは、Databricks社が提供するDatabricksをマイクロソフト社が提供するMicrosoft Azure環境向けに最適化した、統合データ分析プラットフォームです。 Azure Databricksでは、データ分析・AIソリューションを大規模に構築・デプロイ・共有・保守することが可能です。 本ブログでは、Azure Databricksの特長と使い方について紹介します。 1.Azure Databricksの特長 ■データ分析 処理エンジンにApache Sparkを採用しているため、分散処理に秀でており、大量のデータを高速で処理することが可能です。 また、構造・非構造データを問わずに分析できます。 ■共同ノートブック 共同ノートブックにより共同での開発作業ができ、Databricks Reposを設定することでGit操作でのソース管理を行うことが

                              Azure Databricksとは?特長と基本的な使い方を紹介 - システムエグゼ コーポレートサイト
                            • 新しいLLMOps機能を備えたMLflow 2.7のご紹介

                              翻訳:Junichi Maruyama.  -  Original Blog Link MLflow 2のLLMOpsサポートの一環として、MLflow 2.7のプロンプト・エンジニアリングをサポートする最新のアップデートをご紹介します。 インタラクティブなプロンプト・インターフェイスでLLMプロジェクトの実行可能性を評価する プロンプトエンジニアリングは、ユースケースが大規模言語モデル(LLM)で解決できるかどうかを迅速に評価するための優れた方法です。MLflow 2.7 の新しいプロンプト・エンジニアリング UI を使用すると、ビジネス関係者はさまざまなベースモデル、パラ メータ、プロンプトを試して、出力が新しいプロジェクトを開始するのに十分有望かどうかを確認できます。新規のブランク・エクスペリメントを作成するか(既存のエクスペリメントを開く)、「新規実行」をクリックするだけで、インタ

                                新しいLLMOps機能を備えたMLflow 2.7のご紹介
                              • Databricks ❤️ IDE - Qiita

                                ハッピーバレンタイン!DatabricksはVisual Studio Codeが大好きです❤️ この愛すべき日に、Databricksレイクハウスプラットフォームにおける新しくパワフルな開発体験を発表できることを嬉しく思っています:VS Code Extension for Databricksです。 この新たな拡張機能によって、開発者はローカルでコードを記述し、IDEのパワフルなオーサリング機能を活用しつつも、リモートのDatabricksクラスターに接続することができます。IDEによって、開発者は大規模なコードベースにおいて必要となるソースコード管理、モジュール化されたコードのレイアウト、リファクタリングのサポート、インテグレーションされたユニットテストのようなベストプラクティスを活用することができます。 これは開発プロセスでIDEを活用しているチーム向けに計画されている数多くのリリ

                                  Databricks ❤️ IDE - Qiita
                                • Introduction to Databricks notebooks

                                  ノートブックは、データサイエンスと機械学習において、コードを開発して結果を提示するための一般的なツールです。Databricksにおいて、ノートブックはデータサイエンスと機械学習のワークフローを作成し、同僚とコラボレーションするための主要なツールです。Databricksノートブックは、複数言語でのリアルタイムの共同編集、自動バージョン管理、組み込みのデータビジュアライゼーションを提供します。 Databricksノートブックを使用すると、以下のことが可能です。 Python、SQL、Scala、Rを使用してコードを開発できます。 選択したライブラリを使用して環境をカスタマイズできます。 定期的にスケジュールされたジョブを作成し、複数ノートブックのワークフローなどのタスクを自動的に実行できます。 テーブルとボリュームを参照してアクセスします。 結果とノートブックを .html 形式または

                                    Introduction to Databricks notebooks
                                  • 【FDUA】第二回 金融データ活用チャレンジでTableauとDatabricksを使ってみた。|NECネッツエスアイ株式会社(公式)

                                    NECネッツエスアイ データ分析チームの豊川です! 前回に引き続き、現在進行形で参加している【FDUA(※)】第二回 金融データ活用チャレンジの取り組みをご紹介します! データ分析チームのスキルアップを目指して、上位ランクインを目標に🏆 楽しみながらやっていきたいと思います! 応援&いいね👍も、ぜひ!お願いします🤩 ※FDUA=金融データ活用推進協会のことです。 本記事は、データ分析をしている人向けの内容になってます😎 もちろん興味ある人にも読んでいただきたいのですが、用語説明などをいつもより省いていますので、検索しながら読んでみてください👀 前回の記事はこちら! 金融データ活用チャレンジについて「金融データ活用チャレンジ」は、金融データの活用可能性を深化させる業界を挙げた超実践プログラムのデータ分析コンペティションです。 詳細は下記をご覧ください。 はじめに金融データ活用チャレ

                                      【FDUA】第二回 金融データ活用チャレンジでTableauとDatabricksを使ってみた。|NECネッツエスアイ株式会社(公式)
                                    • MLflow 2.7と新たなLLMOps機能のご紹介 - Qiita

                                      プロンプトエンジニアリングの新たなUIとAIゲートウェイのアップデート MLflow 2系のLLMOpsサポートの一部として、MLflow 2.7でプロンプトエンジニアリングをサポートするための最新のアップデートを発表できることを嬉しく思います。 インタラクティブなプロンプトインタフェースによるLLMプロジェクトの実行可能性の評価 プロンプトエンジニアリングは、あるユースケースを大規模言語モデル(LLM)で解決できるかどうかをクイックに評価できる優れた手法です。MLflow 2.7の新たなプロンプトエンジニアリングUIによって、ビジネスのステークホルダーは、新規にプロジェクトをスタートするのに十分なアウトプットを得られるのかどうかを確認するために、様々なベースモデル、パラメータ、プロンプトを用いて実験することができます。インタラクティブなプロンプトエンジニアリングツールにアクセスするには、

                                        MLflow 2.7と新たなLLMOps機能のご紹介 - Qiita
                                      • 【第1回】基本から始める Azure Databricks 【アーキテクチャ】 - NOBTAの気ままにITブログ

                                        Azure 分析基盤サービスとして以下のような様々なサービスが存在します。 Azure Databricks Microsoft Fabric Azure Synapse Analytics HDInsight Azure Stream Analytics Azure Data Lake Analytics 今回は、その中の一つである「Azure Databricks」について、自分の整理も兼ねてまとめてみようと思います。 Azure Databricks とは Azure Databricks の特徴 Azure Databricks のアーキテクチャ Azure Databricks コントロール プレーン Azure Databricks コンピューティング プレーン まとめ 参考URL Azure Databricks とは Databricks は データの取り込み (ETL)、

                                          【第1回】基本から始める Azure Databricks 【アーキテクチャ】 - NOBTAの気ままにITブログ
                                        • RAG MLOps LT大会!!! (2024/05/22 19:00〜)

                                          RAG MLOps LT大会イベント概要 今注目が集まっているLLMを用いたRAG(Retrieval-Augmented Generation)のMLOpsや実用化の知見を共有するLT大会を開催します! RAGや周辺技術を使ったプロダクトやサービスをPoCや本番システムで開発、運用する中で得た知見や困りごと、解決策等を共有する会です。 LT発表したい方は本勉強会の参加申し込み時にLT参加者として申し込みをお願いします。 LT参加の注意事項 発表者のコミュニケーションはMLOpsコミュニティのSlackワークスペース( http://bit.ly/mlops-jp-slack )で行います。登壇申込前にワークスペースに登録し、応募する際にSlackのユーザ名を必ず記載してください。ユーザ名がなく発表の調整ができない場合は発表を取り消しする場合がございます。ご容赦ください。 発表時間は1人約

                                            RAG MLOps LT大会!!! (2024/05/22 19:00〜)
                                          • Delta Lakeを用いてDatabricksでスタースキーマを実装する5つのシンプルなステップ - Qiita

                                            Delta Lakeを用いてどのようにデータウェアハウスとデータマートで使われているスタースキーマから一貫性のあるベストなパフォーマンスを得るのか データウェアハウスを用いるほとんどの開発者は、以前から存在しているスタースキーマに非常に慣れ親しんでいます。1990年代にRalph Kimballによって導入されたスタースキーマは、ビジネスデータをディメンジョン(時間や製品など)とファクト(トランザクションの数量など)に非正規化します。スタースキーマはデータを効率的に格納し、ビジネスの定義の繰り返しによる重複を削減することで履歴とデータの更新を維持し、集計やフィルタリングを高速にします。 BIアプリケーションをサポートするスタースキーマの共通的な実装はルーチンとなっており、数多くのデータモデラーは眠っていても実際にそれらを実装することができるようになっています。Databricksにおいて、

                                              Delta Lakeを用いてDatabricksでスタースキーマを実装する5つのシンプルなステップ - Qiita
                                            • Vector Search・Vectorインデックスの作成と、ドキュメント内の類似検索 - APC 技術ブログ

                                              はじめに このブログで使用したノートブック 前提条件 ノートブックの概要 検証結果 類似検索 おわりに はじめに GLB事業部Lakehouse部の佐藤です。 この記事では、DatabricksでのVectorインデックスの作り方と、Vectorインデックスを使っての類似検索についてご紹介します。 Vector Search(ベクトル検索)は、データポイントをベクトルとして表現し、そのベクトル間の類似度に基づいて検索を行う手法です。 Vectorインデックスは、大量のベクトルデータを効率的に検索するためのデータ構造です。通常のデータベースインデックスと同様に、検索のスピードを向上させるために使用されますが、高次元ベクトルデータに特化しています。 ベクトル検索とインデックスの組み合わせにより、膨大なデータセットの中から類似するデータを高速かつ効率的に見つけることができます。 Databric

                                                Vector Search・Vectorインデックスの作成と、ドキュメント内の類似検索 - APC 技術ブログ
                                              • Databricks AI/BIのウォークスルー - Qiita

                                                Data + AI Summit 2024のキーノートが日本時間での昨夜0時頃からスタートしました。なんとなく目が覚めたのでリアルタイム視聴していました。 Databricks + Tabular Unity CatalogのOSS化 Mosaic AI Model Training Fine-tuning / Mosaic AI Tool Catalog / Mosaic AI Agent Framework / Mosaic AI Agent Evaluation / MLflow 2.14 / Mosaic AI Gateway NVIDIAとのパートナーシップ強化 Liquid Clusteringのクラスタリングキーの自動選択 Databricks AI/BI などなど盛りだくさんであっという間に3時になっていました。Mosaic周りは別記事でカバーするつもりですが、まずは最後に

                                                  Databricks AI/BIのウォークスルー - Qiita
                                                • 「Azureのデータ分析サービスの現在と未来」Data Engineering Study #21 イベントレポート | TROCCO®(トロッコ)

                                                  第20回では「10年戦えるデータ分析入門」と題して、『10年戦えるデータ分析入門』の著者である青木峰郎氏と、Treasure DataのChief Architectを務める古橋貞行氏に、10年先でも戦えるアーキテクチャとはどのようなものなのか、詳しくお話していただきました。 今回の勉強会では、日本マイクロソフト株式会社のお二人にご登壇いただき、Microsoft Azureの概要や特徴についてお話していただきます。また、最近話題の生成AIを活用したMicrosoft Fabricについて、その特徴や活用方法を詳しく解説していただきます。 過去のイベントレポートはこちら 第20回は「Azureのデータ分析サービスの現在と未来」と題して、Microsoft Azureが現在提供しているサービスの概要・特長や、新たなSaaS型データ分析ソリューション Microsoft Fabricについてお

                                                    「Azureのデータ分析サービスの現在と未来」Data Engineering Study #21 イベントレポート | TROCCO®(トロッコ)
                                                  • Databricks認定資格試験の対策方法メモ - Databricks Certified Data Analyst Associateを例に - Qiita

                                                    上記の2,3,4についてお好みのエディタを使ってメモをまとめていくと、試験直前の振り返りに使えて良いと思います。また、ドキュメントでよくわからない点の確認などにChatGPTなどのLLMを壁打ち相手として使うのも良いでしょう。 短いですが、本記事で言いたいことは以上です。 おまけ: Data Analyst Associate 試験対策の実際のメモ 以降はおまけとしてExam Outlineに沿ってData Analyst Associateの試験対策を行った際のメモ書きを記載します。 Section 1: Databricks SQL 1-1 Describe the key audience and side audiences for Databricks SQL. Databricks SQLの主要な対象者とサイド対象者を説明します。 主要な対象者はデータアナリスト サイド対象者と

                                                      Databricks認定資格試験の対策方法メモ - Databricks Certified Data Analyst Associateを例に - Qiita
                                                    • クラウド型データベース比較19社、ガートナーが解説するAWSやグーグルらの動向と導入法

                                                      DBaaS(Database as a Service)の利用拡大はじめ、クラウド型データベース管理システム(以下、クラウドDBMS)市場が拡大している。Amazon Web Services(AWS)やグーグル、マイクロソフト、オラクルといった大手に加えて、DatabricksやSnowflakeなどの新興企業を含めた各社は差別化に向けて独自色の打ち出しに懸命だ。一方、ユーザー側に目を転じると、使いこなしに苦労するところも少なくない。ガートナー シニア ディレクター,アナリストのシンユウ・グ氏がガートナーの各種調査を基に、クラウドDBMS市場の現状とベンダー19社の動向を紹介するとともに、ユーザー企業が直面している課題とその打開策について解説する。 データベース管理システム市場の6割がクラウドに クラウドファーストを追い風に、クラウドデータベース管理システム(クラウドDBMS)市場が急拡

                                                        クラウド型データベース比較19社、ガートナーが解説するAWSやグーグルらの動向と導入法
                                                      • 第9回 LLM 勉強会

                                                        2024年5月28日(火)に国立情報学研究所にて第9回 LLM 勉強会を開催しました。 プログラム LLM-jp 状況報告(黒橋) [資料] 1000億パラメータ規模の日本語LLMの開発(近江) [資料] Databricksにおける生成AIの取り組み(弥生) [資料] 他言語モデルの作成方法について(Peter) [資料] コーパス構築WG(河原) [資料] モデル構築WG(鈴木) [資料] 評価・チューニングWG(宮尾) [資料] 安全性WG(関根) [資料] マルチモーダルWG(岡崎) [資料] 参加者 現地27名・オンライン140名程度

                                                        • メタに挑戦、Databricksもオープンソースモデル開発に参戦 最新モデルが示す意外な日本語能力 | AMP[アンプ] - ビジネスインスピレーションメディア

                                                          Databricksのオープンソースモデル「DBRX」、既存モデルを超える性能 OpenAI、Anthropic、Cohere、グーグルが強い存在感を示す生成AI市場だが、メタを筆頭にオープンソースモデルの展開により、AIコミュニティでの支持を集める企業も増えつつある。 データ管理プラットフォームを提供するDatabricksも最近オープンソースモデルをリリースし、この流れに乗る算段だ。 2023年4月、DatabricksはオープンソースAIモデル「DBRX」を発表した。同モデルは1,320億のパラメータを有する比較的大きなモデルで、言語理解(MMLU)、プログラミング能力(Human Eval)、数学的スキル(GSM 8K)などの主要ベンチマークで、Llama 2-70BやMixtralといった主要なオープンソースモデルを上回る性能を示したとされる。 DBRXの特徴は、「mixture

                                                            メタに挑戦、Databricksもオープンソースモデル開発に参戦 最新モデルが示す意外な日本語能力 | AMP[アンプ] - ビジネスインスピレーションメディア
                                                          • Snowflake×非構造データ ~Notebooksを添えて~

                                                            この記事の対象ユーザー Snowflakeユーザー 「Snowflakeで非構造データを取り扱う必要ってあるの?」と思っている人 非構造データから情報を抽出して何らかの仕事に利用している人 背景 「Data Cloud Summit 2024の発表見てると、やたらAIとの統合を推しているなぁ・・・」 弊社がSnowflakeを導入した当時は、「超高速でコスパの良いDWH、それがSnowflake」「データ共有方法が色々あって、特に社外とのデータコラボレーションが便利そう」という印象が強かったです。この印象は今なお変わっていませんが、それに加えて「データサイエンス」「AI」のキーワードがSnowflakeの顔の1つになってきました。 正直、データサイエンティストの端くれとして嬉しい反面、「Databricksにどんどん似てきているなぁ・・・」「これから製品の導入を検討する会社さんは、両製品の

                                                              Snowflake×非構造データ ~Notebooksを添えて~
                                                            • データエンジニアリング初学者の学習記録(前編 データエンジニアリングとは何か?) - JBS Tech Blog

                                                              本記事では、データエンジニアリング初学者の学習記録として、データエンジニアリングの概要から実践までの内容をまとめています。 今回は前編として、データエンジニアリングおよびAzure Data Factoryについてご紹介します。 データエンジニアリングとは? データエンジニアリングの必要性 データエンジニアリングのプロセス Azure Data Factoryについて 実践するシナリオについて おまけ:ダミーデータを用意する ユーザー情報の作成 Power Platform監査ログの作成 まとめ データエンジニアリングとは? データエンジニアリングはデータサイエンティスト協会が定義している3つのスキルセットの1つです。 (出典:一般社団法人データサイエンティスト協会スキル定義委員会[2023]「2023年度スキル定義委員会活動報告/2023年度版スキルチェックリスト&タスクリスト公開」 具

                                                                データエンジニアリング初学者の学習記録(前編 データエンジニアリングとは何か?) - JBS Tech Blog
                                                              • Unity Catalogのオープンソース化を発表します!

                                                                Translation Review by saki.kitaoka Unity Catalogのオープンソース化を発表できることを非常に嬉しく思います。 これは、クラウド、データ形式、データプラットフォーム全体でデータとAIのガバナンスを行う業界初のオープンソースカタログです。ここでは、Unity Catalogビジョンの最も重要な柱をご紹介します: オープンソースのAPIと実装: OpenAPI仕様に基づいて構築され、Apache 2.0ライセンスのもとでオープンソースのサーバー実装があります。Apache HiveのメタストアAPIやApache IcebergのRESTカタログAPIとも互換性があります。マルチフォーマットサポート: 拡張性があり、Delta Lake、UniForm経由のApache Iceberg、Apache Parquet、CSVなど、すべての形式をサポート

                                                                  Unity Catalogのオープンソース化を発表します!
                                                                • Databricksに対するFAQ - Qiita

                                                                  Databricksソリューションアーキテクトの弥生です。 前回は私が使用したDatabricks学習コンテンツをシェアさせていただきましたが、こちらでは2020年の入社後、多くのお客様とのやりとりの中でいただいたご質問および回答をまとめました。 「Databricksって聞くけど、一体何なの?」と感じている方にとって、本書が一助になれば幸いです。 Databricksの概要 レイクハウスとは何ですか? Databricksが提供するプラットフォームの名称です。Databricksが作った造語であり、由来は従来型データプラットフォームであるデータウェアハウスとデータレイクであり、両者の長所を兼ね備えたプラットフォームであるという意味を込めてレイクハウスとしています。 想定されるエンドユーザーは誰ですか? データエンジニア、データサイエンティスト、SQLアナリスト、MLエンジニアなど機械学習

                                                                    Databricksに対するFAQ - Qiita
                                                                  • 【Databricks】コスト管理ダッシュボードをインポートしてみた - Qiita

                                                                    Account admins can now import a customizable cost management dashboard from the account console into any Unity Catalog workspace in their account. There are two versions of the dashboard, one that monitors account-wide usage, and another for single-workspace usage. アカウント管理者は、アカウントコンソールからアカウント内の任意のUnity Catalogワークスペースにカスタマイズ可能なコスト管理ダッシュボードをインポートできるようになった ダッシュボードには2つのバージョがある アカウント全体の使用状況 単一のワークスペースの

                                                                      【Databricks】コスト管理ダッシュボードをインポートしてみた - Qiita
                                                                    • データエンジニアリング初学者の学習記録(後編 実践) - JBS Tech Blog

                                                                      本記事では、データエンジニアリング初学者の学習記録として、データエンジニアリングの概要から実践までの内容をまとめています。 今回は後編として、Azure Data Factoryの実装手順やパイプラインについてご紹介します。 データの準備 必要な Azure リソースの作成 ストレージアカウント Azure Data Factory Azure SQL Database SQLテーブル Function App Azure Data Factoryでの操作 Linked Service / データセットの作成 パイプラインの作成 データセットの作成 データフロー アクティビティの作成 データの可視化(Power BIとの連携) つまづいた点 まとめ データの準備 今回は以下のデータを使用します。 監査ログ(Power Automate・Power Apps・Power BI) Micros

                                                                        データエンジニアリング初学者の学習記録(後編 実践) - JBS Tech Blog
                                                                      • 「十分な能力があれば十分だ」。GPTより手頃で安価なモデルを追求し始めたAI企業たち

                                                                        カリフォルニア州マウンテンビューで開催されたGoogle I/Oイベントでスピーチするサンダー・ピチャイ最高経営責任者(CEO)。 Jeff Chiu / AP Photo 2024年初め、データブリックス(Databricks)がAI基盤のフラッグシップモデルであるDBRXを発表した際、プレスリリースでは競合他社に比べ、DBRXがいかに多くの点で優れているかをアピールした。特にこのモデルは、2年前にリリースされ、AIの時代に永遠のモデルとされたOpenAIのGPT-3.5を上回ったという。 当時、私はデータブリックスのCEOであるアリ・ゴドシ(Ali Ghodsi)に、なぜ彼らの新しいモデルをさらに新しいGPT-4やGPT-4 Turboではなく、2022年3月に発売されたものと比較するのかと尋ねた。その答えとして、ゴドシはOpenAIのウェブサイトの価格ページを見せた。GPT-4の10

                                                                          「十分な能力があれば十分だ」。GPTより手頃で安価なモデルを追求し始めたAI企業たち
                                                                        • Visualization types

                                                                          構成値: この棒グラフの視覚化では、次の値が設定されています。 X 列: データセット列: o_orderdate 日付レベル: Months Y 列: データセット列: o_totalprice 集計の種類: Sum グループ化 (データセット列): o_orderpriority スタッキング: Stack X 軸名 (デフォルト値を上書き): Order month Y 軸名 (デフォルトの値を上書き): Total price 構成オプション: 棒グラフの構成オプションについては、「 グラフの構成オプション」を参照してください。 SQL クエリー: この棒グラフの視覚化では、次の SQL クエリーを使用してデータ セットを生成しました。

                                                                            Visualization types
                                                                          • Azure Databricks アーキテクチャの概要 - Azure Databricks

                                                                            この記事では、Azure と組み合わせたエンタープライズ アーキテクチャなど、Azure Databricks アーキテクチャの概要について説明します。 大まかなアーキテクチャ Azure Databricks は、"コントロール プレーン" と "コンピューティング プレーン" により動作します。 コントロール プレーンには、Azure Databricks によって Azure Databricks アカウントで管理されるバックエンド サービスが含まれています。 Web アプリケーションは、コントロール プレーン内にあります。 コンピューティング プレーンは、データが処理される場所です。 コンピューティング プレーンには、使用するコンピューティングに応じて次の 2 つの種類があります。 サーバーレス コンピューティングの場合、サーバーレス コンピューティング リソースは、Azure D

                                                                              Azure Databricks アーキテクチャの概要 - Azure Databricks
                                                                            • databricks data engineer associate 模擬試験のチャート式参考書風解説 - Qiita

                                                                              databricksのdata enginner associate試験について模擬試験問題が公開されており、それらの解説 45問全問あり 現在問30まで もありますが、問題の解説のみであり、そもそもどういうことが問われているかについてのチャート式風参考書を作成しました。 各項目について 基本事項の解説→問題→チャートと解答 とチャート式参考書風としています。 特別付録「うんこVACUUMドリル」つき 注: と頑張ったところで日本語の試験問題が始まったのよね。でも参考になると思うので公開します。 筆者環境がAzureなので解説のリンク先はAzureですがAWSでもほぼ同じはずです。 筆者はdata engineer associateに合格しています Databricks Lakehouse Platform / Data Lakehouse 基本事項:データレイクハウスとは、データレイク

                                                                                databricks data engineer associate 模擬試験のチャート式参考書風解説 - Qiita
                                                                              • Salesforceが2024年8月末までにベクトルDBを国内提供、生成AIは10月にベータ版

                                                                                セールスフォース・ジャパンは2024年6月11日、対話型AI(人工知能)アシスタントの「Einstein Copilot」とベクトルデータベースの「Data Cloudベクトルデータベース」を日本で提供すると発表した。Einstein Copilotは日本語対応のベータ版として、2024年10月に提供を始める。Data Cloudベクトルデータベースは、2024年8月末までに日本で提供を始める予定である。米Salesforceは2024年6月6日(現地時間)に、同データベースを一般提供すると発表していた。 Einstein Copilotは、利用企業が持つ独自データを基に、データを要約したり利用者の質問に回答したりできる生成AIサービスだ。Salesforceが事前にプログラムした機能を「Copilot Actions」として提供し、同機能を使うことで利用者はEinstein Copilo

                                                                                  Salesforceが2024年8月末までにベクトルDBを国内提供、生成AIは10月にベータ版
                                                                                • [2024年版] DatabricksにおけるAWS PrivateLinkのバックエンド接続の設定(実践編) - Qiita

                                                                                  注意 ここでは基本的な構成でのウォークスルーを行っています。ご自身のネットワーク要件に基づいて適宜変更してください。 当時は日本語マニュアルもありませんでした。 事前の検討事項 構成 どれを選ぶべきかに関してはこちらを参考にしてください。 バックエンドのみ バックエンド+フロントエンド バックエンド+フロントエンド+公衆回線からのアクセスをシャットダウン クラスターから外部へのアクセスを許可するかどうか リージョン VPCにおけるIPアドレスのサイズ(CIDR) Databricksワークスペースで使用するサブネットは最低2つ必要です。それらのサブネットは異なるアベイラビリティゾーンに存在する必要があります。Databricksの計算資源を構成するノード(1台のドライバー/ワーカー)は2つのIPアドレスを必要とします。このため、あるサブネットに配備できるノードの数は、確保しているIPアドレ

                                                                                    [2024年版] DatabricksにおけるAWS PrivateLinkのバックエンド接続の設定(実践編) - Qiita