並び順

ブックマーク数

期間指定

  • から
  • まで

41 - 80 件 / 89件

新着順 人気順

Databricksの検索結果41 - 80 件 / 89件

  • Software Design 2024年10月号

    2024年9月18日紙版発売 2024年9月18日電子版発売 B5判/192ページ 定価1,562円(本体1,420円+税10%) Amazon 楽天ブックス ヨドバシ.com Fujisan(定期購読のみ) 電子版 Gihyo Digital Publishing Amazon Kindle 第1特集 再考 設計ドキュメントの課題 二重管理しない,陳腐化させない ITエンジニアにとってドキュメントは悩ましい問題です。関係者との合意形成や情報共有のために必要なものの,コードができあがってくると,コードと同期をとって保守しなければならない気が重い存在となります。世の中には,「ドキュメントはなくせない」とする現場がある一方で,「エンジニアならコードを読めばいい」とする現場もあります。ドキュメントを作る/作らないどちらにも利点と欠点がありますが,それぞれの現場ではどのように利点を活かし,欠点を補

      Software Design 2024年10月号
    • Introduction to Zig

      Welcome Welcome! This is the initial page for the “Open Access” HTML version of the book “Introduction to Zig: a project-based book”, written by Pedro Duarte Faria. This is an open book that provides an introduction to the Zig programming language, which is a new general-purpose, and low-level language for building robust and optimal software. Support the project! If you like this project, and you

      • Preview: Amazon S3 Tables in DuckDB

        The AWS Storage Blog also published a post on this feature, see Streamlining access to tabular datasets stored in Amazon S3 Tables with DuckDB. Iceberg Ahead! In recent years, the Iceberg open table format has become increasingly popular. Major data warehouse platforms such as Databricks, Snowflake, Google BigQuery and AWS have all announced or already implemented support for Iceberg tables. These

          Preview: Amazon S3 Tables in DuckDB
        • AWS Glue × Apache Iceberg で構築する更新可能なデータレイクテーブル

          こんにちは。シンプルフォーム株式会社 にてインフラエンジニアをしています、山岸です。 社内向けに運用しているデータ分析基盤について現状抱えているいくつかの課題を克服すべく、最近は更改に向けた検証に取り組んでいます。今回は取り組みの一つである「AWS Glue と Apache Iceberg によるデータレイクテーブル構築」についてご紹介したいと思います。 概要 当社ではデータ分析基盤の ETL 処理に AWS Glue を使用しています。社内のデータ分析業務等のため、RDS データベース等のデータソースから日次で S3 上に構築された DWH に連携しています。 現行のデータ分析基盤では、DB テーブル上のデータを毎日全件洗い替えています。このような処理方法は ETL 実装や問題発生時の復旧が簡単である一方、ETL 処理のコスト効率が悪く、データ量の増加に伴って処理時間も長くなっていきま

            AWS Glue × Apache Iceberg で構築する更新可能なデータレイクテーブル
          • Llama 3.2: Revolutionizing edge AI and vision with open, customizable models

            Llama 3.2: Revolutionizing edge AI and vision with open, customizable models Today, we’re releasing Llama 3.2, which includes small and medium-sized vision LLMs (11B and 90B), and lightweight, text-only models (1B and 3B) that fit onto edge and mobile devices, including pre-trained and instruction-tuned versions.The Llama 3.2 1B and 3B models support context length of 128K tokens and are state-of-

              Llama 3.2: Revolutionizing edge AI and vision with open, customizable models
            • 効率的なデータ運用の鍵、データオーケストレーションとは何か | gihyo.jp

              データオーケストレーションという言葉を聞いたことがあるでしょうか?データマネジメントにおいて重要な役割を担う概念であり、Future Market Insights社によれば、世界のデータオーケストレーションツール市場は2024年には13億米ドル、2034年までに43億米ドルに成長するとも予測されています(Future Market Insights発表⁠)⁠。 本記事では、データオーケストレーションという言葉にあまり馴染みがない人に向けて、データオーケストレーションとは何か、その意義、よく課題となることについて説明し、そして実践するためのツールやサービスとその導入事例を紹介できればと思います。 データオーケストレーションとは? オーケストレーションという単語はあまり日常では耳馴染みがないかもしれません。楽団を指すオーケストラという言葉の派生語であり、さまざまな要素を組織化、編成することを

                効率的なデータ運用の鍵、データオーケストレーションとは何か | gihyo.jp
              • Amazon Redshift から Snowflake へのデータ基盤移行

                データ基盤を S3 + Redshift から Snowflake に移行し、Snowflake Database として DataHub を構築 主要なデータソースである Aurora MySQL からのデータ連携方式を、従来の「全件洗い替え方式」から dbt incremental モデルを用いた「増分更新方式」に変更 インフラリソースの IaC 管理を Terraform + Terragrunt で行い、アカウントレベルで環境を分離 データレイヤー間のデータ変換を Glue ETL ジョブから dbt に変更 ワークフローエンジンには従来通り AWS Step Functions を利用(変更なし) 移行前の状態シンプルフォームでは、主に金融機関のお客様における法人審査業務を効率化・高度化するための SaaS ソリューションを提供しており、そのために全国 500 万法人に関する様々

                  Amazon Redshift から Snowflake へのデータ基盤移行
                • NVIDIAのGPUはコモディティー化するか、快進撃の裏でよみがえる「Ciscoの悪夢」

                  時価総額が2.6兆ドル(約410兆円)を超え、2.9兆ドルで世界2位の米Apple(アップル)の背中が見えてきた米NVIDIA(エヌビディア)。エヌビディアの専売特許であるGPU(画像処理半導体)の今後を占う連載の第2回は、2つめの死角「コモディティー化」の可能性を検討する。 GPUにとって2つめの死角は低価格化だ。コモディティー化ともいえる。市場参入時には高付加価値を持っていた製品が、市場の活性化や競合の出現などによって他の製品との機能・サービスの差がなくなり、価格競争を余儀なくされる状態を指す。 例えば2010年代に日系電機メーカーが苦しんだ薄型テレビはその典型だろう。当時、売れ筋だった40インチの薄型テレビの店頭実売価格は2009年には14万円程度だったが、3年後の2012年には6万円台と半額以下になった。「3年で半額」という法則はDVDやブルーレイディスクのレコーダーにも当てはまっ

                    NVIDIAのGPUはコモディティー化するか、快進撃の裏でよみがえる「Ciscoの悪夢」
                  • Azure Databricksで試す、レイクハウスでの非構造化ログの分析 - NTT Communications Engineers' Blog

                    この記事は、NTT Communications Advent Calendar 2024 12日目の記事です。 Azure Databricksを使ってレイクハウスアーキテクチャのログ基盤を構築し、 構造化されていないアプリケーションログの保管や加工、分析を試します。 はじめに レイクハウスアーキテクチャ ログ基盤とレイクハウス Azure Databricksでアプリケーションログを分析する Azure Databricksの準備 Terraformを使ったリソース作成 カタログとスキーマの作成 ログの取り込み ログの加工 BronzeからSilver SliverからGold ログの分析 (可視化) まとめ 参考文献 はじめに こんにちは、コミュニケーション&アプリケーションサービス部の吉仲です。 2022年度に入社し、初期配属からメール系システムと文書要約APIの開発・運用業務に取

                      Azure Databricksで試す、レイクハウスでの非構造化ログの分析 - NTT Communications Engineers' Blog
                    • Databricksの認定資格 全部とってみたので体系的にまとめる - Qiita

                      はじめに 株式会社NTTデータ デザイン&テクノロジーコンサルティング事業本部 の nttd-saitouyun です。 最近はDatabricksを勉強してみたいという話をよく聞くようになってきました。その中で必ずと言っていいほど話題に上がるのが「認定資格」です。 「難しいの?」「実用的なの?」「AWSの試験と何が違うの?」「ラーニングパスは?」等々、様々な質問を受けてきました。今回はDatabricksの全7認定(2024年4月時点)に合格した経験から認定試験の全体像について記載します。 注意 難易度や実用性等の評価はあくまで主観となりますのでご注意ください。目線としてはデータエンジニアに近いと思います 本文中に、AWS Certified Data Analytics – Specialty (DAS)について言及する記載がありますが、4/8に試験としては廃止されています。すでに当該

                        Databricksの認定資格 全部とってみたので体系的にまとめる - Qiita
                      • データレイクハウスの概要とそれを支える技術 - Qiita

                        Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? はじめに 近年のデータ基盤技術の界隈では、データレイクハウス(Data Lakehouse) という言葉がよく聞かれるようになってきました。データレイクハウスを最初に提示したのはDatabricks1だと思いますが、最近はMicrosoft Fabric2や他のデータ基盤製品でも採用されるようになってきています。 データレイクハウスを一言で説明すると「データレイクハウスとは、データウェアハウスとデータレイクの良いとこ取りをしたもの」という表現がよくされます。ただ、データウェアハウスもデータレイクも一般利用者向けではなく社内向けのシステム

                          データレイクハウスの概要とそれを支える技術 - Qiita
                        • データベース分野のPhDが考える:なぜデータエンジニアは本気でAIを学ぶべきなのか! - Qiita

                          Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? データベースシステムの博士号を持ち、クラウドプロバイダーでの経験を積み、さらにデータストリーミングのスタートアップ RisingWave を4年間運営してきたエンジニアとして、私はすべてのデータエンジニアがAIを受け入れるべきだと強く信じています。つまり、AIを使い、AIを学び、AIを理解し、そして次のステップとしてAIアプリケーションを構築することです! 私は2024年後半からAIを積極的に推進しています。なぜか? それは、AIが今後の未来にとって絶対に不可欠であり、データインフラ業界全体を破壊的に変革する可能性を秘めていると確信して

                          • Snowflake×Icebergを採用すべきか迷った時に読む記事

                            結論 以下の条件に当てはまれば、Icebergの採用を検討すべきです。 データ量がペタバイトを超える 社内でSnowflake以外のデータ活用製品(Databricks、Redshiftなど)も多く利用している 同一のデータを使う関連グループ・企業が多く存在する Icebergの採用は、特に巨大企業においてメリットが大きいです。 逆に上記の条件に1つも当てはまらない場合は、採用を見送るのがよいでしょう。 Icebergとは何に代わるものなのか? Icebergは、Snowflakeのテーブルを置き換えることができます。 Icebergは完全にSnowflakeから独立した技術であり、Snowflakeの機能ではないことに注意が必要です。 最近Snowflakeが別のツールで作成したIcebergテーブルを、読めるようになっただけと捉えるのが1番実態に近いと思います。(※特定の条件下では書き

                              Snowflake×Icebergを採用すべきか迷った時に読む記事
                            • Databricks におけるデータエンジニアリング

                              Databricksにおけるデータエンジニアリングについて説明します。

                                Databricks におけるデータエンジニアリング
                              • [2024年4月10日号]個人的に気になったModern Data Stack情報まとめ | DevelopersIO

                                さがらです。 Modern Data Stack関連のコンサルタントをしている私ですが、Modern Data Stack界隈は日々多くの情報が発信されております。 そんな多くの情報が発信されている中、この2週間ほどの間で私が気になったModern Data Stack関連の情報を本記事でまとめてみます。 ※注意事項:記述している製品のすべての最新情報を網羅しているわけではありません。私の独断と偏見で気になった情報のみ記載しております。 Modern Data Stack全般 Google Cloud Next '24が開催中 現地時間の2024年4月9日~11日に、Google Cloud Next '24が開催されています。 データ分析基盤に関連するところだと、Gemini in Looker、Gemini in BigQuery、Gemini in Lookerなどの発表が該当すると

                                  [2024年4月10日号]個人的に気になったModern Data Stack情報まとめ | DevelopersIO
                                • [2024年4月24日号]個人的に気になったModern Data Stack情報まとめ | DevelopersIO

                                  さがらです。 Modern Data Stack関連のコンサルタントをしている私ですが、Modern Data Stack界隈は日々多くの情報が発信されております。 そんな多くの情報が発信されている中、この2週間ほどの間で私が気になったModern Data Stack関連の情報を本記事でまとめてみます。 ※注意事項:記述している製品のすべての最新情報を網羅しているわけではありません。私の独断と偏見で気になった情報のみ記載しております。 Modern Data Stack全般 Google Cloud Next '24が開催されました 現地時間の2024年4月9日~11日に、Google Cloud Next '24が開催されました。 発表された機能は以下の公式ブログにまとまっております。 特にModern Data Stackに関連する所だとBigQueryが挙げられると思いますが、Bi

                                    [2024年4月24日号]個人的に気になったModern Data Stack情報まとめ | DevelopersIO
                                  • 「データウェアハウスを構築して」と上司から突然言われた人へ - Qiita

                                    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? はじめに ◆この記事は何? この記事では、次の3つについて解説します データウェアハウスの重要な基本概念 構築時の注意点 学習に役立つ参考資料 ◆対象は? データウェアハウス構築について学びたい人 ◆この記事のねらい 初学者がデータウェアハウスについて何を学べばいいか分かる データウェアハウス構築の注意点がわかる 押さえておくと良いこと 業務データベースと分析データベース データの利用の観点から、データベースは業務データベースと分析データベースに分けることができます。データウェアハウスは分析データベースに相当します。 データベースの利用

                                      「データウェアハウスを構築して」と上司から突然言われた人へ - Qiita
                                    • Perplexity AI、企業向け内部ナレッジ検索とSpaces機能を発表 – AIが変える情報管理の未来 - イノベトピア

                                      Perplexity AI、企業向け内部ナレッジ検索とSpaces機能を発表 – AIが変える情報管理の未来 Last Updated on 2024-10-21 16:03 by admin 2024年10月17日、AI検索エンジンを提供するPerplexity社が、新機能「内部ナレッジ検索(Internal Knowledge Search)」と「Spaces」を発表した。 内部ナレッジ検索は、Perplexity ProとEnterprise Proの有料プラン利用者向けに提供される。この機能により、ユーザーは公開されたWebコンテンツと自社の内部ファイルを同時に検索できるようになる。ただし、検索対象となる内部ファイルは、ユーザーがPerplexityにアップロードしたものに限定される。 Spacesは、AIを活用した研究・コラボレーションハブ機能で、チームメンバーが共同で作業を行え

                                        Perplexity AI、企業向け内部ナレッジ検索とSpaces機能を発表 – AIが変える情報管理の未来 - イノベトピア
                                      • With 10x growth since 2023, Llama is the leading engine of AI innovation

                                        With 10x growth since 2023, Llama is the leading engine of AI innovation Llama models are approaching 350 million downloads to date (more than 10x the downloads compared to this time last year), and they were downloaded more than 20 million times in the last month alone, making Llama the leading open source model family.Llama usage by token volume across our major cloud service provider partners h

                                          With 10x growth since 2023, Llama is the leading engine of AI innovation
                                        • Mochi 1登場:Genmo社がオープンソースAI動画生成モデルを無料公開 – 100億パラメータ! - イノベトピア

                                          Mochi 1登場:Genmo社がオープンソースAI動画生成モデルを無料公開 – 100億パラメータ! Last Updated on 2024-10-29 22:58 by admin Genmo社は2024年10月22日、オープンソースのAI動画生成モデル「Mochi 1(モチワン)」のプレビュー版をリリースしました。テキストプロンプトから短編動画を生成できる本モデルは、Apache 2.0ライセンスで公開され、研究者やデベロッパーが自由に利用・改良できることが特徴です。 主な技術仕様 100億パラメータの拡散モデルを採用 AsymmDiT(非対称拡散トランスフォーマー)アーキテクチャを使用 30fpsで最大5.4秒の動画生成が可能 現行版は480p解像度 2024年内に720p対応のHD版をリリース予定 Genmo AI Mochi 1 – The Best Open Source

                                            Mochi 1登場:Genmo社がオープンソースAI動画生成モデルを無料公開 – 100億パラメータ! - イノベトピア
                                          • 『データプラットフォーム技術バイブル』が発売になります。 - smdmtsの技術メモ

                                            データプラットフォーム技術バイブル 共著者の藪本氏と共同で執筆した『データプラットフォーム技術バイブル』が本日発売になります。 本記事は書籍の内容について紹介いたします。 データプラットフォームは広範囲の技術体系を含み、その全貌を把握することは容易ではありません。 本書ではめまぐるしく変遷するデータプラットフォームの技術を包括的に紹介し、技術選定で求められる観点に関しても解説しています。 開発時に求められる要素技術はもちろん、技術構成の根底に流れる設計思想、理解の前提となるDelta Lakeなどのデータフォーマットの知識、Apache Sparkに代表される分散コンピューティングによる処理方法なども盛り込んでいます。 執筆を開始した2019年には幅広く利用されていた技術で、現在では既に使われなくなってしまったものも数多くありますし、本書で取り上げている技術が、将来利用されなくなる可能性も

                                              『データプラットフォーム技術バイブル』が発売になります。 - smdmtsの技術メモ
                                            • 生成AIのカスタマイズは「5段のハシゴ」、段抜かしのファインチューニングは厳禁

                                              生成AI(人工知能)を業務で活用する際には、大規模言語モデル(LLM)などのカスタマイズが欠かせない。その上で専門家は「LLMのカスタマイズはハシゴ(ラダー)と同じ」と指摘する。カスタマイズは取り組みやすい手法から、一つ一つ試しながら進めていく必要があるとの意味だ。いきなり難しい手法に手を出す「段抜かし」は失敗の元なのだという。 生成AIのカスタマイズに関する注意点を筆者に教えてくれたのは、データ分析基盤を手掛ける米Databricks(データブリックス)でチーフAIサイエンティストを務めるJonathan Frankle(ジョナサン・フランクル)氏だ。 フランクル氏はオープンソースLLMを開発する米MosaicML(モザイクML)の創業者の1人で、データブリックスが2023年7月にモザイクMLを買収した。フランクル氏は現在、データブリックスのチーフサイエンティストとして引き続きLLM開発

                                                生成AIのカスタマイズは「5段のハシゴ」、段抜かしのファインチューニングは厳禁
                                              • Microsoft Ignite 2024 キーノート日本語まとめ - 吉田の備忘録

                                                今年はシカゴで開催されています、Microsoft Ignite 2024!今日はそのIgnite 2024のキーノートでのSatya Nadellaの発表内容をまとめました。 こんなメジャーなプラットフォームの転換期に到達している時代に一緒に過ごせることが楽しみです。この同じ会場で、Windows 3.1が発表されたわけですが、いまのWindowsを形どったのではないかと思います。2015年にIgniteが開催されたわけですが、今日またこの場に戻れることが楽しみです。このキーノートでは、幅広く取り上げたいと思います。 さて、毎回のプラットフォームシフトでは、基礎となる力を深く理解することが重要です。今日はそれをスケーリング法則として話します。Mooreの法則のように、性能が18ヶ月ごとに倍増するのを見てきましたが、今では6ヶ月ごとに倍増するのを見始めています。最近では、スケーリング法則が

                                                  Microsoft Ignite 2024 キーノート日本語まとめ - 吉田の備忘録
                                                • 【Llama 3】ついに出たMeta最新モデル!SonetやGPT-3.5よりもスゴイって本当? | WEEL

                                                  WEELメディア事業部LLMライターのゆうやです。 2024年4月18日、ついにMetaよりLlamaシリーズの最新モデルとなるLlama 3が公開されました! Introducing Meta Llama 3: the most capable openly available LLM to date. Today we’re releasing 8B & 70B models that deliver on new capabilities such as improved reasoning and set a new state-of-the-art for models of their sizes. Today's release includes the first two Llama 3… pic.twitter.com/Q80lVTeS7m — AI at Meta (@

                                                    【Llama 3】ついに出たMeta最新モデル!SonetやGPT-3.5よりもスゴイって本当? | WEEL
                                                  • [2024年6月6日号]個人的に気になったModern Data Stack情報まとめ | DevelopersIO

                                                    さがらです。 Modern Data Stack関連のコンサルタントをしている私ですが、Modern Data Stack界隈は日々多くの情報が発信されております。 そんな多くの情報が発信されている中、この2週間ほどの間で私が気になったModern Data Stack関連の情報を本記事でまとめてみます。 ※注意事項:記述している製品のすべての最新情報を網羅しているわけではありません。私の独断と偏見で気になった情報のみ記載しております。 Data Extract/Load Fivetran 「Fivetran Managed Data Lake Service」を発表 Fivetranが新機能として、「Fivetran Managed Data Lake Service」を発表しました。 基本的には、宛先にS3、Azure Data Lake Storage、Microsoft OneLa

                                                      [2024年6月6日号]個人的に気になったModern Data Stack情報まとめ | DevelopersIO
                                                    • RAGの品質評価フレームワークの選択肢 - Qiita

                                                      Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? RAGの品質評価 最近、LLMコミュニティは自動評価の利用を探求しており、多くの研究者や企業がLLMを使用して自身のLLMアプリケーションの出力を評価しています。 DatabricksがGPT-3.5とGPT-4を評価として使用して、自社のチャットボットアプリケーションを評価した実践は、LLMを自動評価ツールとして使用することが効果的であることを示唆しています。 この方法がRAGベースのアプリケーションを効率的かつコスト効果的に評価することもできるでしょう。 評価のためのフレームワーク RAG評価フレームワークの分野では、RAGAS、A

                                                        RAGの品質評価フレームワークの選択肢 - Qiita
                                                      • Building an Open, Multi-Engine Data Lakehouse with S3 and Python - Tower

                                                        Building an Open, Multi-Engine Data Lakehouse with S3 and Python The idea of open, multi-engine data lakehouses is gaining momentum in the data industry. Here is what has happened in the last six months alone. Last week, the data community was abuzz when AWS announced Iceberg-based S3 Tables at this year's re:Invent. In October, Snowflake launched a managed service for Iceberg metadata catalogs ca

                                                          Building an Open, Multi-Engine Data Lakehouse with S3 and Python - Tower
                                                        • セールスフォース・ジャパン、CRM向け対話型AIアシスタントの日本市場提供予定が10月になる旨を発表

                                                          セールスフォース・ジャパン(以下、Salesforce)は、CRM向け対話型AIアシスタント「Einstein Copilot(ベータ版)」とハイパースケールのデータプラットフォーム「Salesforce Data Cloud」の「Data Cloudベクトルデータベース」を日本市場で提供開始すると発表。 これにより、ユーザー企業は信頼できるデータソースを確保し、SalesforceのCRMアプリで生成AIを活用できるようになるほか、SlackとTableauの最新AIイノベーションを用いて、働き方と分析を加速できるとのこと。 CRM向け対話型AIアシスタント「Einstein Copilot」 「Einstein Copilot」は、SalesforceのすべてのCRMアプリ向けの統合的な対話型AIアシスタント。顧客は自社で保有する信頼できるデータを活用し、質問への回答、コンテンツの要約

                                                            セールスフォース・ジャパン、CRM向け対話型AIアシスタントの日本市場提供予定が10月になる旨を発表
                                                          • Llama-3.1 の概要 |npaka

                                                            以下の記事が面白かったので、簡単にまとめました。 ・Introducing Llama 3.1: Our most capable models to date 1. Llama-3.1 の概要「Llama-3.1」は、一般知識、操縦性、数学、ツールの使用、多言語翻訳の最先端の機能に関して、トップクラスのAIモデルに匹敵する、初めてオープンなモデルです。405Bモデルのリリースにより、イノベーションを加速させ、前例のない成長と探求の機会を得る準備が整いました。最新世代の 「Llama」は、合成データ生成による小規模モデルの改善と学習、およびモデル蒸留など、新しいアプリとモデリングパラダイムを活性化させると確信しています。これは、オープンソースでこの規模で実現されたことのない機能です。 この最新リリースの一環として、8Bモデルと70Bモデルのアップグレード版もリリースします。これらは多言語対

                                                              Llama-3.1 の概要 |npaka
                                                            • DatabricksSQL パフォーマンス・チューニング Tips - Qiita

                                                              はじめに この記事はこれまで実案件において実施したDatabricksSQLパフォーマンスチューニングの作業内容をベースに、実行クエリのボトルネック特定からパフォーマンス改善の手法について共通すると思われるTipsをベストプラクティスとしてまとめたものです。 DatabricksSQLの操作経験がある方を対象に記載しておりますため、DatabrickSQLの機能説明や用語解説及び設定コマンドの詳細等は割愛しておりますが、今回初めてDatabricksSQLをご検討される方でも理解いただけるよう、該当するDatabricksドキュメントリンクも併せて記載しておりますので適宜ご参照ください。 ※ドキュメントへのリンクはAzure Databricksのリンクを使用していますがAWS/CGP上のDatabricksでも同様の機能を提供しています。 DatabricksSQLとは Databric

                                                                DatabricksSQL パフォーマンス・チューニング Tips - Qiita
                                                              • SAP×Databricks戦略提携|Business Data Cloudで実現する次世代エンタープライズAI基盤 - イノベトピア

                                                                ドイツのソフトウェア大手SAP SE(本社:ドイツ・ヴァルドルフ)は2025年2月13日、新しいSaaSプロダクト「SAP Business Data Cloud(BDC)」を発表しました。 データプラットフォーム企業Databricks(本社:米国サンフランシスコ)との戦略的提携により開発されたBDCは、企業の基幹システムデータとAIの統合を実現します。レイクハウスアーキテクチャを採用し、SAP S/4HANA、SAP Ariba、SAP SuccessFactorsなどのSAPアプリケーションデータを、Databricksのデータインテリジェンスプラットフォームとシームレスに統合します。 特徴として、ゼロコピー方式による双方向データ共有とDatabricks Unity Catalogによるガバナンス機能を備えています。既にドイツの化学・消費財大手Henkelが本プラットフォームを活用

                                                                • Llamaとは?最新モデルの性能や日本語対応の状況、活用例などを解説! | スキルアップAI Journal

                                                                  ChatGPTやGeminiなど、さまざまな生成AIサービスが登場しています。その中でも、Meta社が開発したことで注目を集めているのが「Llama」です。2024年4月には最新のAIモデル「Llama3」が発表され、その性能の高さが話題になりました。 この記事では、Llamaの性能や日本語対応状況、活用例などを紹介していきます。Llamaについて詳しく知りたい方、利用を検討している方は、ぜひ参考にしてください。 Llamaとは? Llamaとは、Meta社が開発した大規模言語モデル(LLM)です。読み方は「ラマ」であり、2023年2月に発表されました。 2024年7月現在、LlamaにはLLaMA・Llama2・Llama3の3つのバージョンがあります。中でもLlama3は、性能の高さやオープンソースであることから、大きな注目を集めています。 Llamaのバージョン 現在、Llamaの生

                                                                    Llamaとは?最新モデルの性能や日本語対応の状況、活用例などを解説! | スキルアップAI Journal
                                                                  • DuckDB Is Not a Data Warehouse

                                                                    Before I get to DuckDB, I’ve got three house-cleaning items this week: Bluesky, Materialized View’s one year anniversary, and P99 CONF. Let’s begin with social media. I’ve moved to Bluesky 🦋. Follow me @chris.blue if you’ve enjoyed my Twitter posts over the past 15 years. You can crosspost with Fedica or Buffer if you like. There are some great starter packs to bootstrap your feed, too. Here are

                                                                      DuckDB Is Not a Data Warehouse
                                                                    • データエンジニアのことがちょっとだけわかるnote|Akira Iwasaki @ DataMarket 🏙

                                                                      データエンジニアってどういう人?このnoteを書いたモチベーション今、データエンジニアの需要が少しずつ高くなってきています。 元々、データエンジニアリングの分野自体の歴史は古く、インターネットが広まる前からありました。当時はデータベースエンジニアと呼ばれ、主にOracleやMicrosoft SQLといったリレーショナルデータベース、簡単に言うと表形式のデータを扱うことが多かったですが、それらは大企業の大きなシステムで利用される専門性の強い分野でした。 やがてインターネットが広まり始めると同時にSQLサーバを自前で持つ企業も増え始め、そして2010年ごろビッグデータがバズワードとなると、ビッグデータを扱うための様々な技術が現れ、同時にデータアナリストやデータサイエンティストといった職種も台頭し、データの重要性が理解されはじめてきました。 データサイエンティストなどは、データサイエンティスト

                                                                        データエンジニアのことがちょっとだけわかるnote|Akira Iwasaki @ DataMarket 🏙
                                                                      • awesome-japanese-nlp-resources/docs/huggingface.ja.md at main · taishi-i/awesome-japanese-nlp-resources

                                                                        This list is sorted by downloads as of December 24, 2024. 1107 models are listed. tohoku-nlp/bert-base-japanese BERT base日本語(IPA辞書)これは日本語のテキストで事前学習されたBERTモデルです。 Downloads: 2,148,658 jonatasgrosman/wav2vec2-large-xlsr-53-japanese 日本語の音声認識用に調整されたXLSR-53ラージモデル。Common Voice 6.1、CSS10、JSUTのトレーニングおよび検証データを使用して、facebook/wav2vec2-large-xlsr-53モデルを日本語で調整しました。このモデルを使用する際には、音声入力が16kHzでサンプリングされていることを確 Downloa

                                                                          awesome-japanese-nlp-resources/docs/huggingface.ja.md at main · taishi-i/awesome-japanese-nlp-resources
                                                                        • Snowflakeを凌駕する新星?Apache Icebergで変わるデータ戦略 - Qiita

                                                                          Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 図書館を管理していると想像してください。ただし、整然とした本の棚ではなく、あちこちに散乱したバラバラのページだけがある状況です。必要な情報を見つけるのは悪夢のようで、他の人と共有するのはさらに困難です。これは、データの海に溺れている多くの企業にとっての現実です。Snowflake、Redshift、BigQueryのような従来のデータウェアハウスは秩序を提供しますが、しばしば高額なコストやベンダーロックインという問題を伴います。そこで登場するのが、データ界の新星であるApache Icebergです。しかし、それは単なるコスト削減だけな

                                                                            Snowflakeを凌駕する新星?Apache Icebergで変わるデータ戦略 - Qiita
                                                                          • 7 Lessons from building a small-scale AI application

                                                                            7 Lessons from building a small-scale AI application Jan 22 2025 ChatGPT heralded a seismic shift in software, and one that I felt compelled to understand. So, over the past year, I’ve been building an AI assistant for my past-CEO-self as a pedagogical exercise. It answers questions, gets status reports, and summarizes what’s going on. Reflecting on what I know now, here are my takeaways over the

                                                                              7 Lessons from building a small-scale AI application
                                                                            • 【技術ブログ】データサイエンティストが解説!GeminiのFine-tuning方法の解説とMed-LM|中外製薬公式note

                                                                              こんにちは、中外製薬のデジタル戦略推進部で、データサイエンティストとして機械学習モデルの開発や導入をリードしている徳山です。前回は、AIによるデジタルパソロジーの取り組み事例を紹介しましたが、今回は最近話題の 大規模自然言語モデル (Large Language Model、以降、LLM) の取り組みについて紹介します。 徳山の過去のブログはこちら 大規模自然言語モデル(LLM)とは大規模自然言語モデル(LLM)とは、膨大な量のテキストデータから、単語や文章の意味や文法を学習し、さまざまな自然言語処理タスクにおいて高い性能を発揮する深層ニューラルネットワークのことです。例えば、BERTやGPTなどが有名です。これらのモデルは、事前に一般的なテキストデータで学習された後、特定のタスクに合わせて微調整することで、質問応答、文章生成、機械翻訳、要約、感情分析など、幅広い自然言語処理タスクに対応で

                                                                                【技術ブログ】データサイエンティストが解説!GeminiのFine-tuning方法の解説とMed-LM|中外製薬公式note
                                                                              • vLLMとPagedAttention:LLM推論の革新的技術

                                                                                はじめに 大規模言語モデル(LLM)の世界で、効率的な推論は常に課題となっています。この記事では、その課題に革新的なソリューションを提供する「vLLM」と「PagedAttention」について詳しく解説します。これらの技術が、どのようにLLM推論を高速化し、メモリ使用を最適化しているのかを、初心者にも分かりやすく説明していきます。 解説スレ vLLMとは? vLLMは、オープンソースのLLM推論・サービングエンジンです。その特徴は、「PagedAttention」と呼ばれる新しいメモリ割り当てアルゴリズムを使用していることです。 vLLMの主な特徴 高速処理: HuggingFace Transformers(HF)と比較して最大24倍、HuggingFace Text Generation Inference(TGI)と比較して最大3.5倍のスループットを実現します。 効率的なメモリ使

                                                                                  vLLMとPagedAttention:LLM推論の革新的技術
                                                                                • [論文] SIGMOD/PODS 2024「Amazon Redshift における自動化された多次元データレイアウト」 | DevelopersIO

                                                                                  AWS事業本部コンサルティング部の石川です。昨年のre:Invent2023 で発表された クエリのパフォーマンスを最適化する多次元データレイアウトを発表 (プレビュー)について、データベース研究分野における最も重要な国際会議の1つである SIGMOD/PODS 2024 で、論文が発表されました。まだプレビュー中の新機能について論文をベースに解説します。 SIGMOD’24について、Ippokratis PandisさんもXに投稿しています! Automated multidimensional data layouts in Amazon Redshift 分析データシステムでは、データのスキャンとフィルタリングのパフォーマンスを向上させるためにデータレイアウト技術が使用されています。この論文では、同じようなフィルター条件が頻繁に使用されるデータベース操作に対して既存の技術を上回る新し

                                                                                    [論文] SIGMOD/PODS 2024「Amazon Redshift における自動化された多次元データレイアウト」 | DevelopersIO