並び順

ブックマーク数

期間指定

  • から
  • まで

161 - 200 件 / 349件

新着順 人気順

Databricksの検索結果161 - 200 件 / 349件

  • HopsFS file system: 100X Times Faster than AWS S3 - Hopsworks

    Many developers believe S3 is the "end of file system history". It is impossible to build a file/object storage system on AWS that can compete with S3 on cost. But what if you could build on top of S3 a distributed file system with a HDFS API that gives you POSIX goodness and improved performance? That’s what we have done with a cloud-native release of HopsFS that is highly available across availa

      HopsFS file system: 100X Times Faster than AWS S3 - Hopsworks
    • Databricks、Google Cloud上でレイクハウスの構築が可能に

      米現地時間2月17日、Databricks(データブリックス)は、Google Cloud上でデータブリックスをグローバル規模で提供するための新たなパートナーシップを発表した。このパートナーシップにより、企業はデータブリックスを使用して、Google Cloud上に、Lakehouseアーキテクチャー(以下、レイクハウス)を構築できるようになるという。 Google Cloud上のデータブリックスは、Google BigQueryのオープンプラットフォームと統合され、Google Kubernetes Engine(GKE)を活用することで、コンテナ化されたクラウド環境でデータブリックスを展開できるようになる。この統合ソリューションにより、企業はAI主導の洞察力を解き放ち、インテリジェントな意思決定を可能にするとともに、最終的にデータ駆動型アプリケーションによるデジタルトランスフォーメーシ

        Databricks、Google Cloud上でレイクハウスの構築が可能に
      • 最近読んだ論文"Guiding Large Language Models via Directional Stimulus Prompting"についてまとめてみます。 - CCCMKホールディングス TECH Labの Tech Blog

        こんにちは、CCCMKホールディングス TECH LABの三浦です。最近は暖かくなってきました。寒い冬に比べると雨が降る日が多くなりましたが、晴れた日は外を歩くととても気持ちがいいです。あっという間に雨の季節が来て外を歩くと汗びっしょりになる夏になってしまうので、それまでに今のちょうどいい気候を楽しんでおこうと思います。 最近はLarge Language Model(LLM)に関する情報を色々と調べています。LLMの情報を調べていると、これからこのLLMとどう付き合っていくのがいいんだろう、考えてしまいます。そんな中、最近読んだ論文で提案されているLLMへのアプローチがこれまでのPrompt Engineeringのものとは少し違い、とても興味深く感じました。今回はこの論文を読んだ内容についてまとめ、感じたことを書きたいと思います。 LLMを使ってみて感じていること LLM、主にGPT-

          最近読んだ論文"Guiding Large Language Models via Directional Stimulus Prompting"についてまとめてみます。 - CCCMKホールディングス TECH Labの Tech Blog
        • AzureではじめるServerless アーキテクチャ事例と4つのキーテクノロジーを解説 Part2

          2019年7月30日、Serverless Community(JP)が主催するイベント「Serverless Meetup Tokyo #12」が開催されました。世界各地で運営されているServerless Architectureやその周辺技術について情報を共有する本コミュニティ。今回は、株式会社Speeeのオフィスにて、3人のエンジニアが知見を共有しました。プレゼンテーション「Azure Serverless 2019 Summer edition」に登壇したのは、 株式会社ゼンアーキテクツの三宅和之氏。講演資料はこちら TypeScriptをサポート 三宅和之氏:個人的にすごくうれしいのが、このTシャツを着ている理由でもあるんですけど、今までもNode.jsでAzure Functionsを作れたんですけれども、TypeScriptが正式利用できるようになって、type-safeな

            AzureではじめるServerless アーキテクチャ事例と4つのキーテクノロジーを解説 Part2
          • ユニコーンは1,000社超え、デカコーンの時代に突入 - BRIDGE(ブリッジ)テクノロジー&スタートアップ情報

            Pexelsのmark glancyによる写真 ピックアップ:The Year Of The Decacorn: 2021 Shatters Records For Number Of New Startups Valued At $10B+ 2021年も後残りわずか、今年のスタートアップ投資を振り返るとコロナ禍もあってなのか、大きく投資額が膨らんだ年になったようです。前半までに世界のスタートアップ各社が集めた資金は30兆円以上とも言われており、当然ながら未公開企業の株価もうなぎのぼりに上がっているわけです。 ユニコーンという言葉があります。かつてビリオンダラークラブという名称だった時期もありましたが、見たことない空想上の存在という意味を込めて、株式公開前に高い評価額をつけた、特に10億ドル以上(日本円のレートで1100億円ぐらい)のスタートアップを指します。 しかし今、この桁が変わろうと

              ユニコーンは1,000社超え、デカコーンの時代に突入 - BRIDGE(ブリッジ)テクノロジー&スタートアップ情報
            • SaaS成功企業には共通する「最初の100万人獲得」のグロース戦略がある…Slack、Stripe、Figma、Databricksのケース

              こんにちは。パロアルトインサイトCEO・AIビジネスデザイナーの石角友愛です。リモートワークが定着するにつれ、以前私が書いた寄稿記事でも紹介したFigmaをはじめとしたB2B向けのSaaSツールの成長が著しくなっています。 通常マーケティングなどが難しいと言われるB2B業界ですが、今回はこのようなB2B向けのSaaSツールを開発している会社が、「最初の100万人のユーザーを獲得するためにどのような戦略をとっていったのか」。また、その後のグロースフェーズにおいてどのようなKPIを作り成長を遂げたのかについて紹介したいと思います。

                SaaS成功企業には共通する「最初の100万人獲得」のグロース戦略がある…Slack、Stripe、Figma、Databricksのケース
              • TechCrunch | Startup and Technology News

                Keeping up with an industry as fast-moving as AI is a tall order. So until an AI can do it for you, here’s a handy roundup of recent stories in the world…

                  TechCrunch | Startup and Technology News
                • The Shift from Models to Compound AI Systems

                  AI caught everyone’s attention in 2023 with Large Language Models (LLMs) that can be instructed to perform general tasks, such as translation or coding, just by prompting. This naturally led to an intense focus on models as the primary ingredient in AI application development, with everyone wondering what capabilities new LLMs will bring. As more developers begin to build using LLMs, however, we b

                    The Shift from Models to Compound AI Systems
                  • Transformer models: an introduction and catalog — 2023 Edition

                    Transformer models: an introduction and catalog — 2023 Edition January 16, 2023 52 minute read This post is now an ArXiV paper that you can print and cite. Update 05/2023 Another pretty large update after 4 months. I was invited to submit the article to a journal, so I decided to enlist some help from some LinkedIn colleages and completely revamp it. First off, we added a whole lot of new models,

                      Transformer models: an introduction and catalog — 2023 Edition
                    • 2024年におけるソフトウェアエンジニアの就職戦略|gaijineers

                      2023年は転職したい方にとって大変な一年でしたが、全く無理なわけではなかったです。私の周りでは、メルカリやSmartNewsのような国内の企業はもちろん、IndeedやGoogleやAppleなどの外国の大手テクノロジー企業からもオファーを受けた人もいました。さらに、GitHubやDatabricksなどの企業も、日本でソフトウェアエンジニアを募集しており、そこで内定をもらった人もいました。 2023年に続いて、2024年も転職は厳しい状況が続くと考えられますが人生は前に進めないといけないので2024は絶対転職を考えている方のためにトレンド(予測)、面接対策や応募戦略をまとめました。 これだけ読んでも転職は成功しないのでなるべくどうするか(アクションアイテム)を書いておきます。 外資ビックテック外資系企業への転職は、以下のような理由から難易度が高くなるでしょう。 レイオフが続いており、安

                        2024年におけるソフトウェアエンジニアの就職戦略|gaijineers
                      • Databricksクイックスタートガイド - Qiita

                        初めてDatabricksを利用される方向けに、マニュアルからピックアップしたコンテンツを翻訳したものになります。全文はDatabricks documentation | Databricks on AWSから参照できます。 注意 本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては英語ドキュメントを参照ください。 こちらは翻訳時点の内容となります。可能な限りアップデートしていきますが、最新の状態でない箇所がある可能性をご了承ください。 AWSでの利用を想定したものとなっています。 誤記、翻訳要望等ございましたら、コメントでご指摘いただけると幸いです。 Databricksフリートライアルへのサインアップ Databricksアカウントのセットアップとワークスペースの作成 Databricksアカウントのセットアップとワークスペースの作成(実践編) Databr

                          Databricksクイックスタートガイド - Qiita
                        • Google Colab + trl で SFT のQLoRAファインチューニングを試す|npaka

                          「Google Colab」+「trl」で「SFT」のQLoRAファインチューニングを試したので、まとめました。 前回 1. trl の SFTTrainer「trl」の「SFTTrainer」で「SFT」(Supervised Fine-tuning) のQLoRAファインチューニングを行います。「trl」は「artidoro/qlora」と比べて設定が多くて大変ですが、SFT後の「DPO」や「RLHF」などの追加学習も可能です。 3. SFTの実行ColabでのSFTの実行手順は、次のとおりです。 (1) Googleドライブのマウント。 # Googleドライブのマウント from google.colab import drive drive.mount("/content/drive")(2) 作業フォルダへの移動。 # 作業フォルダへの移動 !mkdir -p "/conten

                            Google Colab + trl で SFT のQLoRAファインチューニングを試す|npaka
                          • AWS Glue × Apache Iceberg で構築する更新可能なデータレイクテーブル

                            こんにちは。シンプルフォーム株式会社 にてインフラエンジニアをしています、山岸です。 社内向けに運用しているデータ分析基盤について現状抱えているいくつかの課題を克服すべく、最近は更改に向けた検証に取り組んでいます。今回は取り組みの一つである「AWS Glue と Apache Iceberg によるデータレイクテーブル構築」についてご紹介したいと思います。 概要 当社ではデータ分析基盤の ETL 処理に AWS Glue を使用しています。社内のデータ分析業務等のため、RDS データベース等のデータソースから日次で S3 上に構築された DWH に連携しています。 現行のデータ分析基盤では、DB テーブル上のデータを毎日全件洗い替えています。このような処理方法は ETL 実装や問題発生時の復旧が簡単である一方、ETL 処理のコスト効率が悪く、データ量の増加に伴って処理時間も長くなっていきま

                              AWS Glue × Apache Iceberg で構築する更新可能なデータレイクテーブル
                            • “爆速で開発”沖縄銀行のデータ分析基盤 1億件のデータに挑む

                              企業のデジタル化が加速している。それは、金融業界も例外ではない。厳しい生存競争にさらされる地方銀行にとっても、デジタル化による付加価値創造は急務だ。 沖縄銀行の永田真氏(執行役員 システム部長)は「お客さまが本当に望んでいるモノの提案に、膨大な顧客データを活用しきれていなかった」と残念な思いを吐露する。そこで同行は、データ分析基盤をパブリッククラウド「Microsoft Azure」上に構築した。既存のオンプレミス環境で運用・蓄積しているデータを分析するために、モダナイズされたデータ分析基盤を新たに設ける必要に迫られたのだ。 スマートフォンアプリから得られる顧客情報、口座情報などを、データ分析基盤を使って読み解き、顧客のニーズに合った金融商品をベストなタイミングで提案する──そんな未来を、沖縄銀行は描いている。 今回の取り組みは2019年10月に発足し、2~3カ月程度で構築が完了。このうち

                                “爆速で開発”沖縄銀行のデータ分析基盤 1億件のデータに挑む
                              • Dagster: The Data Orchestrator | Dagster Blog

                                August 11, 2020 • 13 minute read • Dagster: The Data Orchestrator As machine learning, analytics, and data processing become more complex and central to organizations, improving the software behind them becomes more urgent. Data within organizations is disorganized and not trusted. Engineers and practitioners feel unproductive and mired in drudgery. Collaboration between data scientists, data engi

                                  Dagster: The Data Orchestrator | Dagster Blog
                                • GitHub - databrickslabs/dolly: Databricks’ Dolly, a large language model trained on the Databricks Machine Learning Platform

                                  Databricks’ Dolly is an instruction-following large language model trained on the Databricks machine learning platform that is licensed for commercial use. Based on pythia-12b, Dolly is trained on ~15k instruction/response fine tuning records databricks-dolly-15k generated by Databricks employees in capability domains from the InstructGPT paper, including brainstorming, classification, closed QA,

                                    GitHub - databrickslabs/dolly: Databricks’ Dolly, a large language model trained on the Databricks Machine Learning Platform
                                  • OpenRouter

                                    Command R+ is a new, 104B-parameter LLM from Cohere. It's useful for roleplay, general consumer usecases, and Retrieval Augmented Generation (RAG). It offers multilingual support for ten key languages to facilitate global business operations. See benchmarks and the launch post here. Use of this model is subject to Cohere's Acceptable Use Policy. DBRX is a new open source large language model devel

                                      OpenRouter
                                    • メダリオンアーキテクチャ

                                      メダリオンアーキテクチャとはメダリオンアーキテクチャとは、レイクハウスのデータを論理的に整理するために用いられるデータ設計を意味します。データがアーキテクチャの 3 つのレイヤー(ブロンズ → シルバー → ゴールドのテーブル)を流れる際に、データの構造と品質を増分的かつ漸次的に向上させることを目的としています。メダリオンアーキテクチャは、「マルチホップ」アーキテクチャとも呼ばれます。 レイクハウスアーキテクチャのメリットシンプルなデータモデルわかりやすく、導入が容易増分 ETL が可能未加工データからのテーブル再作成がいつでも可能ACID トランザクション、タイムトラベルレイクハウスとはレイクハウスは、データレイクとデータウェアハウスの優れた要素を取り入れた新しいデータプラットフォームアーキテクチャです。モダンレイクハウスは、拡張性と性能に優れたデータプラットフォームです。未加工データと

                                        メダリオンアーキテクチャ
                                      • はじめまして。Koalas。

                                        こんにちは。まーやです。先日de:codeのセッションで、Koalasというものがあるよ!と教えていただきました。とても気になるライブラリだったのでとりあえず触ってみることにしました。・・・のブログです。 Koalas とは Databricks 社が開発中のPython分散処理用DataFrameのライブラリです。 https://koalas.readthedocs.io/en/latest/ もともとPySpark DataFrame というSpark用のDataFrameが存在していますが、このPySpark DataFrameはPandasとは少々書き方が異なります。 似ているところも多いけれどもともとの思想がSQL思考(Spark DataFrame)と表計算思考(Pandas)と異なるため、記法に統一感はありません。 そのため、例えば、 「分析チームがpandasを使った分析

                                          はじめまして。Koalas。
                                        • Migrating Apache Spark workloads from AWS EMR to Kubernetes

                                          IntroductionESG research found that 43% of respondents considering cloud as their primary deployment for Apache Spark. And it makes a lot of sense because the cloud provides scalability, reliability, availability, and massive economies of scale. Another strong selling point of cloud deployment is a low barrier of entry in the form of managed services. Each one of the ‘Big Three’ cloud providers co

                                            Migrating Apache Spark workloads from AWS EMR to Kubernetes
                                          • LLMOpsを推進!Azure Log Analyticsを活用したLLMの継続的な監視と改善 - AITC - ISID | AI トランスフォーメンションセンター コラム

                                            こんにちは!AIソリューショングループの太田です。 このコラムでは、Azure Log Analyticsを使ったLLMOpsの実現方法について紹介します。 昨年から大規模言語モデル(LLM)を製品やサービスに組み込む企業が増えています。 しかし、LLMサービスの品質を維持するには、その運用にも注意を払う必要があります。 具体的には、LLMの出力の品質管理や、ユーザーからのフィードバックを元にしたプロンプトの最適化など、継続的な監視と改善が求められています。 これらの運用上の活動にAzure Log Analyticsが役立ちます。 LLMOps(LLM(Large Language Model)+ Ops(Operations))とは LLMOpsは製品に組み込まれたLLMの運用に必要なベストプラクティスの概念を指します。 例えば、LLMの運用ではLLMの出力の監視と評価とプロンプト管理

                                              LLMOpsを推進!Azure Log Analyticsを活用したLLMの継続的な監視と改善 - AITC - ISID | AI トランスフォーメンションセンター コラム
                                            • TechCrunch • Startup and Technology News

                                              Drive Capital was founded by two former Sequoia Capital Partners looking to start anew in the Midwest. But investors in the Columbus, Oh.-based firm have had a bumpy ride of late, and according to our

                                                TechCrunch • Startup and Technology News
                                              • NVIDIAのGPUはコモディティー化するか、快進撃の裏でよみがえる「Ciscoの悪夢」

                                                時価総額が2.6兆ドル(約410兆円)を超え、2.9兆ドルで世界2位の米Apple(アップル)の背中が見えてきた米NVIDIA(エヌビディア)。エヌビディアの専売特許であるGPU(画像処理半導体)の今後を占う連載の第2回は、2つめの死角「コモディティー化」の可能性を検討する。 GPUにとって2つめの死角は低価格化だ。コモディティー化ともいえる。市場参入時には高付加価値を持っていた製品が、市場の活性化や競合の出現などによって他の製品との機能・サービスの差がなくなり、価格競争を余儀なくされる状態を指す。 例えば2010年代に日系電機メーカーが苦しんだ薄型テレビはその典型だろう。当時、売れ筋だった40インチの薄型テレビの店頭実売価格は2009年には14万円程度だったが、3年後の2012年には6万円台と半額以下になった。「3年で半額」という法則はDVDやブルーレイディスクのレコーダーにも当てはまっ

                                                  NVIDIAのGPUはコモディティー化するか、快進撃の裏でよみがえる「Ciscoの悪夢」
                                                • スタースキーマ

                                                  スタースキーマとはスタースキーマとは、データベース内のデータを整理することで理解・分析しやすくなった多次元データモデルで、データウェアハウスやデータベース、データマート、その他のツールに適用できます。スタースキーマの設計は、大規模なデータセットへのクエリを実行するために最適化されています。 1990 年代にラルフ・キンボールによって発表されたスタースキーマは、反復的なビジネス定義の重複を減らすことによってデータの保存や履歴の管理、データの更新を効率的に行い、データウェアハウスでのデータの集計やフィルタリングを高速に行うことができます。 ファクトテーブルとディメンションテーブルスタースキーマは、ビジネスデータをディメンション(時間や商品など)とファクト(金額や数量のトランザクションなど)に非正規化するために使用されます。 スタースキーマの中央には 1 つのファクトテーブルがあり、ビジネスのフ

                                                    スタースキーマ
                                                  • What is Azure NAT Gateway?

                                                    Azure NAT Gateway is a fully managed and highly resilient Network Address Translation (NAT) service. You can use Azure NAT Gateway to let all instances in a private subnet connect outbound to the internet while remaining fully private. Unsolicited inbound connections from the internet aren't permitted through a NAT gateway. Only packets arriving as response packets to an outbound connection can pa

                                                      What is Azure NAT Gateway?
                                                    • RAGを使ってLLMでも最新情報や企業内情報にも対応する | ネットワンシステムズ

                                                      LLMに新たな知識を習得させる方法は3種類あります。LLM全体の再学習、LLM一部の再学習、Promptに情報を埋め込むになります。今回はPromptに情報を埋め込む、RAGについて解説します。 ライター:荒牧 大樹 2007年ネットワンシステムズ入社し、コラボレーション・クラウド製品の担当を経て現在はAI・データ分析製品と技術の推進に従事。最近では次世代の計算環境であるGPU・FPGA・量子コンピュータに注目している。 【更新日】2023/11/8 はじめに Chat-GPTに代表される、LLMに最新の情報やクローズド情報を返してほしい場合に、取りうる手段が3種類あります。 LLM全体の再学習 新規データを加えたデータセットでLLMをゼロから再学習します。コストは膨大となります。 LLMの一部の再学習 Fine Tuningと呼ばれる手法で、LLMの一部を新規データで再学習します。1.の

                                                        RAGを使ってLLMでも最新情報や企業内情報にも対応する | ネットワンシステムズ
                                                      • Athena view と Terraform による宣言的データモデリングとレイクハウスへの道標 - Gunosyデータ分析ブログ

                                                        はじめに こんにちは、DR&MLOps*1 チームの楠です! こちらの記事は Gunosy Advent Calendar 2021 の 13 日目の記事です。 昨日の記事は大曽根さんの『Gunosyの施策運用におけるインスティチューショナルメモリ』でした。 本日は、データ分析の民主化を促進するためのデータレイク上での分析用データマートとしての Athena view の利用方法と、IaC のための Terraform による宣言的な Athena view の定義方法をご紹介します! はじめに 背景 前提知識: Athena における view Athena view の利点 利点1. SQL と view カタログ定義のみからなるので、データ転送ワークフローを組まなくてよい 利点2. テーブルのスキーマを容易に変更できる 利点3. よく利用する共通テーブル式をきちんとテーブルとして定義

                                                          Athena view と Terraform による宣言的データモデリングとレイクハウスへの道標 - Gunosyデータ分析ブログ
                                                        • Databricks、ChatGPT風の大規模言語モデル「Dolly 2.0」。オープンソースで商用利用可能

                                                            Databricks、ChatGPT風の大規模言語モデル「Dolly 2.0」。オープンソースで商用利用可能
                                                          • [レポート] クラスメソッドxメソドロジック共催:イチから始めるデータ活用!『データメッシュによるデータガバナンス編』を開催しました。 | DevelopersIO

                                                            [レポート] クラスメソッドxメソドロジック共催:イチから始めるデータ活用!『データメッシュによるデータガバナンス編』を開催しました。 アライアンス事業部 エンジニアグループ モダンデータスタック(MDS)チームのしんやです。 先日2024年02月20日(火)、クラスメソッド株式会社と株式会社メソドロジックの共催イベント『【毎週開催】メソドロジック社共催!イチから始めるデータ活用!8週連続ウェビナー』の第1回開催回である『データメッシュによるデータガバナンス編』を開催しました。 当エントリではその内容についてレポート致します。 目次 イベント概要 イベントレポート データ活用支援サービスのご紹介 イチから学ぶデータメッシュによるデータガバナンス 全体質疑応答 まとめ イベント概要 第1回目となる今回取り扱うテーマは『データメッシュによるデータガバナンス』です。 イベントレポート データ活用

                                                              [レポート] クラスメソッドxメソドロジック共催:イチから始めるデータ活用!『データメッシュによるデータガバナンス編』を開催しました。 | DevelopersIO
                                                            • RWKV14Bを日本語AlpacaデータセットでLoRAして公開しました(ご家庭で動く!?)|shi3z

                                                              布留川npaka大先生がRWKVのファインチューニングする方法を公開していたのだが、Google Colabでは7Bが限界で14Bは失敗したらしい。 人はいつでも、誰かのお役に立つチャンスを伺っている。 今こそ千載一遇のチャンス!ドスパラ様から我らがMemeplexのために開発していただいた、怒涛のA6000x2マシンが火を吹く時が来た!みんな!パソコン買うならドスパラ!AIやるならドスパラだぜ!忘れないでくれよな!(※ドスパラはMemeplexにスポンサーしています) 大先生がGoogle Colabで14Bの学習に失敗したのは、学習時のメインメモリの消費が80GBを超えてしまったからだそうだ。 ならば大丈夫。我らがドスパラ謹製Memeplexマシンは、A6000(VRAM48GB)を二枚搭載した上に、メインメモリは怒涛の256GB。もともとRAMディスクとして使うことを想定していたもの

                                                                RWKV14Bを日本語AlpacaデータセットでLoRAして公開しました(ご家庭で動く!?)|shi3z
                                                              • Applied-ML Papers

                                                                Curated papers, articles, and blogs on machine learning in production. Designing your ML system? Learn how other organizations did it. Star Table of Contents Data QualityData EngineeringData DiscoveryFeature StoresClassificationRegressionForecastingRecommendationSearch & RankingEmbeddingsNatural Language ProcessingSequence ModellingComputer VisionReinforcement LearningAnomaly DetectionGraphOptimiz

                                                                  Applied-ML Papers
                                                                • Amazon Athenaでペタバイト級のデータレイクを捌ききるFINRA社の事例 #ANT308 #reinvent | DevelopersIO

                                                                  どうも!DA部の春田です。 本記事は、AWS re:Invent 2020のセッション動画、「ANT308: How FINRA operates PB-scale analytics on data lakes with Amazon Athena」のレポート記事です。 English version is here. 個人的に長いこと業務でAthenaを使ってますが、ペタバイト級のデータをAthenaで扱っている事例は珍しく感じました。データを配置するS3側をしっかりチューニングしておけば、DWHとしても問題なく運用できるみたいです。 先日、様々なアップデートが詰め込まれたAthena engine 2.0が発表され、最近ついに東京リージョンでもGAとなりました。ビッグデータ分析基盤の選択肢に、コスパの高いAthenaも敵うようになってきましたね。 概要 FINRA社は、米国でビジネス

                                                                    Amazon Athenaでペタバイト級のデータレイクを捌ききるFINRA社の事例 #ANT308 #reinvent | DevelopersIO
                                                                  • 非中央集権型データマネジメント データメッシュとは

                                                                    データ活用を目指す様々な企業がデータ基盤を整備してきたが、それによる業務変革に成功した企業は多くない。「データを業務に活かす」ためのデータマネジメントとデータアーキテクチャの手法として今注目を浴びている「データメッシュ」を紹介する。 目次データレイクの課題 分断、統合、また分断新たなデータマネジメントのかたち データメッシュデータメッシュによって生まれる価値と課題「現場」主導のデータ活用への挑戦データレイクの課題 分断、統合、また分断この20年以上、データに関わる業界では、「データがサイロ化している、統合しなければならない」と言われ続けてきました。システムや業務ごとのサイロ化を解消し、データを統合すれば新たなインサイトが生まれ、価値を創出できるという言説です。実際、データのサイロ化の課題感は非常に浸透しており、それを解消するための技術や体制を取り入れる企業は多くなっています。 テクノロジー

                                                                      非中央集権型データマネジメント データメッシュとは
                                                                    • Parquet

                                                                      Parquet と Delta Lakeオープンソースの Delta Lake プロジェクトは、Parquet 形式に基づいて構築され、さまざまな機能の追加により拡張されています。追加機能には、クラウドオブジェクトストレージの ACID トランザクション、タイムトラベル、スキーマの拡張、シンプルな DML コマンド(CREATE、UPDATE、INSERT、DELETE、MERGE)などがあります。Delta Lake は、順序付けられたトランザクションログを使用してこれらの重要な機能の多くを実装しています。これにより、クラウドのオブジェクトストレージ上におけるデータウェアハウス機能が可能になります。詳細は、こちらの動画 Delta Lake 詳細編:トランザクションログをご覧ください。

                                                                        Parquet
                                                                      • Nest アプリケーションの基盤となる仕組みを見直す

                                                                        VSCodeでのDatabricks開発もお勧めしたい/I would also recommend Databricks development with VSCode.

                                                                          Nest アプリケーションの基盤となる仕組みを見直す
                                                                        • Modern Data Lakes Overview | Developer.sh | Analytics [ Consulting | System Integration | Services ]

                                                                          BackgroundAs Data volumes grow to new, unprecedented levels, new tools and techniques are coming into picture to handle this growth. One of the fields that evolved is Data Lakes. In this post we'll take a look at the story of evolution of Data Lakes and how modern Data Lakes like Iceberg, Delta Lake are solving important problems. Traditionally Data Warehouse tools were used to drive business inte

                                                                            Modern Data Lakes Overview | Developer.sh | Analytics [ Consulting | System Integration | Services ]
                                                                          • IT部門の「パンク寸前」問題 さらに拍車を掛ける“あのブーム”

                                                                            従業員のスキル格差やコンプライアンス問題、データのサイロ化問題が企業のモダナイゼーションを遅らせている。さらに最近起きたあるブームによって、IT部門の悩みはさらに深刻化している。 Salesforce傘下の統合ソフトウェアベンダーであるMulesoftによると、2023年におけるIT部門によるプロジェクトリクエストは前年比で39%増加したという。これは同社が2024年1月23日に発表した、年次接続性ベンチマークレポートのための調査(技術系意思決定者1050人が対象)に基づいている(注1)。 「データ統合」「人材不足」問題をさらに悪化させる“あのブーム” 従業員のスキル格差とコンプライアンスへの懸念によって、モダイナイゼーションの進捗(しんちょく)が遅れていることが調査で明らかになった。5人のうち4人の回答者が「サイロ化したデータがDX(デジタルトランスフォーメーション)の妨げになっている」

                                                                              IT部門の「パンク寸前」問題 さらに拍車を掛ける“あのブーム”
                                                                            • Software Design 2024年5月号

                                                                              2024年4月18日紙版発売 2024年4月18日電子版発売 B5判/192ページ 定価1,562円(本体1,420円+税10%) Amazon 楽天ブックス ヨドバシ.com Fujisan(定期購読のみ) 電子版 Gihyo Digital Publishing Amazon Kindle 本書のサポートページサンプルファイルのダウンロードや正誤表など 第1特集 型を制する者はTypeScriptを制す もっとTypeScriptの力を引き出そう TypeScriptは大規模開発を目的として,静的型付けの機能を中心にJavaScriptを拡張した言語だと言われています。ですが,TypeScriptの型システムが秘めている力はそれにとどまりません。 本特集では,TypeScriptにおける型の扱い方を基礎から解説し,TypeScriptを本格的に使ううえで避けて通れないUnion型,構造

                                                                                Software Design 2024年5月号
                                                                              • ラムダアーキテクチャ

                                                                                ラムダアーキテクチャとはラムダアーキテクチャとは、膨大なデータ「ビッグデータ」を処理するアプローチです。ハイブリッドアプローチを使用してバッチ処理やストリーム処理メソッドへのアクセスを提供し、任意の関数を計算する問題を解決するために使用されます。ラムダアーキテクチャは3つのレイヤーから構成されています。 バッチレイヤー新しいデータは、データシステムへのフィードとして継続的に提供されます。データはバッチレイヤーとスピードレイヤーに同時に供給されます。全てのデータを一度に調べ、最終的にストリームレイヤー内のデータを修正します。ここでは、多くの ETL と従来型のデータウェアハウスを見つけることができます。このレイヤーは、通常 1 日に 1 回または 2 回、事前定義されたスケジュールを使用して構築されます。バッチレイヤーには、次の 2 つの重要な機能があります。 マスターデータセットの管理バッ

                                                                                  ラムダアーキテクチャ
                                                                                • 「生成AIの力で英語をプログラミング言語に」、Databricksが「English SDK for Apache Spark」を公開

                                                                                  米Databricksは、分散処理フレームワーク「Apache Spark」を自然言語である英語で操作可能にする「English SDK for Apache Spark」を6月29日(現地時間)に公開した。Apache SparkとEnglish SDK for Apache SparkはどちらもApache 2.0ライセンスで公開しているオープンソース・ソフトウェア。 English SDK for Apache Sparkは、Pythonプログラムの中に英語で記述した指示を組み込むことで、Apache Sparkを操作可能にする開発者キット。大きく分けて、データ収集、データフレームの操作、ユーザー定義関数の作成、キャッシングの4種類の機能を提供する。どの機能においても生成AIの力を利用している。 データ収集機能は、Webから必要なデータを検索して、Apache Sparkのデータフレ

                                                                                    「生成AIの力で英語をプログラミング言語に」、Databricksが「English SDK for Apache Spark」を公開