並び順

ブックマーク数

期間指定

  • から
  • まで

201 - 240 件 / 861件

新着順 人気順

Databricksの検索結果201 - 240 件 / 861件

  • [翻訳] Spark Architecture: Shuffle - Qiita

    TungstenのShuffleまでカバーされていて、感動してしまったので、翻訳(意訳)してみました。 元記事: Spark Architecture: Shuffle これは Apache Spark のアーキテクチャに関する2本目の記事です。今回は、Spark デザインの中で、もっと面白い Shuffle について詳しく紹介します。前回の記事は、Spark のアーキテクチャとメモリ管理についてでした。 一般的に Shuffle とはなんでしょうか? 電話の履歴リストがテーブルにあり、それぞれの日にどのくらい電話があったかを数える場合を考えてください。この場合は、各レコードを"day"をキーにして(それぞれの電話の回数として)バリューを"1"として変換します。この処理の後、各キーごとのバリューを合計することでそれぞれの日の電話の回数が得られます。しかし、データがクラスタに分散して保存され

      [翻訳] Spark Architecture: Shuffle - Qiita
    • Network performance regressions from TCP SACK vulnerability fixes

      Unified governance for all data, analytics and AI assets

        Network performance regressions from TCP SACK vulnerability fixes
      • TechCrunch

        Even with some criticisms, most VC think that the state's effort to track diversity data is worth it. Databricks has remained a hot startup at a time when interest from investors has cooled across the ecosystem. Just last month the company raised $500 million at an eye-popping $43 billion valuation. T

          TechCrunch
        • Project Tungsten: Bringing Apache Spark Closer to Bare Metal

          Unified governance for all data, analytics and AI assets

            Project Tungsten: Bringing Apache Spark Closer to Bare Metal
          • ポストHadoopと呼ばれる「Apache Spark」にブレークの兆し:第49回 | IT Leaders

            IT Leaders トップ > テクノロジー一覧 > ビッグデータ > 河原潤のITストリーム > ポストHadoopと呼ばれる「Apache Spark」にブレークの兆し:第49回 ビッグデータ ビッグデータ記事一覧へ [河原潤のITストリーム] ポストHadoopと呼ばれる「Apache Spark」にブレークの兆し:第49回 2015年7月8日(水)河原 潤(IT Leaders編集部) リスト ビッグデータを扱うための基盤環境として真っ先に名前が挙がるのが、ご存じ「Apache Hadoop/MapReduce」。一方で、数年前から先進企業/エンジニアの間で“ポストHadoop”と呼ばれている技術があります。UCバークレー・AMPLab発の「Apache Spark」です。先月、IBMが「今後10年間で最も重要なオープンソースプロジェクト」と位置づけてSparkへの注力を宣言する

              ポストHadoopと呼ばれる「Apache Spark」にブレークの兆し:第49回 | IT Leaders
            • Comparison of AI Models across Quality, Performance, Price | Artificial Analysis

              Comparison of Models: Quality, Performance & Price AnalysisComparison and analysis of AI models across key metrics including quality, price, performance and speed (throughput tokens per second & latency), context window & others. Click on any model to see detailed metrics. For more details including relating to our methodology, see our FAQs. Models compared: OpenAI: GPT-3.5 Turbo, GPT-3.5 Turbo (0

                Comparison of AI Models across Quality, Performance, Price | Artificial Analysis
              • CTO楠正憲氏がJapan Digital Designのエンジニア組織を語る──仮想通貨犯追跡からビッグデータ分析・ブロックチェーンの技術開発まで|TECH PLAY Magazine[テックプレイマガジン]

                TOP マガジン インタビュー CTO楠正憲氏がJapan Digital Designのエンジニア組織を語る──仮想通貨犯追跡からビッグデータ分析・ブロックチェーンの技術開発まで 三菱UFJフィナンシャル・グループ(MUFG)が、FinTech事業の深化を狙って2016年に立ち上げた内部組織が、2017年10月にスピンアウトして生まれた会社「Japan Digital Design」。2018年11月には、ホワイトハッカーチームによる仮想通貨ハッキング犯の追跡でメディアにも大きく採り上げられた。CTOである楠正憲氏が作り上げようとするエンジニア組織はどんなものか。そこで働き始めたエンジニアはどんなバックグラウンドを持つ人たちなのか——。 罠を仕掛けて、犯人の送金IPアドレス逆探知に成功 仮想通貨の交換サイト「Zaif」で2018年9月、約70億円分の仮想通貨が盗まれた事件があった。国内外

                  CTO楠正憲氏がJapan Digital Designのエンジニア組織を語る──仮想通貨犯追跡からビッグデータ分析・ブロックチェーンの技術開発まで|TECH PLAY Magazine[テックプレイマガジン]
                • TechCrunch

                  Even with some criticisms, most VC think that the state's effort to track diversity data is worth it. Databricks has remained a hot startup at a time when interest from investors has cooled across the ecosystem. Just last month the company raised $500 million at an eye-popping $43 billion valuation. T

                    TechCrunch
                  • Spark Summit 2014 レポート Day1 - Advanced Technology Lab

                    はじめまして,ATL の石川有です. ただいま 2014-06-30 から 2014-07-02 まで開催される Spark Summit 2014 に参加しています.さっそく1日目に聴講した発表を簡単にまとめてみました.Spark 初学者にとってウォッチすべきは,キーノートのさわりと Databricks 社が開発中の Databricks Cloud の機能についてだと思います.この記事では,Spark とはなにかという基本的なことについては触れませんのでご了承ください.Spark 自体の説明については,後日改めて記事にしたいと思います. Spark がなんぞやというのがわからない人にとっては,この記事を読み進めるのが辛いかもしれません。本記事を読む上で抑えるべきことはつぎの2つです. Apache Spark はビッグデータ関連の Apache プロジェクトの中でもっとも活発なプロジ

                      Spark Summit 2014 レポート Day1 - Advanced Technology Lab
                    • MLOpsの事例やツールの情報収集 - kuromt blog

                      この記事はMLOps Advent Calendar 2020の6日目の記事です。 MLOps関連の情報を入手するのに大変お世話になっている便利なサイト等を紹介します。 情報収集のために毎朝見ているサイトや購読しているメルマガからMLだけに興味があるという人向けに次の条件を満たすものを選びました。 MLのトピックが1/3以上ある 情報の質が高い 定期的に更新されている 更新されている内容が一目で分かる Githubのリポジトリ、Twitterアカウント、Slackのワークスペースは除外 日本語 ML-News 何か新しい話がないかと思ったときにまず見に行くのがこのサイトです。おそらくTwitterのアクティビティを見て掲載する記事が決まっており、Twitterを見ていなくてもここを見るだけで注目度が高い記事を知ることができます。 取り上げられるのは日本語の記事が多いですが海外の記事でも注目

                        MLOpsの事例やツールの情報収集 - kuromt blog
                      • TechCrunch

                        Even with some criticisms, most VC think that the state's effort to track diversity data is worth it. Databricks has remained a hot startup at a time when interest from investors has cooled across the ecosystem. Just last month the company raised $500 million at an eye-popping $43 billion valuation. T

                          TechCrunch
                        • Data & AIのサミットで発表された新機能:DatabricksのEnglish SDK for Apache Sparkを試してみた - Qiita

                          Data & AIのサミットで発表された新機能:DatabricksのEnglish SDK for Apache Sparkを試してみたDatabrickspyspark-ai はじめに DatabricksのイベントData & AI Summitで非常に興味深いソリューションが発表されました。 その名もEnglish SDK for Apache Spark. まだ開発の初期段階とのことですが、すでにGitにも公開されており、試すことができます。 早速、Databricks上で使ってみました。 ノートブック こちらにノートブックを公開しますので、Databricks環境にインポートしてお試しください。 サンプルノートブック 設定 pyspark-aiをインストールします。 LLMを指定します。OPEN AIを利用する場合、Secret Keyを取得し環境変数のOPENAI_API_K

                            Data & AIのサミットで発表された新機能:DatabricksのEnglish SDK for Apache Sparkを試してみた - Qiita
                          • サーバーレスを取り入れたAzure、共同開発できるVisual Studioなど一挙に紹介【de:code 2018】

                            2018年5月22日から2日間、日本マイクロソフトは開発者向けに「de:code 2018」を開催し、同社の開発者向けの最新技術を披露した。テーマに「love to code」と掲げ、開発者がプログラミングに専念できるような環境や利便性を追求していることをアピールした。 3つのコア技術:ユビキタス、AI、マルチセンスとマルチデバイス 初日の基調講演で登壇したのは日本マイクロソフト株式会社 執行役員 常務 デジタルトランスフォーメーション事業本部長 伊藤かつら氏。「マイクロソフトは開発者のみなさんがどのようなイノベーションを提供できるかが大事と考えている」と話し、イベントを通じて開発者の能力や生産性を高め、力づけることを重視するスタンスを示した。 伊藤かつら氏、日本マイクロソフト株式会社 執行役員 常務 デジタルトランスフォーメーション事業本部長 伊藤氏はマイクロソフトの世界観を紹介した。こ

                              サーバーレスを取り入れたAzure、共同開発できるVisual Studioなど一挙に紹介【de:code 2018】
                            • 2016年の象(Hadoop)四方山話

                              最近Hadoopってどうなのよ? 数年前のビッグデータブームは去りましたが、データ量が増え続けていることには変わりありません。IoTが普及し、GPSやヘルスケア、または工場などでセンサーなどのデータを広く集め、リアルタイムで処理、またはオフラインで分析などビジネスに生かす機会が増えています。 ビッグデータの基盤はHadoopだけではありませんが、海外や先進的なウェブ企業での利用から遅れること数年、今年は日本国内でもかなりビジネスでの利用が増えていると感じます。(事例が少ないと思う方も多いかもしれませんが、公開されてないだけですよ!) まだHadoopを知らないという方や間違って理解している人も多いですが、この辺りは別途アドベントカレンダーでまとめてみるかも!? Hadoop関連の書籍も(特に英語版は)順調に増えているので、興味がある方はこちらのリストもどうぞ ->  Hadoop、Spar

                                2016年の象(Hadoop)四方山話
                              • How to Deploy Machine Learning Models

                                Introduction The deployment of machine learning models is the process for making your models available in production environments, where they can provide predictions to other software systems. It is only once models are deployed to production that they start adding value, making deployment a crucial step. However, there is complexity in the deployment of machine learning models. This post aims to

                                • PalantirはSierと変わらない

                                  要点Palantirは、成功しているソフトウェア企業とは異なり、個々の顧客に対しカスタマイズされたスケーラビリティの低いビジネスを運営している。高い企業価値とは裏腹に、旧世代のソフトウェア企業であるSierと何ら変わりがない。 最近、株式公開を計画しているほとんどのユニコーンのように、Palantirは赤字上場をしようとしている。上場目論見書によると、17年目の会社はまだ一度も利益を上げていない。昨年の収益は5億8000万ドルで、7億4200万ドルの赤字だった。 同社は、研究開発よりも販売とマーケティングに多くを費やしている。しかし、ベンチャーキャピタルの支援者たちは、長年にわたって30億ドルを同社に注ぎ込み、最近では260億ドルの評価を得ている。 2020年上半期の収益は前年同期比49%増となり、損失は縮小した。政府機関などがパンデミックデータを分析するためにPalantirの製品を使用

                                    PalantirはSierと変わらない
                                  • https://www.databricks.com/blog/category/generative-ai/mosaic-research

                                    • Real-time Recommendations using Spark Comcast Labs

                                      Databricks is the data and AI company. More than 10,000 organizations worldwide — including Comcast, Condé Nast, Grammarly, and over 50% of the Fortune 500 —...

                                        Real-time Recommendations using Spark Comcast Labs
                                      • ディープラーニング用周辺ツールの充実にも注目

                                        前編(Computer Weekly日本語版 1月9日号掲載)では、Google、Microsoft、Facebookが提供しているディープラーニングフレームワークを紹介した。 後編では、その他のツールセットおよびディープラーニング関連ツール一覧を紹介する。 その他注目のツールセット 多数ある他の主要ライブラリとツールセットにも触れておかなければならない。「Caffe」はディープラーニング用オープンソースのフレームワークで、「畳み込みニューラルネットワーク」(CNN)の構築に使える。CNNは画像分類に使うのが一般的だ。Caffeは多種多様なソフトウェアアーキテクチャをサポートするため、一部の開発者に非常に人気がある。 「Deeplearning4j」はJava仮想マシン(JVM)用のオープンソース分散ディープラーニングライブラリだ。Python開発者には機械学習フレームワーク「scikit

                                          ディープラーニング用周辺ツールの充実にも注目
                                        • 機械学習で生じる問題を解決するPythonライブラリ「MLflow」

                                          2018年6月に開催された「Spark Summit」で、Databricksは「MLflow」という新たなプロジェクトを発表した。Databricksはオープンソースの「Apache Spark」によるクラウドベースのビッグデータ処理に重点を置く企業で、同社のMLflowは機械学習(ML)のためのPythonライブラリだ。 同社のチーフテクノロジストを務めるマテイ・ザハリア氏によると、同氏が率いるチームは、MLに関してよく耳にする問題に対処するアプローチを構築したという。 MLの典型的な課題 データの準備からモデルのトレーニングまで、MLのライフサイクルの「フェーズ」には多種多様なツールがある。 「各フェーズでチームがツールを1つ選ぶ従来のソフトウェア開発とは異なり、MLでは結果が改善するかどうかを確認するため、利用可能な全てのツール(アルゴリズムなど)を試してみる。そのため、MLの開発

                                            機械学習で生じる問題を解決するPythonライブラリ「MLflow」
                                          • 初回が遅い! - マイクロソフト系技術情報 Wiki

                                            2024-07-04 開発支援ツールの自動生成方式 2024-06-17 GitHub Copilot 2024-06-04 GitHub GitHub Actions GitLab GitBucket 2024-05-28 Azure OpenAI Service AzureのAI系サービス Azure Databricks 2022-12-26 RecentDeleted 2024-05-28 Copilot FrontPage 開発ツール 2024-04-30 OSフリーズ 2024-01-24 性能問題のポイント 2023-12-14 ツール類(インデックス) 2023-12-13 ダウンロードのいろいろ 障害対応に使用するツールの一覧 開発支援ツール VBAは何故、最強EUCツールなのか? 構成管理ツール OSSホスティング・サービス Git 2023-11-01 CAL 202

                                            • データインテリジェンスの動向を呟く|Rytm / Quollio

                                              冒頭2023年現在、Generative AIの台頭により”Data is new oil.”という言葉の重みが日に日に増してきている。そんな中、企業向けデータマネジメントを担うツールであった”データカタログ”にも転機が訪れている。ここ数年の欧米動向を見ていると、旧来データカタログと自身を呼んでいた海外ベンダーが、Active Metadata PlatformやData Intelligence Platformへと自身を再定義するに至っている。以前の記事では、前者について説明を行った。本日は、よりエンタープライズ企業へとフォーカスを当てた取り組みである後者について、特に国内状況についての考察を行う。 “Intelligence”とは?Data Intelligenceと似た名前に、Business Intelligenceという概念がある。今となっては”BIツール”として慣れ親しまれ、

                                                データインテリジェンスの動向を呟く|Rytm / Quollio
                                              • Databricks、“オープン”な汎用LLM「DBRX」リリース 商用利用可

                                                米AI企業のDatabricksは3月27日(現地時間)、“オープンな”汎用LLM「DBRX」を発表した。同社によると、DBRXは標準的なベンチマークで既存のすべてのオープンモデルより優れたパフォーマンスを発揮するという。ただし、マルチモーダルではない。 DBRXは、オープンソースプロジェクトMegaBlocksに基づいて構築されたMoE(Mixture of Experts;混合エキスパート)を採用した。このMoEは、他のMoEと比較してトレーニング速度が2倍以上、計算効率も最大2倍になるという。 サイズは1320億パラメータと米MetaのLlama 2のほぼ2倍だが、速度はLlama 2の2倍という。言語理解、プログラミング、数学、ロジックのベンチマークで、Llama 2 70B、仏Mistral AIのMixtral 8x7B、米XのGrok-1、米OpenAIのGPT-3.5を上回

                                                  Databricks、“オープン”な汎用LLM「DBRX」リリース 商用利用可
                                                • MLflowのデータストアを覗いてみる - 株式会社ホクソエムのブログ

                                                  (2020/08/14 flavorについての記載を一部修正) はじめに こんにちは、ホクソエムサポーターの藤岡です。 最近、MLflowを分析業務で使用しているのですが、お手軽に機械学習のモデルや結果が管理できて重宝しています。 また、特定のライブラリに依存しないなど、使い方の自由度も非常に高いところが魅力的です。 ただ、ザ・分析用のPythonライブラリという感じでとにかく色々なものが隠蔽されており、 サーバにつなぐクライアントさえもプログラマあまりは意識する必要がないという徹底っぷりです。 もちろんマニュアル通りに使う分には問題ないですが、 ちゃんと中身を知っておくと自由度の高さも相まって色々と応用が効くようになり、 様々なシチュエーションで最適な使い方をすることができるようになります。 というわけで、今回はMLflowの記録部分を担う、 Experiment, Run, Artif

                                                    MLflowのデータストアを覗いてみる - 株式会社ホクソエムのブログ
                                                  • 10 Papers from ICML and CVPR

                                                    The International Conference on Machine Learning (ICML) and Computer Vision and Pattern Recognition (CVPR) 2016 occurred back-to-back this year. In this post, I’ll cover some of the most exciting advances in research as experienced from an on-the-ground perspective. Unsurprisingly, ICML focused more on fundamental research in an intimate setting while CVPR focused on applications research. Both in

                                                      10 Papers from ICML and CVPR
                                                    • Emerging Architectures for LLM Applications | Andreessen Horowitz

                                                      There are many different ways to build with LLMs, including training models from scratch, fine-tuning open-source models, or using hosted APIs. The stack we’re showing here is based on in-context learning, which is the design pattern we’ve seen the majority of developers start with (and is only possible now with foundation models). The next section gives a brief explanation of this pattern; experi

                                                        Emerging Architectures for LLM Applications | Andreessen Horowitz
                                                      • Apache Spark as a Compiler: Joining a Billion Rows per Second on a Laptop

                                                        Unified governance for all data, analytics and AI assets

                                                          Apache Spark as a Compiler: Joining a Billion Rows per Second on a Laptop
                                                        • Azure Videos | Microsoft Azure

                                                          Products Popular View all products (200+) Azure Virtual Machines Azure Virtual Desktop Azure SQL Microsoft Copilot in Azure PREVIEW Azure AI Services Azure AI Studio Azure Cosmos DB Azure Kubernetes Service (AKS) Azure Arc​ Azure Migrate AI + machine learning Azure Machine Learning Azure AI Services Microsoft Copilot in Azure PREVIEW Azure OpenAI Service Azure AI Studio Azure AI Vision Azure AI Se

                                                          • Apache Spark DataFrames for Large Scale Data Science

                                                            Unified governance for all data, analytics and AI assets

                                                              Apache Spark DataFrames for Large Scale Data Science
                                                            • TechCrunch

                                                              Databricks has remained a hot startup at a time when interest from investors has cooled across the ecosystem. Just last month the company raised $500 million at an eye-popping $43 billion valuation. T

                                                                TechCrunch
                                                              • Hosted Redash End of Life

                                                                What is happening? We are shutting down the hosted Redash service at app.redash.io, effective November 30, 2021. No new customer sign ups are allowed. Existing customers can continue to use the service free of charge until November 30, 2021. Why are you doing this? In order to focus our efforts on establishing best in class experiences for SQL analysts within Databricks as our paid offering. How w

                                                                  Hosted Redash End of Life
                                                                • S3 Select and Glacier Select – Retrieving Subsets of Objects | Amazon Web Services

                                                                  AWS News Blog S3 Select and Glacier Select – Retrieving Subsets of Objects Amazon Simple Storage Service (Amazon S3) stores data for millions of applications used by market leaders in every industry. Many of these customers also use Amazon Glacier for secure, durable, and extremely low-cost archival storage. With S3, I can store as many objects as I want and individual objects can be as large as 5

                                                                    S3 Select and Glacier Select – Retrieving Subsets of Objects | Amazon Web Services
                                                                  • [翻訳] GPT-4 System Card (前編) - Qiita

                                                                    こちらの後半にあるGPT-4 System Cardの翻訳です。前後編の前編です。後編はこちら。Technical Reportはこちら。 Databricksのユーザー会でChatGPTの勉強会やります。 注意 本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。 脚注、参考文献、Appendixなどは本文をご覧ください。 アブストラクト 大規模言語モデル(LLM)は、ブラウジング、音声アシスタント、コーディングアシスタントツールを含む、我々の生活における多くのドメインで活用されており、非常に大きな社会的インパクトをもたらす可能性を持っています。[1, 2, 3, 4, 5, 6, 7]このシステムカードでは、モデルのGPTファミリーの最新のLLMであるGPT-4を分析します。[8, 9, 10]最初に、モデルの制限(例: 実際は誤っているの

                                                                      [翻訳] GPT-4 System Card (前編) - Qiita
                                                                    • Nested Virtualization in Azure | Microsoft Azure Blog

                                                                      Products Popular View all products (200+) Azure Virtual Machines Azure Virtual Desktop Azure SQL Microsoft Copilot in Azure PREVIEW Azure AI Services Azure AI Studio Azure Cosmos DB Azure Kubernetes Service (AKS) Azure Arc​ Azure Migrate AI + machine learning Azure Machine Learning Azure AI Services Microsoft Copilot in Azure PREVIEW Azure OpenAI Service Azure AI Studio Azure AI Vision Azure AI Se

                                                                        Nested Virtualization in Azure | Microsoft Azure Blog
                                                                      • オープンソースのデータ・ディスカバリーおよびメタデータ・エンジン「Amundsen」の概要紹介&クイックスタート実践 | DevelopersIO

                                                                        以前購入した下記書籍『AWSで始めるデータレイク』を切っ掛けにこの書籍を題材にした読書会を始めた、というのはエントリ内でも言及していました。その読書会も今月末の第24回を以て無事最終回を迎える予定です。ほぼ週2回(1回1時間)のペースで駆け抜けた形となりましたが、様々なトピックで大いに盛り上がる内容となりました。 その中でも盛り上がったトピックが『データカタログ』でした。書籍ではAWS Glueのデータカタログが言及・紹介されていましたが、Glueデータカタログ機能そのものの話から、『データカタログ』に求めるもの、また『俺達の欲しいデータカタログ機能はこういうものなのだ』というディスカッションは参加者各位の経験やノウハウ等も相まって熱量が最も多く、また様々な示唆に飛んだ知見を共有することが出来てとても有意義な時間となりました。これだけでも読書会をやった価値があったな、と思った次第です。 そ

                                                                          オープンソースのデータ・ディスカバリーおよびメタデータ・エンジン「Amundsen」の概要紹介&クイックスタート実践 | DevelopersIO
                                                                        • Introducing MLflow: an Open Source Machine Learning Platform

                                                                          Unified governance for all data, analytics and AI assets

                                                                            Introducing MLflow: an Open Source Machine Learning Platform
                                                                          • 存在感薄れつつあるビッグデータ処理ソフト「Spark」、深層学習で巻き返し

                                                                            ビッグデータ処理のオープンソースソフトウエア(OSS)である「Apache Spark」のディープラーニング(深層学習)対応が進んでいる。Sparkの主要開発企業である米Databricksや米Intel、米Microsoft、米Verizon傘下の米Oath(旧Yahoo!)などが、Sparkの深層学習対応に熱心だ。 分散処理ソフトのSparkは、2014年ごろには機械学習の大規模化に欠かせない存在だと認識されていた。しかしその後の深層学習の台頭によって存在感が薄れていた。深層学習の高速化にはGPU(Graphics Processing Unit)が向いていることが分かり、米Googleが公開した「TensorFlow」などGPUに対応した深層学習フレームワークが人気を集めるようになったためだ。 ところがここに来て、Sparkを深層学習に対応させる動きが活発化している(表)。2017年

                                                                              存在感薄れつつあるビッグデータ処理ソフト「Spark」、深層学習で巻き返し
                                                                            • Databricksがオープンな大規模言語モデル「DBRX」をリリース、GPT-3.5やCodeLLaMA-70Bを上回る性能

                                                                              データ分析ツールなどを提供する企業のDatabricksが、2024年3月27日にオープンな汎用大規模言語モデル(LLM)である「DBRX」を発表しました。オープンライセンスでの配布となっており、月間アクティブユーザーが7億人以下の企業は無料で商用利用が可能となっています。 Introducing DBRX: A New State-of-the-Art Open LLM | Databricks https://www.databricks.com/blog/introducing-dbrx-new-state-art-open-llm DBRXはトランスフォーマーのデコーダーを使用するLLMで、「mixture-of-experts(MoE)」アーキテクチャが採用されています。パラメータの合計数は1320億となっていますが、全ての入力に反応するのは360億パラメータのみで、残りのパラメ

                                                                                Databricksがオープンな大規模言語モデル「DBRX」をリリース、GPT-3.5やCodeLLaMA-70Bを上回る性能
                                                                              • NVIDIA、機械学習をGPUで高速化するオープンソースプラットフォーム「RAPIDS」

                                                                                動画やグラフィックス製品のメーカーから人工知能(AI)関連製品の大手企業に転じたNVIDIAは、ドイツのミュンヘンで現地時間10月10日に開催された「GPU Technology Conference」の基調講演で、AIに関してまた新たな一歩を踏み出した。 ただし今回、NVIDIAが発表したのは、新しいGPUでも、ディープラーニングに使用する新たな独自のソフトウェア開発キット(SDK)でもない。今回発表したのは、GPUを利用した高速の分析や機械学習(ML)のための、オープンソースのGPUアクセラレーションプラットフォームだ。 高速なAI処理 一連のライブラリを提供するこの新しいプラットフォーム「RAPIDS」は、「scikit-learn」や「Pandas」にあるようなPythonインターフェースを擁する。ただしRAPIDSでは、1つまたは複数のGPU全体のアクセラレーションに、NVIDI

                                                                                  NVIDIA、機械学習をGPUで高速化するオープンソースプラットフォーム「RAPIDS」
                                                                                • Apache Spark @Scale: A 60 TB+ production use case

                                                                                  Facebook often uses analytics for data-driven decision making. Over the past few years, user and product growth has pushed our analytics engines to operate on data sets in the tens of terabytes for a single query. Some of our batch analytics is executed through the venerable Hive platform (contributed to Apache Hive by Facebook in 2009) and Corona, our custom MapReduce implementation. Facebook has

                                                                                    Apache Spark @Scale: A 60 TB+ production use case