並び順

ブックマーク数

期間指定

  • から
  • まで

121 - 160 件 / 861件

新着順 人気順

Databricksの検索結果121 - 160 件 / 861件

  • オープンソース:コミュニティからビジネス化への道 (a16z) - FoundX Review - 起業家とスタートアップのためのノウハウ情報

    オープンソースのルネッサンスは進行中 フリーからSaaSまでのオープンソースの歴史 オープンソース0.0 – 「フリーソフトウェア時代」 オープンソース1.0 – サポートとサービスの時代 オープンソース2.0 – SaaSとオープンコアの時代 オープンソースの好循環 Business Success Centersを支える三本の柱 プロジェクトコミュニティフィット プロダクトマーケットフィット(PMF) バリューマーケットフィット 事業モデルの選択 クラウドと競争の壕 (moat) 市場開拓——オープンソースはファネルのトップ 第一段階:認知と感心 – 開発者コミュニティのマネジメント 第二段階:検討 – プロダクトマネジメント 第三段階:評価と意図 – 見込み客の獲得とビジネスデベロップメント 第四段階:購入と拡大 – インサイドセールスとフィールドセールス 成功と失敗はどのような姿を

      オープンソース:コミュニティからビジネス化への道 (a16z) - FoundX Review - 起業家とスタートアップのためのノウハウ情報
    • Apple・NVIDIA・AnthropicなどがYouTubeの動画字幕を許可なくAIのトレーニングに利用していたと判明

      IT系メディアのProof Newsが、AppleやAnthrpic、NVIDIAなどがYouTubeに公開されている17万本以上の動画の字幕をAIの学習に許可なく使用していたと指摘しています。 Apple, Nvidia, Anthropic Used Thousands of Swiped YouTube Videos to Train AI https://www.proofnews.org/apple-nvidia-anthropic-used-thousands-of-swiped-youtube-videos-to-train-ai/ YouTube creators surprised to find Apple and others trained AI on their videos | Ars Technica https://arstechnica.com/ai/20

        Apple・NVIDIA・AnthropicなどがYouTubeの動画字幕を許可なくAIのトレーニングに利用していたと判明
      • Apache SparkのWebUI、いろいろ比較してみた

        Sparkを実行できるWebUIをいくつか比較してみました。 対象としたのは下記の3つです。 Apache Zeppelin pyspark + Jupyter(iPython Notebook) spark-notebook Spark付属のSpark Web Interfaceは実行状況のモニタリングやRDDの状態が可視化されていて非常に便利なものなのですが、上記とは毛色が異なるため今回比較対象に入れていません。 Hueのnotebookやdatabricks cloudに関してはまた今度。。。 まずはそれぞれの概要を少しご紹介します。 Apache Zeppelin Apacheが作っているnotebook形式のWeb UIで、対話型実行ができます。 この記事を書いている時点での最新バージョンは0.6.0です。 Scala, Python, SQL(Spark), SQL(Hive)

        • Azure DevOps Services | Microsoft Azure

          Products Popular View all products (200+) Azure Virtual Machines Azure Virtual Desktop Azure SQL Microsoft Copilot in Azure PREVIEW Azure AI Services Azure AI Studio Azure Cosmos DB Azure Kubernetes Service (AKS) Azure Arc​ Azure Migrate AI + machine learning Azure Machine Learning Azure AI Services Microsoft Copilot in Azure PREVIEW Azure OpenAI Service Azure AI Studio Azure AI Vision Azure AI Se

          • TechCrunch

            Even with some criticisms, most VC think that the state's effort to track diversity data is worth it. Databricks has remained a hot startup at a time when interest from investors has cooled across the ecosystem. Just last month the company raised $500 million at an eye-popping $43 billion valuation. T

              TechCrunch
            • TechCrunch

              Even with some criticisms, most VC think that the state's effort to track diversity data is worth it. Databricks has remained a hot startup at a time when interest from investors has cooled across the ecosystem. Just last month the company raised $500 million at an eye-popping $43 billion valuation. T

                TechCrunch
              • TechCrunch

                Even with some criticisms, most VC think that the state's effort to track diversity data is worth it. Databricks has remained a hot startup at a time when interest from investors has cooled across the ecosystem. Just last month the company raised $500 million at an eye-popping $43 billion valuation. T

                  TechCrunch
                • Microsoft Azure - Wikipedia

                  従来のAzureのロゴ Microsoft Azure(略称:Azure)(アジュール)は、マイクロソフトの管理するデータセンターを通してPaaS、IaaSを提供するクラウドコンピューティングサービスである。合計で100を超える数のサービスを提供[1]し、マイクロソフト独自とサードパーティ製の両方の多くのプログラミング言語、ツール、フレームワークが利用できる。IaaS における世界的シェアは21%で2位[2]。 2008年のProfessional Developer Conferenceで発表され[3]、2009年末までのサービス開始前の評価期間を経て、2010年1月に世界21ヶ国で正式にサービスを開始した。2014年3月26日に旧称であるWindows AzureからMicrosoft Azureへの名称変更が発表された[4]。 サービス一覧[編集] Microsoft Azureは世

                    Microsoft Azure - Wikipedia
                  • 「Hadoopはビッグデータの“OSカーネル”」、Hadoop Conference Japan開催

                    オープンソースソフトウエア(OSS)の分散データ処理ソフト「Hadoop」のユーザー会「Hadoop Conference Japan 2014」が2014年7月8日、東京・汐留で開催された。基調講演には、Hadoopのオリジナル開発者であるダグ・カッティング氏(写真1)などが登壇。カッティング氏は「バッチ処理用の『MapReduce』以外の処理方式に対応した現在のHadoopは、ビッグデータを処理する分散OSのカーネルとも言うべき存在になった」と語った。 基調講演にはカッティング氏のほか、日本Hadoopユーザー会の世話役であるリクルートテクノロジーズの米谷修氏やNTTデータの濱野賢一朗氏、「Spark」の開発元である米データブリックス(Databricks)のパトリック・ウェンデル氏、米トレジャーデータの太田一樹氏が登壇した。 NTTデータの濱野氏(写真2)は基調講演の冒頭、2009年

                      「Hadoopはビッグデータの“OSカーネル”」、Hadoop Conference Japan開催
                    • dbtとDataformを比較し、dbtを使うことにした - Attsun blog

                      TL;DRdbt, Dataformについて簡単に紹介dbtDataform比較対応するプラットフォーム主要な機能外部ツールとの接続性運用時のあれこれ両者のPros/Consまとめ私たちの選択どちらを使うべきなのか?選ばれたのは、dbtでしたまとめ最近、業務でDWH / Datamartの整備やデータ品質の担保を効率的に行いたくなる事情があり、調査したところdbtとDataformがツールとして有力そうだったので、比較してみました。 TL;DRdbtは機能が充実しており、カスタマイズするポイントも多く様々な要件に対応できそうです。反面、理解し使いこなすための学習コストがかかります。DataformはWebビューによる開発体験が非常に良いです。機能もほとんどはわかりやすく、迷うことも少ないです。一方、dbtに比較して融通はききづらいです。どちらも十分な機能は備えている素晴らしいツールだと感じ

                      • TechCrunch

                        Even with some criticisms, most VC think that the state's effort to track diversity data is worth it. Databricks has remained a hot startup at a time when interest from investors has cooled across the ecosystem. Just last month the company raised $500 million at an eye-popping $43 billion valuation. T

                          TechCrunch
                        • LLMでガチ勝負するには、1000億円じゃなくて、1兆円必要になっている。。 - Vengineerの戯言

                          はじめに このブログで7月10日、下記のように、「LLMで勝負するには、1000億円必要か?」と書きました。 vengineer.hatenablog.com また、昨日のブログで、MosaicMLがDatabricksに$1.3Bで買収されたということも書きました。 Google、AWS、Microsoftの投資額 Google : Anthropic に最大$2B投資 (2023.10.28) AWS : 最大$4B (2023.09.25) Microsoft : OpenAI $1B (2019 => 複数年で $10B) この他では、 Intel : Stability AI (4000 Gaudi2) Apple : アップル、“Apple GPT”開発に年間数十億ドルものAIサーバーを購入予定か (2023.1024) 2023年には約6億2000万ドル、2024年には47億

                            LLMでガチ勝負するには、1000億円じゃなくて、1兆円必要になっている。。 - Vengineerの戯言
                          • AWS Outposts Server (Graviton2, Xeon) 電力効率検証 - NTT Communications Engineers' Blog

                            はじめに こんにちは、イノベーションセンターの鈴ヶ嶺です。 普段はクラウドサービスをオンプレミス環境でも同様のUI/UXで使用できるハイブリッドクラウド製品の技術検証をしています。 我々は以下のように過去にAWSのサーバ型ハイブリッドクラウドの解説や実施検証などを行ってきました。 engineers.ntt.com engineers.ntt.com このたび、新たにAWS Graviton2搭載のOutposts Serverを導入しさまざまな検証を進めています。 本記事では、AWS Graviton2搭載のOutposts ServerとIntel Xeon搭載のOutposts Serverとの性能差や電力効率を比較した結果を共有します。 まずこれまでのAWS Graviton2, Intel Xeonの比較検証記事の調査結果を共有します。 次に、実際にインテリジェントPDUに接続し

                              AWS Outposts Server (Graviton2, Xeon) 電力効率検証 - NTT Communications Engineers' Blog
                            • [2024年3月版] Databricksのシステムアーキテクチャ

                              2024年3月版のDatabricksのシステムアーキテクチャについて説明します。

                                [2024年3月版] Databricksのシステムアーキテクチャ
                              • Google Colab で LLaMA-Factory を試す|npaka

                                「Google Colab」で「LLaMA-Factory」を試したので、まとめました。 【注意】Google Colab Pro/Pro+のA100で動作確認しています。 1. LLaMA-Factory「LLaMA-Factory」は、WebUIによる簡単操作でLLMを学習できるLLMファインチューニングフレームワークです。 サポートするモデルは、次のとおりです。 サポートする学習法は、次のとおりです。 サポートするデータセットは、次のとおりです。 事前学習データセット ・Wiki Demo (en) ・RefinedWeb (en) ・RedPajama V2 (en) ・Wikipedia (en) ・Wikipedia (zh) ・Pile (en) ・SkyPile (zh) ・The Stack (en) ・StarCoder (en) SFTデータセット ・Stanford

                                  Google Colab で LLaMA-Factory を試す|npaka
                                • Spark DataframeのSample Code集 - Qiita

                                  はじめに:Spark Dataframeとは Spark Ver 1.3からSpark Dataframeという機能が追加されました。特徴として以下の様な物があります。 Spark RDDにSchema設定を加えると、Spark DataframeのObjectを作成できる Dataframeの利点は、 SQL風の文法で、条件に該当する行を抽出したり、Dataframe同士のJoinができる filter, selectというmethodで、条件に該当する行、列を抽出できる groupBy → aggというmethodで、Logの様々な集計ができる UDF(User Defined Function)で独自関数で列に処理ができる SQLで言うPivotもサポート (Spark v1.6からの機能) つまり、RDDのmapやfilterでシコシコ記述するよりもSimple Codeで、且つ高

                                    Spark DataframeのSample Code集 - Qiita
                                  • TechCrunch

                                    Even with some criticisms, most VC think that the state's effort to track diversity data is worth it. Databricks has remained a hot startup at a time when interest from investors has cooled across the ecosystem. Just last month the company raised $500 million at an eye-popping $43 billion valuation. T

                                      TechCrunch
                                    • Apache Hudi を用いてレコード単位で削除可能なデータレイクを構築した話

                                      ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。データ統括本部でYahoo!広告のデータエンジニアをしている江島です。 本記事では、Yahoo!広告のデータ分析環境であるデータレイク上のデータを、Apache Hudi を用いてレコード単位で削除可能にした事例を紹介します。 Yahoo!広告のデータ分析環境 Yahoo!広告における データマーケティングソリューション では、ヤフーの持つ圧倒的な量と質のデータを活用し、消費者理解や広告効果分析を目的としたさまざまな商品を提供しています。 これらの商品を提供するための裏側には広告に関する膨大なログや多種多様なサービスのログを使ってデータ分析や機械学習を行うためのデータ基盤が必要です。データマーケティングソリューションで

                                        Apache Hudi を用いてレコード単位で削除可能なデータレイクを構築した話
                                      • データパイプライン活用における「知見」だけでなく「つらみ」も共有 – Data Pipeline Casual Talk Vol.2 に参加してきた #DPCT | DevelopersIO

                                        前回「第1回」の開催となった「Data Pipeline Casual Talk」、参加レポートについては下記エントリで言及させて頂きましたが、イベントとしては驚異の競争率且つ実際参加した内容も非常に参加者に好評なものとなっておりました。 Data Pipeline Casual Talk - connpass データパイプラインに関する知見をカジュアルに語る! Data Pipeline Casual Talkに参加してきた #DPCT | DevelopersIO その1回目の好評を受けて、早速の「第2回」が予定され、2019年04月17日(水)にイベントとして開催されました。第2回は「ブログ枠」が設けられていましたのでその枠を使って参加を確保。当エントリはその参加レポートとなります。 Data Pipeline Casual Talk Vol.2 - connpass 目次 参加レポ

                                          データパイプライン活用における「知見」だけでなく「つらみ」も共有 – Data Pipeline Casual Talk Vol.2 に参加してきた #DPCT | DevelopersIO
                                        • 日本語LLMをPPOでファインチューニングする - Qiita

                                          TL;DR 3.6Bパラメータの日本語LLMに対し全パラメータをSupervised Fine Tuning (SFT)をした さらにLoRAを使用してProximal Policy Optimization (PPO)を行った 精度を定量評価できるようなタスクでSFT, PPOを行い、PPOにより確かに精度が向上することを確かめた 学習はすべてGoogle ColabのA100 GPU1枚を用いて行った はじめに GPT-3.5などのLLMの学習は以下の3段階で行われています。 Pre-traininig: 大規模なコーパスを用いた言語モデルの事前学習 Supervised Fine Tuning (SFT): 対話形式や指示・応答形式のデータセットを用いたファインチューニング Policy Optimization: 人間にとって好ましい応答をさせるためのファインチューニング(ポリシー

                                            日本語LLMをPPOでファインチューニングする - Qiita
                                          • Open Sourcing TensorFlowOnSpark: Distributed Deep... | Hadoop at Yahoo

                                            By Lee Yang, Jun Shi, Bobbie Chern, and Andy Feng (@afeng76), Yahoo Big ML team Introduction Today, we are pleased to offer TensorFlowOnSpark to the community, our latest open source framework for distributed deep learning on big-data clusters. Deep learning (DL) has evolved significantly in recent years. At Yahoo, we’ve found that in order to gain insight from massive amounts of data, we need to

                                              Open Sourcing TensorFlowOnSpark: Distributed Deep... | Hadoop at Yahoo
                                            • オープンソースLLMの日本語評価結果 - W&Bローンチで誰でも再現可能に|Weights & Biases Japan

                                              Weights & Biases のnoteをフォローしてください LLMの日本語性能ChatGPTが発表されて半年あまりが経ち、世の中は激変しました。少し冷め始めていたAIへの注目は突然急騰し、この新しい技術の可能性を探究すべく、日本では世界的にも突出した数の方々がその動向に関心を持っているようです。 ChatGPTは幅広い言語で高い性能を示している一方で、モデルは公開されておらず、またAPIの利用においてプライバシーや機密性の高いデータを送信することはできないため、オープンソースのモデルにも注目が集まっています。 オープンソースのモデルにもいくつかの系譜があります。 LLaMA:Meta社が公開したアカデミック向けのLLM (商用利用不可) GPT-NeoX:Eleuther AIの開発した完全にオープンソースな技術スタックで開発されたモデル Bloom:BigScienceプロジェク

                                                オープンソースLLMの日本語評価結果 - W&Bローンチで誰でも再現可能に|Weights & Biases Japan
                                              • The Cloud 100

                                                Our eighth annual Cloud 100 list of the world’s best private cloud computing companies, produced in partnership with Bessemer Venture Partners and Salesforce Ventures, comes at a time of significant change to tech’s hottest sector. It’s the first ranking to incorporate a full year of the market contraction’s impact on companies that, until about 18 months ago, were growing at breakneck speed in bo

                                                  The Cloud 100
                                                • GitHub - databricks/scala-style-guide: Databricks Scala Coding Style Guide

                                                  You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                    GitHub - databricks/scala-style-guide: Databricks Scala Coding Style Guide
                                                  • Value Driven DevOps Team

                                                    GitHubを使わずDatabricksだけで お手軽にライブラリ共有やCIが できる環境を作ってみた/Creating an Environment for Easy Library Sharing and CI Using Only Databricks Without GitHub

                                                      Value Driven DevOps Team
                                                    • S3 Select と Glacier Select – オブジェクトのサブセットを取得 | Amazon Web Services

                                                      Amazon Web Services ブログ S3 Select と Glacier Select – オブジェクトのサブセットを取得 Amazon Simple Storage Service (S3) は、各業界のマーケットリーダーが使用する数百万のアプリケーションのデータを保存しています。セキュアで耐久性のある非常に低コストのアーカイブストレージとして、これらの多くのお客様は Amazon Glacier も使用しています。S3 では、望むだけの数のオブジェクトを格納することができますし、個々のオブジェクトは最大5テラバイトとすることができます。オブジェクトストレージのデータは、通常1エンティティ全体としてアクセスされます。そのことは、例えば 5GB のオブジェクトに対してなんらかの要求をすれば、5GB 全てのデータ取得を行うことを意味します。これはオブジェクトストレージとしては自

                                                        S3 Select と Glacier Select – オブジェクトのサブセットを取得 | Amazon Web Services
                                                      • Databricks、無料で使えるオープンソースの大規模言語モデル『Dolly 2.0』をリリース。自社製データセットにより商用利用が可能に

                                                        Databricks、命令追従型LLM『Dolly 2.0』をリリース Dolly 1.0ではできなかった商用利用が可能に 商用利用のためにデータセット「databricks-dolly-15k」を作成 Databricksは、大規模言語モデル(以下、LLM)「Dolly」の最新バージョンである『Dolly 2.0』をリリースし、同社ブログにて発表しました。 Meet Dolly 2.0: the first open-source, instruction-following LLM that’s available for commercial use & doesn’t require you to pay for API access or share data with third parties. Now, anyone can create a powerful LLM th

                                                          Databricks、無料で使えるオープンソースの大規模言語モデル『Dolly 2.0』をリリース。自社製データセットにより商用利用が可能に
                                                        • 「Apache Zeppelin」のインストール方法まとめ - Qiita

                                                          次世代データ分析基盤としてApache Sparkが非常に注目されていますが、データ分析の重要な要素としてデータの可視化(Visualization)が挙げられます。 PythonやRではその辺のツールも充実しています。(Matplotlib, ggplot etc...) さらに、インタラクティブ環境下でコード実行したり、グラフを描画することが可能なiPython NotebookやRStudioなどは分析者にとって非常に便利です。 Apache SparkをiPython Notebookのような環境で動作させるソフトウェアとして、現在Databricksが「Databricks Cloud」を開発しています。 しかし、現在一部のユーザにしか公開されていないため、誰でも気軽に使える環境にはなっていません。そこで、Databricks Cloudと同じような環境を提供してくれる「Apac

                                                            「Apache Zeppelin」のインストール方法まとめ - Qiita
                                                          • Hadoop / Spark Conference Japan 2016に行ってきました | DevelopersIO

                                                            Hadoop / Spark Conference Japan 2016に行ってきましたので、その内容についてレポートします。最近は機械学習とSparkに興味があるためランチはB会場のライトニングトークを聞き、午後はD会場のセッションに参加しました。なお、スライドは順次Hadoop / Spark Conference Japan 2016(2月8日、東京)の講演・LTのプログラム | 日本Hadoopユーザー会に公開されるそうなので、そちらも合わせてご覧下さい。 Keynote まずは午前中のKeynoteです。他にもKeynoteに関する記事を見つけたのこちらも合わせてご覧下さい。 #hcj2016 Hadoop/Spark Conference Japan 2016 午前キーノートのメモ - #garagekidztweetz Hadoop / Spark Conference Ja

                                                              Hadoop / Spark Conference Japan 2016に行ってきました | DevelopersIO
                                                            • TechCrunch

                                                              Even with some criticisms, most VC think that the state's effort to track diversity data is worth it. Databricks has remained a hot startup at a time when interest from investors has cooled across the ecosystem. Just last month the company raised $500 million at an eye-popping $43 billion valuation. T

                                                                TechCrunch
                                                              • TechCrunch

                                                                Even with some criticisms, most VC think that the state's effort to track diversity data is worth it. Databricks has remained a hot startup at a time when interest from investors has cooled across the ecosystem. Just last month the company raised $500 million at an eye-popping $43 billion valuation. T

                                                                  TechCrunch
                                                                • TechCrunch

                                                                  Even with some criticisms, most VC think that the state's effort to track diversity data is worth it. Databricks has remained a hot startup at a time when interest from investors has cooled across the ecosystem. Just last month the company raised $500 million at an eye-popping $43 billion valuation. T

                                                                    TechCrunch
                                                                  • Spark SQL: Manipulating Structured Data Using Apache Spark

                                                                    Unified governance for all data, analytics and AI assets

                                                                      Spark SQL: Manipulating Structured Data Using Apache Spark
                                                                    • Spark 2.0はフロントエンドAPIの創設と10倍の性能向上を目指す。早くも今年の5月頃登場予定。Hadoop Spark Conference Japan 2016

                                                                      Spark 2.0はフロントエンドAPIの創設と10倍の性能向上を目指す。早くも今年の5月頃登場予定。Hadoop Spark Conference Japan 2016 2月8日に都内で開催された、HadoopとSparkをテーマにした国内最大のカンファレンス「Hadoop Spark Conference Japan 2016」の基調講演には、Sparkの開発を進めているDatabricksのReynold Xin氏が登壇。 Xin氏は、現在開発が進んでいるSpark 2.0の概要を紹介しました。セッションの内容をダイジェストで紹介します。 Spark 2.0: What's Next DatabricksのReynold Xin氏(写真左)。

                                                                        Spark 2.0はフロントエンドAPIの創設と10倍の性能向上を目指す。早くも今年の5月頃登場予定。Hadoop Spark Conference Japan 2016
                                                                      • オープンソース大規模言語モデルまとめ、メタのLlama 2が「超重要になる」ワケ

                                                                        オープンソースのLLM(大規模言語モデル)がこれまでにないほど大きな注目を集めている。OpenAIのGPTモデルなどクローズドな大規模言語モデルが圧倒的なシェアを有する状況だが、それらに匹敵するオープンソースのLLMの開発が進んでいる。メタの「Llama 2(ラマツー)」を筆頭に、日本でもそれをベースにした日本語LLM「ELYZA-japanese-Llama-2-13b」が公開された。直近ではメタに対抗して、Databricksも「DBRX」をリリース。オープンソースLLMとは何か、クローズドモデルに比べてどのような利点があるのか。オープンソースLLMが注目される理由を探ってみたい。 バークリー音大提携校で2年間ジャズ/音楽理論を学ぶ。その後、通訳・翻訳者を経て24歳で大学入学。学部では国際関係、修士では英大学院で経済・政治・哲学を専攻。国内コンサルティング会社、シンガポールの日系通信社

                                                                          オープンソース大規模言語モデルまとめ、メタのLlama 2が「超重要になる」ワケ
                                                                        • データレイクの新しいカタチ:Open Table Formatの紹介 - 流沙河鎮

                                                                          はじめに Open Table Formatは次世代のデータレイクの基盤となり得る技術で、徐々に導入事例(末尾に列挙)が増えてきているものの、日本での認知度は発展途上な印象がある。本記事ではOpen Table Format登場の背景を紹介する。執筆にあたって、Apache Iceberg: An Architectural Look Under the CoversとAWSにおける Hudi/Iceberg/Delta Lake の 使いどころと違いについてを特に参考にした。 Open Table Formatとは? Open Table Formatとは、従来のデータレイクの技術的な課題&ユースケースの要請に応える形で登場した、データレイクに最適化されたテーブルフォーマットを指す概念で、上手く活用することでクエリプランニング、実行性能の最適化、効率的なUpdateやDelete、タイム

                                                                            データレイクの新しいカタチ:Open Table Formatの紹介 - 流沙河鎮
                                                                          • Apache Sparkとは何か - Qiita

                                                                            使い始めて3年くらい経ちますが、改めて振り返ってみます。 こちらの記事を書いたりしていますが復習も大事なわけで。 2024/4/12に翔泳社よりApache Spark徹底入門を出版します! その他のDatabricksコアコンポーネントの記事はこちらです。 Apache Sparkプロジェクトの歴史 SparkはDatabricksの創始者たちがUC Berkeleyにいるときに誕生しました。Sparkプロジェクトは2009年にスタートし、2010年にオープンソース化され、2013年にApacheにコードが寄贈されApache Sparkになりました。Apache Sparkのコードの75%以上がDatabricksの従業員の手によって書かれており、他の企業に比べて10倍以上の貢献をし続けています。Apache Sparkは、多数のマシンにまたがって並列でコードを実行するための、洗練され

                                                                              Apache Sparkとは何か - Qiita
                                                                            • A High-Level Grammar of Interactive Graphics

                                                                              Vega-Lite is a high-level grammar of interactive graphics. It provides a concise, declarative JSON syntax to create an expressive range of visualizations for data analysis and presentation. Vega-Lite specifications describe visualizations as encoding mappings from data to properties of graphical marks (e.g., points or bars). The Vega-Lite compiler automatically produces visualization components in

                                                                              • TechCrunch

                                                                                Even with some criticisms, most VC think that the state's effort to track diversity data is worth it. Databricks has remained a hot startup at a time when interest from investors has cooled across the ecosystem. Just last month the company raised $500 million at an eye-popping $43 billion valuation. T

                                                                                  TechCrunch
                                                                                • Google Colab で Llama 3 のファインチューニングを試す |npaka

                                                                                  「Google Colab」での「Llama 3」のファインチューニングを試したので、まとめました。 【注意】Google Colab Pro/Pro+のA100で動作確認しています。 1. Llama 3「Llama 3」は、Metaが開発したオープンモデルです。 2. 学習Colabでの学習手順は、次のとおりです。 (1) Colabのノートブックを開き、メニュー「編集 → ノートブックの設定」で「GPU」の「A100」を選択。 (2) パッケージのインストール。 # パッケージのインストール !pip install -U transformers accelerate bitsandbytes !pip install trl peft wandb !git clone https://github.com/huggingface/trl %cd trl(3) 環境変数の準備。 左

                                                                                    Google Colab で Llama 3 のファインチューニングを試す |npaka