並び順

ブックマーク数

期間指定

  • から
  • まで

81 - 120 件 / 861件

新着順 人気順

Databricksの検索結果81 - 120 件 / 861件

  • Replit — How to train your own Large Language Models

    Header ImageHow Replit trains Large Language Models (LLMs) using Databricks, Hugging Face, and MosaicML IntroductionLarge Language Models, like OpenAI's GPT-4 or Google's PaLM, have taken the world of artificial intelligence by storm. Yet most companies don't currently have the ability to train these models, and are completely reliant on only a handful of large tech firms as providers of the techn

      Replit — How to train your own Large Language Models
    • 大規模言語モデルを自社でトレーニング&活用する方法|mah_lab / 西見 公宏

      オンラインIDEを提供しているReplitでは自社で大規模言語モデルをトレーニングしているらしく、そのノウハウがブログ記事にまとめられていたので要約してみました。 なぜ自社で大規模言語モデルをトレーニングするのか?企業が独自に大規模言語モデル(以下、LLMs)をトレーニングすることを決める理由は、データのプライバシーやセキュリティから、アップデートや改良のコントロールの強化まで様々なものがあるが、Replit社ではカスタマイズ性、依存度の低減、コスト効率に重点を置いている。 カスタマイズ性 カスタムモデルをトレーニングすることで、GPT-4のような汎用モデルやCodexのようなコードに特化したモデルではカバーしきれないプラットフォーム固有の機能、用語、コンテキストなどといった特定のニーズや要件に合わせてモデルを調整することができる。例えば、Replitで人気の高いJavascript Re

        大規模言語モデルを自社でトレーニング&活用する方法|mah_lab / 西見 公宏
      • TechCrunch

        Databricks has remained a hot startup at a time when interest from investors has cooled across the ecosystem. Just last month the company raised $500 million at an eye-popping $43 billion valuation. T

          TechCrunch
        • 色々な生成AIモデルをColabで動かして今年を振り返る - ABEJA Tech Blog

          こんにちは、ラボで研究開発をしたりプロトタイプを作っている藤本(X(Twitter))です。ABEJAアドベントカレンダー2023の21日目の記事です。ここ近年、生成AIの勢いが凄いです。最近は一夜明けたら世界が変わっているみたいなことがしょっちゅう起きています。そんな状況なので、なかなか世の中についていくのが難しいのではないかと思います。そこで今回は、これまでに色々と出てきた生成モデルを振り返りつつ、ひたすら思いつく限りColabで動かしまくってみる企画をやってみようかと思います。流石に全部Colabで動かすのは大変でした・・・。 まずは言語を対象として日本語モデルを含む様々なモデルを対象に推論実験を行います。続いて高速化の実験、更にSFTによるInstructionチューニングや、RLHFもやってみます。最後に、ソースコード生成もやってみましょう。次に、画像を対象として、言語同様に色々

            色々な生成AIモデルをColabで動かして今年を振り返る - ABEJA Tech Blog
          • 公開しているモデル・コーパス・ツール

            LLM-jp で開発したモデルやツールを公開しています。コーパスを含む各種データは今後順次公開していく予定です。 公開プラットフォーム モデル: https://huggingface.co/llm-jp ツール: https://github.com/llm-jp 事前訓練済みモデル 13B v1.0 LLM-jp-13B-v1.0 1.3B v1.0 LLM-jp-1.3B-v1.0 チューニング済みモデル 13B v1.1 LLM-jp-13b-dpo-lora-hh_rlhf_ja-v1.1 LLM-jp-13b-instruct-full-dolly_en-dolly_ja-ichikara_003_001-oasst_en-oasst_ja-v1.1 LLM-jp-13b-instruct-lora-dolly_en-dolly_ja-ichikara_003_001-oass

            • Hadoop超える機械学習向きのビッグデータ処理基盤、Spark 1.0が正式公開

              米Apache Software Foundationは、ビッグデータ処理を分散クラスター上で高速に実行できる処理基盤「Spark 1.0」を2014年5月30日(米国時間)に公開した。 HDFSを介してストレージ経由のやり取りが多くなるHadoopと比べて、インメモリー処理を主体とするSparkでは、より高速で低遅延の分析が可能となる。次世代のビッグデータ処理基盤として期待が集まっているフレームワークである。 SparkではHadoopと同じく、処理対象となるビッグデータをHDFSから読み取ることができるが、以後の処理は基本的にインメモリーで行う。このため、機械学習やグラフ計算のように繰り返し型の計算が多い処理を、Hadoopよりも高速に実行できる(関連記事:NECがビッグデータの機械学習を高速化する技術を開発、インメモリー処理やMPIを導入)。 Sparkは、もともと米Universi

                Hadoop超える機械学習向きのビッグデータ処理基盤、Spark 1.0が正式公開
              • 秘密主義のアップル、OSS利用を公表した狙い

                秘密主義で有名な米アップル(Apple)が、知られざる社内ビッグデータ環境の一端を明らかにした。2018年6月4~6日(米国時間)に米サンフランシスコで開催された「Spark + AI Summit 2018」で、オープンソースソフトウエア(OSS)の分散データ処理ソフト「Apache Spark」の利用事例を公表したのだ。 アップルが社内におけるOSSの利用事例を公開するのは珍しい。5日の基調講演には情報セキュリティ部門に所属するドミニク・ブレジンスキー(Dominique Brezinski)氏が登壇して、セキュリティ監視や不正検出にSparkを活用していることを紹介した。6日の技術セッションでも、社内に構築するストレージ容量1エクサバイトを超えるSparkクラスターの詳細や、Spark用のリソーススケジューラーを自社開発した事情などを説明している。 アップルはSparkを使ううえで、

                  秘密主義のアップル、OSS利用を公表した狙い
                • TechCrunch

                  Even with some criticisms, most VC think that the state's effort to track diversity data is worth it. Databricks has remained a hot startup at a time when interest from investors has cooled across the ecosystem. Just last month the company raised $500 million at an eye-popping $43 billion valuation. T

                    TechCrunch
                  • Spark内部構造解説ドキュメントのリンク集 - Qiita

                    Apache Sparkの内部構造・動作について説明している情報源を紹介します(今後、随時更新していきたいと思いますので、誤り・他の情報源などありましたらお知らせください)。 (翻訳を除き)全て英語のスライド・文書ですが、長い文が書かれているものは少ないので、理解できるかと思います。 全体像 A Deeper Understanding of Spark’s Internals https://spark-summit.org/2014/wp-content/uploads/2014/07/A-Deeper-Understanding-of-Spark-Internals-Aaron-Davidson.pdf Execution modelとShuffleに絞って解説しています(Cachingについては説明していません) Spark Architecture http://0x0fff.c

                      Spark内部構造解説ドキュメントのリンク集 - Qiita
                    • Uberやトヨタ、CIAが採用、ビッグデータの次の主役「Spark」

                      正式版の公開から1年しか経っていないにも関わらず、「Uber」や「Airbnb」といった注目の新興企業や、トヨタ自動車のような巨大企業がこぞって採用し、米IBMが「データ分野で今後10年間の最重要オープンソースソフトウエア(OSS)」と呼んで、3500人もの研究者や開発者を投入し始めたビッグデータ処理ソフトがある。「Spark(スパーク)」だ。 2015年6月15~17日(米国時間)には米国サンフランシスコ市でユーザーカンファレンス「Spark Summit 2015」が開催され、2000人ものユーザーが集まった(写真1)。 同カンファレンスでは、タクシー配車サービスの米Uber Technologies、民家をホテルとして貸し出す米Airbnb、トヨタ自動車の米国法人、中国Baidu、さらには米中央情報局(CIA)などが、Sparkの活用事例を公表。IBMもこのイベントに合わせて、350

                        Uberやトヨタ、CIAが採用、ビッグデータの次の主役「Spark」
                      • LLM のデータセットまとめ|npaka

                        LLMのデータセットをまとめました。 1. 事前学習データセット1-1. Text・Wikipedia (ja) ・fujiki/wiki40b_ja ・shisa-pretrain-en-ja-v1 (ja) ・augmxnt/shisa-pretrain-en-ja-v1 ・Wikipedia (en) ・Wiki Demo (en) ・RefinedWeb (en) ・RedPajama V2 (en) ・Pile (en) ・SkyPile (zh) ・The Stack 2 (en) ・The Stack (en) ・StarCoder (en) 1-2. Code・The Stack 2 (en) ・The Stack (en) ・StarCoder (en) 2. SFTデータセット2-1. Instruction・ichikara-instruction (ja) ・ich

                          LLM のデータセットまとめ|npaka
                        • Machine Learning Trends You Need to Know - Gradient Flow

                          Insights and trends that will help you navigate the AI landscape. By Assaf Araki and Ben Lorica. Automation and democratization are on the rise AutoML tools are designed to automate the process of training and deploying machine learning. Such tools have progressed to the point where they can produce adequate models for many use cases. Moreover, in domains where model hubs and foundation models (e.

                            Machine Learning Trends You Need to Know - Gradient Flow
                          • みなさん、データのメタデータ管理ってどうやってますか? #datatech-jp レポート|よしむら@データマネジメント担当

                            メタデータの価値と意義データ基盤作ってもメタデータがないと必要なデータを発見するのは難しい。 テーブルの物理名とデータの中身だけでは想像はできるけど、意外とわからない。 また、データ自体の意味以外にも制約条件とか利用者情報などがあり、そういうメタデータを整備することでデータ活用ができる。 メタデータの種類システム基礎系:DDLとか ビジネス系:活用方法 関連性:リネージやER図 統制系:品質情報 セキュリティ情報:アクセス権限情報 システム運用系:ジョブ実行ログ ソーシャル系:利用者のレビューやアクセス頻度 メタデータの管理とデータカタログメタデータを管理するためのツールとしてはデータカタログがある。 データカタログは銀の弾丸だと思われがちで、いいデータカタログがあればだれもが使ってデータ利活用が進むと思われがちだが… 実際データカタログを入れたところで、メタデータは入力されずカタログ・ゴ

                              みなさん、データのメタデータ管理ってどうやってますか? #datatech-jp レポート|よしむら@データマネジメント担当
                            • Free Dolly: Introducing the World's First Truly Open Instruction-Tuned LLM

                              Unified governance for all data, analytics and AI assets

                                Free Dolly: Introducing the World's First Truly Open Instruction-Tuned LLM
                              • グーグルが恐れる オープンソース生成AI、 脆く危ういブームの実態

                                The open-source AI boom is built on Big Tech’s handouts. How long will it last? グーグルが恐れる オープンソース生成AI、 脆く危ういブームの実態 チャットGPT/GPT-4の対抗馬となるオープンソースの生成AIモデルの発表がこの春相次ぎ、さながらブームとなっている。だが、その多くは大手テック企業が公開したモデルをベースにしており、大手テック企業の戦略に左右される恐れがある。 by Will Douglas Heaven2023.07.04 30 20 グーグルの上級エンジニアであるルーク・ソーナウが書いたとされる内部文書の中で、ここ最近シリコンバレーで大勢がささやいてきたであろうことが明言されていた。誰もが無償で使えるオープンソースが、巨大テック企業による人工知能(AI)の支配を脅かしている。 新たなオープン

                                  グーグルが恐れる オープンソース生成AI、 脆く危ういブームの実態
                                • DELISH KITCHEN のサービスとバックエンドシステムのお話 - every Tech Blog

                                  自己紹介 はじめまして。DELISH KITCHENバックエンドチームのマネージャーをやっている内原です。 本日はDELISH KITCHENにおける、バックエンド観点でのシステム紹介を行います。この紹介によりDELISH KITCHENの開発に興味を持ってもらえると嬉しいです。 はじめに DELISH KITCHENのサービス全体像とバックエンドシステムの構成や仕様などを紹介します。 ご覧の通り、複数のマイクロサービスが様々なミドルウェアを利用しつつ、DELISH KITCHENサービスの提供を実現しています。 DELISH KITCHENのサービス全体像 DELISH KITCHENの一番主要な機能は、レシピ動画を提供することでお客様の料理体験をよりよいものにすることです。 これだけ聞くと、単に動画を配信しているだけのサービスのように思われるかもしれませんが、実際には料理にまつわる様々

                                    DELISH KITCHEN のサービスとバックエンドシステムのお話 - every Tech Blog
                                  • Kafka is dead, long live Kafka

                                    TL;DRWarpStream is an Apache Kafka® protocol compatible data streaming platform built directly on top of S3. It's delivered as a single, stateless Go binary so there are no local disks to manage, no brokers to rebalance, and no ZooKeeper to operate. WarpStream is 5-10x cheaper than Kafka in the cloud because data streams directly to and from S3 instead of using inter-zone networking, which can be

                                      Kafka is dead, long live Kafka
                                    • 意識の高いデータサイエンティストのためにすすめる6つのこと | AI専門ニュースメディア AINOW

                                      Ben Weber氏は、スマホ向けゲーム開発で有名なZyngaで主席データサイエンティストを務めています。同氏が英語長文メディアMediumに投稿した記事『意識の高いデータサイエンティストにオススメの6つのこと』では、「仕事のできる」データサイエンティストと見なされるために実践すべき6つの行動が解説されています。 データサイエンティストとしてヒトを雇う立場も経験している同氏によると「できるデータサイエンティスト」が実践すべき(あるいは実践している)6つの行動とは、以下のようなものです。 クラウドコンピューティングを実際に試す 新規のデータセットを作る (ツールやシステムといった)物事を接合する サービスを立ち上げる 目をみはるビジュアライゼーションを作る ホワイトペーパーを書いてみる 以上の行動はPythonのプログラミングスキルや統計学の専門知識といったデータサイエンティストの必須スキル

                                        意識の高いデータサイエンティストのためにすすめる6つのこと | AI専門ニュースメディア AINOW
                                      • IT x 家事育児:ルンバと息子を仲良くさせる

                                        Databricksチューニングあれこれ(JEDAI 2023 X‘mas/忘年会 Meetup! LT登壇資料)NTT DATA Technology & Innovation

                                          IT x 家事育児:ルンバと息子を仲良くさせる
                                        • 次世代Hadoop最有力候補の「Spark」、動き始めたエコシステム

                                          次世代Hadoopの有力なビッグデータ分析基盤として期待を集めているフレームワークがある。Apache Software Foundation(ASF)のオープンソースソフト(OSS)プロジェクトである「Spark」だ。インメモリー処理が特徴で、Hadoopにおける処理方式の一つである「MapReduce」を用いた場合と比べて最大で100倍以上、分析処理を高速化できる。 Sparkは当初、研究用途として米University of California Berkeley(UCB)の研究組織「AMPLab」で誕生したものだが、2014年5月にはASFから「バージョン1.0」が公開された。研究用途のフェーズを脱し、企業が商用で使えるソフトを目指すことを宣言した形だ(関連記事:Hadoop超える機械学習向きのビッグデータ処理基盤、Spark 1.0が正式公開)。 Sparkに注目し、その動向に詳

                                            次世代Hadoop最有力候補の「Spark」、動き始めたエコシステム
                                          • OpenCALM-7BをLoRAでFine tuningして対話ができるようにする|masuidrive

                                            ちょっと出遅れたけど、サイバーエージェントが出したGPT-NeoXベースのLLM、OpenCALM-7BをGoogle Colab上でLoRA使ってFine tuningをしてみました。 とりあえず対話を試したい人masuidrive/open-calm-instruct-lora-20230525-r4-alpha16-batch32-epoch1 に1 epoch回したLoRAを置いておきます。 Google Colabで試したい人はV100やA100のハイメモリで動かしてください。OpenCALM-7Bのshardが10GB単位なため、12GBの標準メモリでは動きません。transformersのloaderがもう少し賢ければ、T4の標準メモリでも動くと思うんだけど・・・ なぜFine tuningをするのかOpenCALM-7Bは基礎モデルなので日本語やWikiPediaの内容など

                                              OpenCALM-7BをLoRAでFine tuningして対話ができるようにする|masuidrive
                                            • Databricks + BigQueryでSSOTを実現しようとしている話 - バイセル Tech Blog

                                              テクノロジー戦略本部データサイエンス部の近藤です。 バイセルはリユース事業を営む会社で急激な成長を遂げていますが、どちらかというと今まではテクノロジーにあまり頼ることなく成長してきました。 そんな中、テクノロジーをちゃんと導入していけばどこまで成長するのか試してみたく、2022年7月にバイセルに入社しました。 バイセルではSSOTの実現のために、RDBのデータをBigQueryにニアリアルタイムで同期する実装を進めていますが、 新たにDatabricksの導入を決めました。 バイセルにどういう課題があり、なぜDatabricksを導入するのかをお話しします。 SSOTとは バイセルの今の課題と未来 どうやって課題を解決するのか なぜApache Sparkなのか Databricksの利点 Databricks導入後の世界 データサイエンス部の野望 SSOTとは データマネジメントでは「S

                                                Databricks + BigQueryでSSOTを実現しようとしている話 - バイセル Tech Blog
                                              • Hadoop MapReduceを全置き換え、スペインStratioがSpark採用事例を発表

                                                ビッグデータ分析ソフトを手掛けるスペインのStratioは、インメモリーのビッグデータ分析ソフト「Spark」の採用事例を公開した(発表資料)。同社は7年以上前から、顧客向けのビッグデータ分析にHadoop MapReduceを使ってきたが、2013年からSparkの利用を始め、今ではMapReduceを完全にSparkに置き換えたという。 同社は2013年までの6年間ほど、MapReduceにリアルタイム処理エンジンの「Storm」を組み合わせたラムダアーキテクチャを採用してきたが、「開発やデプロイ、サポートなどの面で、次第に複雑さが増してきたため、より良い技術を探した結果、Sparkを見つけ、採用することにした」(同社)という。 Stratioは、通信事業者のスペインTelefonicaやホテル事業を手掛けるスペインNH Hotelsといった企業に向けて、ビッグデータ分析基盤を提供して

                                                  Hadoop MapReduceを全置き換え、スペインStratioがSpark採用事例を発表
                                                • IBM、「Spark as a Service」を発表。Apache Sparkへのコミットで3500人の研究者やエンジニアを投入

                                                  IBM、「Spark as a Service」を発表。Apache Sparkへのコミットで3500人の研究者やエンジニアを投入 米IBMはオープンソースの大規模分散処理基盤「Apache Spark」への本格的なコミットメントを数日前に発表し、3500人の研究者やエンジニアを投入すると宣言しました。 同社が合わせて発表したのが、Apache Sparkをクラウド上でサービスとして提供する「Spark as a Service」です。現在はまだサインナップしてもログインできず、最新情報のメールが届くようになっています。 Apache Sparkは、これまでHadoopが切り開いてきた大規模分散処理プラットフォームをさらに技術的に推し進めたものと言えます。 Hadoopは大量のデータをバッチ処理する非常に高い能力を備えていましたが、Apache Sparkではインメモリ処理などによってさら

                                                    IBM、「Spark as a Service」を発表。Apache Sparkへのコミットで3500人の研究者やエンジニアを投入
                                                  • TechCrunch

                                                    Even with some criticisms, most VC think that the state's effort to track diversity data is worth it. Databricks has remained a hot startup at a time when interest from investors has cooled across the ecosystem. Just last month the company raised $500 million at an eye-popping $43 billion valuation. T

                                                      TechCrunch
                                                    • 奇跡の巨大IT系ボランティア団体 〜 Apache Incubator のしくみ 編 - 株式会社ロンウイット

                                                      著者:関口宏司 はじめに Apache Hivemall を知ってますか?Apache Hivemall(以下、Hivemall)はその名が示すとおり、Apache Software Foundation(以下、ASF)のもとで開発が進められているオープンソース・ソフトウェア(以下、OSS)です。Hivemall は元々 Arm Treasure Data 社(以下、トレジャーデータ)が社内で開発していたソフトウェアですが、同社が2016年に ASF に寄贈し、ASF の育成プログラムである Apache Incubator プロジェクトの一部となったものです。 “Apache” ブランドを名乗ることができる ASF に所属する OSS といえば、Apache HTTP Server や Apache Tomcat などがありますが、これらはほとんどの方がご存知でしょう。それ以外にも私がコ

                                                        奇跡の巨大IT系ボランティア団体 〜 Apache Incubator のしくみ 編 - 株式会社ロンウイット
                                                      • Microsoft Build 2024 キーノート完全日本語化まとめ・意訳 - 吉田の備忘録

                                                        今年も開催されたMicrosoft Build 2024のキーノートを日本語でまとめをお届けします!今年は吉田が製品チームとして「Ask the Expert」ブース対応を現地で3日連続アサインされた上、夜は無謀にも48時間以内にPower Platform の発表について2時間にわたってお届けするイベントを開催した関係上、まとめが遅くなってしまいました。 Build 2024 のPower Automateブース その分、Satya Nadellaが登壇で利用したスライドを丸ごと日本語化し、より丁重なまとめ?(もはやフル原稿…)を作ることができました。このページの一番下にはスライド完全意訳版をダウンロードできるようにしてありますので、ぜひ読んでくださいね。 それでは以下、キーノートの情報をお伝えします! 開発者会議は常に最もエキサイティングで、最も楽しい瞬間です。私は成人してからの人生を

                                                          Microsoft Build 2024 キーノート完全日本語化まとめ・意訳 - 吉田の備忘録
                                                        • TechCrunch

                                                          Even with some criticisms, most VC think that the state's effort to track diversity data is worth it. Databricks has remained a hot startup at a time when interest from investors has cooled across the ecosystem. Just last month the company raised $500 million at an eye-popping $43 billion valuation. T

                                                            TechCrunch
                                                          • 日本語大規模言語モデル「Japanese Stable LM 3B-4E1T」「Japanese Stable LM Gamma 7B」を公開しました — Stability AI Japan

                                                            日本語大規模言語モデル「Japanese Stable LM 3B-4E1T」「Japanese Stable LM Gamma 7B」を公開しました Stability AI Japan は日本語向け大規模言語モデル「Japanese Stable LM 3B-4E1T」及び「Japanese Stable LM Gamma 7B」を公開しました。前者は約30億パラメータ、後者は約70億パラメータのモデルであり、日本語タスクを用いた性能評価において、同等サイズのモデルで最高水準の性能を発揮しています。モデルはすべて商用利用可能な Apache 2.0 ライセンスにて公開しています。 今回公開したモデルは以下の通りです。 30億パラメータの汎用言語モデル: Japanese Stable LM 3B-4E1T Base 30億パラメータの指示応答言語モデル: Japanese Stable

                                                              日本語大規模言語モデル「Japanese Stable LM 3B-4E1T」「Japanese Stable LM Gamma 7B」を公開しました — Stability AI Japan
                                                            • LLM開発のためのデータエンジニアリング - Qiita

                                                              LLM開発のためのデータエンジニアリング MLOps Advent Calendar 2023の24日目です。 Stability AIでデータ系のソフトウェアエンジニアをやっているcvuskです。主な仕事は日本語LLMのためのデータ開発です。Stability AIでは日本語LLMも各種開発しています。LLMの学習というと大量のGPUを用意して巨大なデータでモデルを学習する、というキラキラしたイメージ(?)が強いかもしれませんが、データが重要かつ苦労が耐えない課題であることは他の機械学習やディープラーニングモデルと違いありません。日本語のテキストデータは英語ほど入手しやすいわけではないのと同時に、データエンジニアリングや品質面でもいろいろと大変なことが多々あります。今回はLLMのためのテキストデータの用途やエンジニアリングについて整理します。 LLMの学習 LLMの学習は大きく分けて事前

                                                                LLM開発のためのデータエンジニアリング - Qiita
                                                              • BlueTeam CheatSheet * Log4Shell* | Last updated: 2021-12-20 2238 UTC

                                                                20211210-TLP-WHITE_LOG4J.md Security Advisories / Bulletins / vendors Responses linked to Log4Shell (CVE-2021-44228) Errors, typos, something to say ? If you want to add a link, comment or send it to me Feel free to report any mistake directly below in the comment or in DM on Twitter @SwitHak Other great resources Royce Williams list sorted by vendors responses Royce List Very detailed list NCSC-N

                                                                  BlueTeam CheatSheet * Log4Shell* | Last updated: 2021-12-20 2238 UTC
                                                                • TechCrunch

                                                                  Databricks has remained a hot startup at a time when interest from investors has cooled across the ecosystem. Just last month the company raised $500 million at an eye-popping $43 billion valuation. T

                                                                    TechCrunch
                                                                  • ナレコムAWSレシピ | AIに強い情報サイト

                                                                    「Databricks on AWS」とAWSの各種サービスを使用し、お客様のAWS 環境に蓄積されたデータの活用支援を行います 「内製化支援推進AWS パートナー」に認定

                                                                      ナレコムAWSレシピ | AIに強い情報サイト
                                                                    • 2016ー2017のApache Sparkに起こったこと/起こること | gihyo.jp

                                                                      Sparkの2016年は、1月4日にバージョン1.6.0のリリースからスタートしましたが、なんといっても今年の目玉はバージョン2.0.0のリリースでした。2016年7月26日にリリースされ、この開発には2,000以上のパッチが投稿され、世界中から280人もの開発貢献者の参画があったと言われています。 バージョン2.0ではアーキテクチャが抜本的に見直され、さらなる性能向上、さらなる使いやすさが実現しました。両バージョンについては現在もメンテナンスが続けられており、本稿執筆時点では1.6.3、2.0.2が最新リリースです。そして、12月28日にバージョン2.1がリリースされました。本稿では、2016年後半の中心だったバージョン2.0の特徴について、バージョン1.6以前も振り返りつつおさらいし、2017年にどのような取り組みがなされるかについてお伝えします。 Sparkの特徴のおさらい 2016

                                                                        2016ー2017のApache Sparkに起こったこと/起こること | gihyo.jp
                                                                      • Apache Sparkコミッターが教える、Spark SQLの詳しい仕組みとパフォーマンスチューニング Part1

                                                                        2019年3月19日、Data Engineering Meetupが主催するイベント「Data Engineering Meetup #1」が開催されました。データの収集や管理、処理、可視化など、データエンジニアリングに関する技術の情報を共有する本イベント。データエンジニアリングの最前線で活躍するエンジニアたちが集い、自身の知見を共有します。プレゼンテーション「Deep Dive into Spark SQL with Advanced Performance Tuning」に登壇したのは、Databricks Inc.の上新卓也氏。講演資料はこちら Spark SQLの仕組みとパフォーマンスチューニング 上新卓也氏:それでは発表を始めます。『Deep Dive into Spark SQL with Advanced Performance Tuning』ということで、Spark SQ

                                                                          Apache Sparkコミッターが教える、Spark SQLの詳しい仕組みとパフォーマンスチューニング Part1
                                                                        • TechCrunch

                                                                          Even with some criticisms, most VC think that the state's effort to track diversity data is worth it. Databricks has remained a hot startup at a time when interest from investors has cooled across the ecosystem. Just last month the company raised $500 million at an eye-popping $43 billion valuation. T

                                                                            TechCrunch
                                                                          • GitHub - tobymao/sqlglot: Python SQL Parser and Transpiler

                                                                            SQLGlot is a no-dependency SQL parser, transpiler, optimizer, and engine. It can be used to format SQL or translate between 21 different dialects like DuckDB, Presto / Trino, Spark / Databricks, Snowflake, and BigQuery. It aims to read a wide variety of SQL inputs and output syntactically and semantically correct SQL in the targeted dialects. It is a very comprehensive generic SQL parser with a ro

                                                                              GitHub - tobymao/sqlglot: Python SQL Parser and Transpiler
                                                                            • Recommending items to more than a billion people

                                                                              The growth of data on the web has made it harder to employ many machine learning algorithms on the full data sets. For personalization problems in particular, where data sampling is often not an option, innovating on distributed algorithm design is necessary to allow us to scale to these constantly growing data sets. Collaborative filtering (CF) is one of the important areas where this applies. CF

                                                                                Recommending items to more than a billion people
                                                                              • Microsoft Ignite 2023 キーノート日本語まとめ - 吉田の備忘録

                                                                                今年も始まりました、Microsoft Ignite 2023!本日発表された、CEOのSatya Nadella氏のキーノートを日本語でまとめました。ChatGPTが発表されてから1年が経過しました。 進化のペースは凄まじいものです。我々は新しい時代に入ろうとしています。ただの新しい技術に留まりません。 このAIの時代によって、製品を作ったり、安全性を考えたりと、実課題を解決しています。 Airbnb、Shopifyや、BTや電通などもMicrosoft Copilotを展開しています。そして、組織は独自のCopilotを作成しています。 そして、Copilotは非常に生産性を向上させています。より少ない時間で情報を集めたり、ミーティングを行ったりすることができます。 Copilot はタスクを素早くこなすことが可能になり、新しいUI(ユーザーインターフェース)として、世界のナレッジだけ

                                                                                  Microsoft Ignite 2023 キーノート日本語まとめ - 吉田の備忘録
                                                                                • KubeCon + CloudNativeCon North America 2022参加レポート〜3年ぶりのアメリカ現地開催の様子とセッション紹介〜 - ZOZO TECH BLOG

                                                                                  こんにちは。計測システム部SREブロックの西郷です。 10月24日から10月28日にかけてKubeCon + CloudNativeCon North America 2022(以下、KubeCon)が行われました。今回弊社からはWEARやZOZOTOWNのマイクロサービス基盤、計測システムに関わるメンバー7名で参加しました。 本記事では現地の様子や弊社エンジニアが気になったセッションについてレポートしていきます。 目次 目次 3年ぶりにアメリカでの現地開催となったKubeCon現況 参加メンバーによるセッション紹介 Istio Today and Tomorrow: Sidecars and Beyond Cloud Governance With Infrastructure As Code (IaC) With Kyverno And Crossplane - Dolis Sharm

                                                                                    KubeCon + CloudNativeCon North America 2022参加レポート〜3年ぶりのアメリカ現地開催の様子とセッション紹介〜 - ZOZO TECH BLOG