並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 521件

新着順 人気順

Databricksの検索結果1 - 40 件 / 521件

  • データ分析基盤まとめ(随時更新)

    はじめに データ分析基盤の資料を力尽きるまで追記していきます。 構成図にあるアイコンや記事の内容から技術要素を調べて記載していますが、不明分は未記載にしています。修正のコメント頂ければ助かります。この記事追加してっていう要望も歓迎いたします。 テンプレート 2025年 2024/09/12 : 株式会社朝日新聞社 データソース : Google Analytics、Adobe Analytics、Amazon S3、Amazon RDS データ処理 : TROCCO、BigQuery アウトプット :Tableau、Looker Studio 2024/09/12 : 株式会社CARTA MARKETING FIRM データソース : Amazon EC2、Amazon S3 データ処理 : Fivetran、Snowflake、dbt、AWS Step Functions、Element

      データ分析基盤まとめ(随時更新)
    • LLM時代のX情報収集術|べいえりあ

      AI for Everyoneについては日本語版もあるのと、どちらのコースも日本語字幕付きで見られる(多分機械翻訳での英語字幕からの翻訳だが、翻訳の質は悪くない)ので、英語分からなくてある程度何とかなるんじゃないかと思います。 あと、余力のある人、最新のNLP研究を理解したい人はこちらの本を読むことをオススメします。アルゴリズムの詳細は必ずしも理解しなくても良いですが、どんなタスクがあるのかは理解しておいた方が良いかと思います。 NLPの知識がLLMを応用する上で実際にどう役に立つかですが、例えばで言うとNLP的には対話の中には「タスク指向型対話(task-oriented dialogue)」と「雑談(chit-chat dialogue)」があります。それぞれ対話の中で重要視されるものから評価の仕方まで全然違うのですが、NLPをやらずにLLMをやっている人と話しているとこれらをごっちゃ

        LLM時代のX情報収集術|べいえりあ
      • 39社のデータアーキテクチャ特集 - ツールの技術選定のポイントと活用術 - Findy Tools

        8つのデータ系ツール「BigQuery」「Databricks」「dbt」「Fivetran」「Lightdash」「Looker」「Snowflake」「TROCCOⓇ」に39社からご寄稿頂いたレビューから、各社のデータアーキテクチャをまとめた記事です。各社の技術選定の背景や工夫などの知見を得ていただく場となれば幸いです。 ※ツール名・ご寄稿企業名共にアルファベット順で掲載しております BigQueryBigQuery は、Google Cloud の費用対効果に優れたフルマネージド型の分析データ ウェアハウスです。ペタバイト規模に対応しており、膨大な量のデータに対してほぼリアルタイムで分析を行うことができます。 ▼BigQueryとは?機能や特徴・製品の概要まとめページはこちら https://findy-tools.io/products/bigquery/49 ▼Findy Too

          39社のデータアーキテクチャ特集 - ツールの技術選定のポイントと活用術 - Findy Tools
        • データアーキテクチャ特集 データ利活用を推進する8社の技術選定 - Findy Tools

          毎回ご好評頂いているアーキテクチャ特集の今回のテーマは、データ分析基盤です。 データ活用に特に力を入れている日本のIT企業8社にご協力頂き、それぞれの技術選定の裏側と今後の展望についてご寄稿頂きました。 ※ご紹介は企業名のアルファベット順となっております 株式会社朝日新聞社 アーキテクチャ選択の背景や意図 これまでは、朝日新聞デジタル(朝デジ)のサービス開発・運用において、データを収集する基盤が存在せず業務ごとに Adobe Analytics や AWS QuickSight、 内製のツールなど様々なBIツールが乱立している状態でした。そこで、複数のシステムのデータソースを統合的に可視化・分析を可能にするために、分析基盤の構築に着手しました。 まず、データを集積・加工するETLとしては以下の点で TROCCO を選択しました。 1. データエンジニアが不足しているため、データアナリストで

            データアーキテクチャ特集 データ利活用を推進する8社の技術選定 - Findy Tools
          • データウェアハウスのデータモデリングを整理してみた - Qiita

            概要 スタースキーマからスノーフレーク、ギャラクシー、そしてデータボールトやアンカーモデリングまで、各スキーマの特徴、利点、そして適用シナリオを掘り下げます。 スタースキーマ スタースキーマを元に整理します。 スタースキーマ または 星型スキーマ はデータウェアハウスに利用される最も単純なスキーマである。スタースキーマには唯1つもしくは少数のファクト表と複数のディメンション表が含まれる。スタースキーマはスノーフレークスキーマの一種であるが、多くの用途で利用されている。 DWHに利用される最も単純なスキーマ 唯一または少数のファクトテーブルと、複数のディメンションテーブルが含まれる スノーフレークスキーマの一種 モデル ファクト表はデータウェアハウスでの解析で利用され、複数の異なるディメンションに区分される。ファクト表は主要なデータを持つ一方、ディメンション表は相対的にサイズが小さくディメン

              データウェアハウスのデータモデリングを整理してみた - Qiita
            • モダンな開発環境のBtoB SaaSアーキテクチャ特集 技術選定のポイントと今後の展望 - Findy Tools

              ご好評頂いているアーキテクチャ特集の第三弾となる今回は、BtoB SaaSを提供する企業10社にご協力頂き、技術選定のこだわりや今後の展望をご寄稿いただきました。アーキテクチャを通して、各社の事業特性や設計思想にも触れられる内容となっております。※ご紹介は企業名のアルファベット順となっております 株式会社あしたのチーム会員限定コンテンツ無料登録してアーキテクチャを見る あしたのチームは「誰もが "ワクワク" 働ける世界を創る」をビジョンに掲げ、人事評価制度の構築・運用・クラウド化で "人と組織の成長" を支援しています。今回は、2024年4月にリリースされた同社の新サービス:パフォーマンスマネジメントプラットフォーム『Cateras™』のアーキテクチャについてご説明します。 アーキテクチャ選択の背景や意図 サービス立ち上げ初期はエンジニアの数が少ないこともあり、開発メンバーが開発と兼任でイ

                モダンな開発環境のBtoB SaaSアーキテクチャ特集 技術選定のポイントと今後の展望 - Findy Tools
              • 先進的な技術を“合理的に”導入する。リクルートが「ニアリアルタイムデータ基盤」を実現できた背景 - はてなニュース

                どんな企業にとってもデータは「資産」ですが、ユーザーとクライアントのマッチングを軸に事業を展開するリクルートにとっては、ビジネスを支える存在の一つです。 リクルートではサービスに関わるデータを収集・蓄積するデータ基盤を構築し、マッチングの精度向上を含むプロダクト改善などに活用してきました。例えばWebサイトの回遊状況を元にユーザーの興味や関心を推測してリコメンデーションを行ったり、検索結果を提供したりするなど、ユーザーとクライアント、双方が満足できるマッチング機会の創出に取り組んでいます。 このような取り組みにおいて、新しく生まれた価値のある情報を、より素早く活用していく「データの鮮度」は大事な要素になります。データの鮮度とは、すなわちリアルタイム性のこと。多様かつ膨大な量のデータを取り扱うビジネスでは、このリアルタイム性をいかに高められるかが、意思決定の精度や速度に直結します。 リクルー

                  先進的な技術を“合理的に”導入する。リクルートが「ニアリアルタイムデータ基盤」を実現できた背景 - はてなニュース
                • Meta、無料で商用可の「Llama 3.1」リリース 「世界最大かつ最も高性能なオープンモデル」

                  米Metaは7月24日(現地時間)、“オープンソースの”LLMの最新版「Llama 3.1」を発表した。最大モデルは4050億(405B)のパラメータを持ち、米NVIDIAの1万6000個以上の「H100」でトレーニングした。Llama 3の70Bモデルと8Bモデルもアップグレードされる。 4月にリリースした「Llama 3」同様に、ほぼすべての主要クラウドサービス(AWS、Databricks、Google Cloud、Hugging Face、Kaggle、IBM WatsonX、Microsoft Azure、NVIDIA NIM、Snowflake)で利用可能になる。 15兆トークンを超えるトレーニングデータでトレーニングしたとしているが、データの出所は明示していない。 405Bモデルは、長文テキストの要約、多言語会話エージェント、コーディングアシスタント、将来のAI言語モデルのト

                    Meta、無料で商用可の「Llama 3.1」リリース 「世界最大かつ最も高性能なオープンモデル」
                  • Meta、無料で商用可の新LLM「Llama 3」、ほぼすべてのクラウドでアクセス可能に

                    米Metaは4月18日(現地時間)、オープンソースのLLMの最新版「Llama 3」を発表した。80億パラメータと700億パラメータの2モデルで、いずれもほぼすべての主要クラウドサービス(AWS、Databricks、Google Cloud、Hugging Face、Kaggle、IBM WatsonX、Microsoft Azure、NVIDIA NIM、Snowflake)で間もなく利用可能になる。 昨年リリースの先代「Llama 2」にも700億パラメータモデルはあったが、Llama 3は4000億パラメータの高密度モデル(こちらはまだ公開されていない)のトレーニングも継続中だとマーク・ザッカーバーグCEOは語った。 トレーニングデータセットは、Llama 2よりも7倍大きく、4倍のコードが含まれている。英語以外での利用に備えるため、データセットの5%以上が非英語データで構成されて

                      Meta、無料で商用可の新LLM「Llama 3」、ほぼすべてのクラウドでアクセス可能に
                    • データカタログ特集 データ利活用に向けたアーキテクチャ6選 - Findy Tools

                      整備したデータ基盤を、事業部や会社全体で活用に持っていく中で「データカタログ」の必要性が増々注目を集めています。 今回は、データカタログを導入し、データ利活用に挑んでいる6社に、アーキテクチャの工夫ポイントからデータカタログ導入によって得られた効果などを伺いました。 株式会社10X事業内容10Xでは「10xを創る」をミッションとし、小売向けECプラットフォーム「Stailer」の提供を通じて、スーパーやドラッグストア等のオンライン事業立ち上げ・運営支援を行っています。Stailerでは業務構築におけるコンサルティングから、必要な商品マスタやお客様アプリ・スタッフ向けのオペレーションシステム等の提供、配達システムの提供、販売促進の支援など、データを分析しながら一気通貫での支援を行っています。 データカタログ導入の背景以前はデータ分析にデータレイクのテーブルがよく利用されており、カラムのメタデ

                        データカタログ特集 データ利活用に向けたアーキテクチャ6選 - Findy Tools
                      • Databases in 2024: A Year in Review

                        Like a shot to your dome piece, I'm back to hit you with my annual roundup of what happened in the rumble-tumble game of databases. Yes, I used to write this article on the OtterTune blog, but the company is dead (RIP). I'm doing this joint on my professor blog. There is much to cover from the past year, from 10-figure acquisitions, vendors running wild in the streets with license changes, and the

                          Databases in 2024: A Year in Review
                        • いろんな外資、いろんなロールで働いてみた話

                          Findyのイベント「元CircleCI Databricks PagerDutyのエンジニアに聞く外資系への挑戦とリアル」で話した資料です

                            いろんな外資、いろんなロールで働いてみた話
                          • 最新の Google Gemma モデルを MLX を使ってローカルでファインチューニング|alexweberk

                            今回は、最新の Google Gemma モデルを Apple Silicon に最適化されたライブラリ MLX を使ってローカルで実行したり、ファインチューニングしてみましたのでその手順を紹介します。 MLX 関連の情報はドキュメンテーションが分かりづらいものも多かったので色々試した経緯も共有しながら少しでも何かの参考になれば幸いです。 実際に使った Jupyter Notebook を Gist にアップロードしていますので、そちらも参考にしてください。 →Google Gemma モデルを MLX を使ってローカルでファインチューニング 事前準備必要なライブラリをインストールします。 また Apple Silicon 搭載の Mac が必要です。今回は M3 Max 128GB 搭載の MacBook Pro で実行しました。 !pip install -U mlx mlx_lm t

                              最新の Google Gemma モデルを MLX を使ってローカルでファインチューニング|alexweberk
                            • Google BigQueryからSnowflakeへ。バクラクのデータ基盤技術移管事例 - Findy Tools

                              公開日 2024/12/10更新日 2024/12/10Google BigQueryからSnowflakeへ。バクラクのデータ基盤技術移管事例 はじめにLayerXでは、「バクラク」という企業のバックオフィス業務を効率化するクラウドサービスを提供しています。稟議、経費精算、法人カード、請求書受取、請求書発行といった経理業務に加え、勤怠管理といった人事領域(HRM)の業務を効率化するサービスも展開しています。最新のAI技術を活用し、お客様の業務が、より「ラク」になる環境の実現を目指しています。導入実績は10,000社を超え、多くのお客様に選んでいただいております。 バクラク | バックオフィスから全社の生産性を高める このようなサービスを支えるためには、ビジネスニーズに迅速に応えられる拡張性の高い効率的なデータ基盤が不可欠です。バクラクでは、サービスの成長と共に増大するデータ量や複雑化する

                                Google BigQueryからSnowflakeへ。バクラクのデータ基盤技術移管事例 - Findy Tools
                              • 生成AIはデータサイエンティストの仕事を奪うか? - NTT Communications Engineers' Blog

                                こんにちは。NTTコミュニケーションズでエバンジェリストをやっている西塚です。今日が10年目の結婚記念日です。 この記事は、NTT Communications Advent Calendar 2024 6日目の記事です。 情報通信白書によると、デジタルデータの活用が企業経営に対して効果があると複数の先行研究で明らかにされています。 ビッグデータを活用している企業はそうでない企業に比べて、イノベーションの創出が統計学的に有意な差で多いと言われています。 私自身もNTTコミュニケーションズにおいて全社データ基盤を立ち上げて、社内システムからデータを収集し、 データサイエンティストと協力しながら、蓄積された膨大なデータを活用してビジネス価値を生み出す取り組みを行ってきました。 さて、近年の生成AIブームに乗り、データサイエンティスト達は従来の機械学習・AI技術に加えて生成AIをデータ活用に利用

                                  生成AIはデータサイエンティストの仕事を奪うか? - NTT Communications Engineers' Blog
                                • 秋の技術特集2024 - KAKEHASHI Tech Blog

                                  「KAKEHASHI Tech Blog 秋の技術特集2024」は、カケハシで利用されている技術についてより深く知ってもらうため、9月の平日にブログを毎日更新していく特別企画です。(全19記事) 9月2日: Databricksでnotebookのセルの中身を検証する - KAKEHASHI Tech Blog 9月3日: Okta ログを AWS S3 にログストリームで保存する - KAKEHASHI Tech Blog 9月4日: 新しいチームでTypeScriptに素早くキャッチアップするためにやったこと - KAKEHASHI Tech Blog 9月5日: Slackリストを用いてSlackで管理を完結しましょう! - KAKEHASHI Tech Blog 9月6日: renovateとDependabotの連携による脆弱性管理 - KAKEHASHI Tech Blog 9

                                    秋の技術特集2024 - KAKEHASHI Tech Blog
                                  • みなさん、データのメタデータ管理ってどうやってますか? #datatech-jp レポート|よしむら@データマネジメント担当

                                    メタデータの価値と意義データ基盤作ってもメタデータがないと必要なデータを発見するのは難しい。 テーブルの物理名とデータの中身だけでは想像はできるけど、意外とわからない。 また、データ自体の意味以外にも制約条件とか利用者情報などがあり、そういうメタデータを整備することでデータ活用ができる。 メタデータの種類システム基礎系:DDLとか ビジネス系:活用方法 関連性:リネージやER図 統制系:品質情報 セキュリティ情報:アクセス権限情報 システム運用系:ジョブ実行ログ ソーシャル系:利用者のレビューやアクセス頻度 メタデータの管理とデータカタログメタデータを管理するためのツールとしてはデータカタログがある。 データカタログは銀の弾丸だと思われがちで、いいデータカタログがあればだれもが使ってデータ利活用が進むと思われがちだが… 実際データカタログを入れたところで、メタデータは入力されずカタログ・ゴ

                                      みなさん、データのメタデータ管理ってどうやってますか? #datatech-jp レポート|よしむら@データマネジメント担当
                                    • Microsoft Build 2024 キーノート完全日本語化まとめ・意訳 - 吉田の備忘録

                                      今年も開催されたMicrosoft Build 2024のキーノートを日本語でまとめをお届けします!今年は吉田が製品チームとして「Ask the Expert」ブース対応を現地で3日連続アサインされた上、夜は無謀にも48時間以内にPower Platform の発表について2時間にわたってお届けするイベントを開催した関係上、まとめが遅くなってしまいました。 Build 2024 のPower Automateブース その分、Satya Nadellaが登壇で利用したスライドを丸ごと日本語化し、より丁重なまとめ?(もはやフル原稿…)を作ることができました。このページの一番下にはスライド完全意訳版をダウンロードできるようにしてありますので、ぜひ読んでくださいね。 それでは以下、キーノートの情報をお伝えします! 開発者会議は常に最もエキサイティングで、最も楽しい瞬間です。私は成人してからの人生を

                                        Microsoft Build 2024 キーノート完全日本語化まとめ・意訳 - 吉田の備忘録
                                      • Apple・NVIDIA・AnthropicなどがYouTubeの動画字幕を許可なくAIのトレーニングに利用していたと判明

                                        IT系メディアのProof Newsが、AppleやAnthrpic、NVIDIAなどがYouTubeに公開されている17万本以上の動画の字幕をAIの学習に許可なく使用していたと指摘しています。 Apple, Nvidia, Anthropic Used Thousands of Swiped YouTube Videos to Train AI https://www.proofnews.org/apple-nvidia-anthropic-used-thousands-of-swiped-youtube-videos-to-train-ai/ YouTube creators surprised to find Apple and others trained AI on their videos | Ars Technica https://arstechnica.com/ai/20

                                          Apple・NVIDIA・AnthropicなどがYouTubeの動画字幕を許可なくAIのトレーニングに利用していたと判明
                                        • Databricks情報を手に入れろ!?Databricks関連書籍やウェブ上のポインタなど(長い)

                                          こんにちわ!Databricksはじめたいけど情報が、、、ない、、、?という方?あるよー!ここにあるよー! というわけで、Databricks関連情報をまとめていきたいと思います。 書籍 まずはこれ「データブリックス-クイックスタートガイド」Databricksとはなぜ生まれてきたのか、どういうアーキテクチャなのか、といった最初の一歩がうまく書かれている本です。 Unity Catalogなどが入る前の本なので若干古いのですが、アーキテクチャの思想や基本的な部分についてはわかりやすいのでぜひ。僕もここから入りました。 つぎはこれ、「Apache Spark 徹底入門」、Apache Sparkの書籍ですが、Databricksの情報も入っております。まずは基本となるSparkの知識を仕入れつつDatabricksの情報も仕入れていきましょう! 同人誌 有志の方々が出版されているDatabr

                                            Databricks情報を手に入れろ!?Databricks関連書籍やウェブ上のポインタなど(長い)
                                          • 大規模言語モデルを開発するにあたっての事前・事後学習の戦略メモー特に合成データについてー

                                            関連URL Tanuki-8x8B Leaderboard3 Tanuki-8B Leaderboard3 大規模言語モデルTanuki-8B, 8x8Bの位置づけや開発指針など 全体像 フルスクラッチで開発した大規模言語モデルTanuki-8B, 8x8Bの性能についての技術的な詳細 Japanese MT-Benchにおける性能の詳細とJasterに関する一部言及 ChatbotArena的なシステムでTanuki-8x8Bを始めとする大規模言語モデルの日本語性能を評価する(2024年8月) ブラインドテスト形式で種々のモデル出力の優劣を人手で評価した結果と、各種ベンチマークとの関係性 大規模言語モデルを開発するにあたっての事前・事後学習の戦略メモー特に合成データについてー 開発の鍵となった合成データ戦略に至るまでの試行錯誤など Tanuki-8B,8x8Bの開発完了までに考えていたこ

                                              大規模言語モデルを開発するにあたっての事前・事後学習の戦略メモー特に合成データについてー
                                            • [2024年3月版] Databricksのシステムアーキテクチャ

                                              2024年3月版のDatabricksのシステムアーキテクチャについて説明します。

                                                [2024年3月版] Databricksのシステムアーキテクチャ
                                              • オープンソース大規模言語モデルまとめ、メタのLlama 2が「超重要になる」ワケ

                                                オープンソースのLLM(大規模言語モデル)がこれまでにないほど大きな注目を集めている。OpenAIのGPTモデルなどクローズドな大規模言語モデルが圧倒的なシェアを有する状況だが、それらに匹敵するオープンソースのLLMの開発が進んでいる。メタの「Llama 2(ラマツー)」を筆頭に、日本でもそれをベースにした日本語LLM「ELYZA-japanese-Llama-2-13b」が公開された。直近ではメタに対抗して、Databricksも「DBRX」をリリース。オープンソースLLMとは何か、クローズドモデルに比べてどのような利点があるのか。オープンソースLLMが注目される理由を探ってみたい(追記:最新のLlama 3(ラマスリー)については別記事を参照のこと)。 オープンソースのLLMが注目される理由 2023年はChatGPTを筆頭にコンシューマー向けの生成アプリケーションが広く普及した年とな

                                                  オープンソース大規模言語モデルまとめ、メタのLlama 2が「超重要になる」ワケ
                                                • Google Colab で Llama 3 のファインチューニングを試す |npaka

                                                  「Google Colab」での「Llama 3」のファインチューニングを試したので、まとめました。 【注意】Google Colab Pro/Pro+のA100で動作確認しています。 1. Llama 3「Llama 3」は、Metaが開発したオープンモデルです。 2. 学習Colabでの学習手順は、次のとおりです。 (1) Colabのノートブックを開き、メニュー「編集 → ノートブックの設定」で「GPU」の「A100」を選択。 (2) パッケージのインストール。 # パッケージのインストール !pip install -U transformers accelerate bitsandbytes !pip install trl peft wandb !git clone https://github.com/huggingface/trl %cd trl(3) 環境変数の準備。 左

                                                    Google Colab で Llama 3 のファインチューニングを試す |npaka
                                                  • AIエージェントビジネスの現状と今後の考察 - 襖からキリン

                                                    こんにちは!年末記事の第二弾、AIエージェントに関するビジネス記事になります。 現状のエージェントはどうなっているのか、今後エージェントを始める方が参考になるように説明します。 第一弾の記事は既に公開されています。 Weekly AI Agent News!から見えたAIエージェントの現在地 - 襖からキリン 私が公開しているWeekly AI Agent News!や論文のリポジトリはこちらです。 speakerdeck.com github.com AIエージェントに取り組む人材とは? 企業のAIエージェントの状況 現状の主力エージェント製品を解説 エージェントビルダー リサーチ、問い合わせ対応 データに基づく意思決定支援 様々なソースから資料作成 Agentic Process Automation これからのエージェントを考える 生成AIエージェントと業務ソフトウェアの結びつきが強

                                                      AIエージェントビジネスの現状と今後の考察 - 襖からキリン
                                                    • Databricksの生成AI戦略

                                                      過去のウェビナーで使ったスライドです。

                                                        Databricksの生成AI戦略
                                                      • Databricks Container ServiceでTensorRT-LLMを動かしてみた - NTT Communications Engineers' Blog

                                                        本記事ではDatabricksのDatabricks Container Serviceを用いてNVIDIA社の推論ライブラリであるTensorRT-LLMを実行可能なNotebook環境を構築する方法を紹介します。 目次 目次 はじめに Databricks Container Service NVIDIA TensorRT-LLM 解決したいこと TensorRT-LLM Container Imageの作成 Databricks Containers ベースイメージの変更 Pytorch バージョンの変更 TensorRT-LLMのインストール 動作確認 Databricks環境設定 TensorRT-LLMのインポート Llama2 HF-7b-instruct モデルの変換 TensorRT-LLMの呼び出し まとめ 参考文献 はじめに こんにちは、NTTコミュニケーションズの露

                                                          Databricks Container ServiceでTensorRT-LLMを動かしてみた - NTT Communications Engineers' Blog
                                                        • Llama 3.2 の概要|npaka

                                                          以下の記事が面白かったので、簡単にまとめました。 ・Llama 3.2: Revolutionizing edge AI and vision with open, customizable models 1. Llama 3.2「Llama 3.2 11B・90B」は、チャートやグラフを含むドキュメントレベルの理解、画像キャプション、自然言語の説明に基づいて画像内のオブジェクトの方向を正確に特定するなど、画像推論のユースケースをサポートします。 「Llama 3.2 1B・3B」は、多言語テキスト生成とツール呼び出し機能に非常に優れています。これらのモデルにより、開発者は、データがデバイスから外に出ることのない強力なプライバシーを備えた、パーソナライズされたオンデバイスエージェントアプリケーションを構築できます。 2. モデル評価「Llama 3.2 11B・90B」の視覚モデルは、画像

                                                            Llama 3.2 の概要|npaka
                                                          • DeltaLake Universal Formatを使ったクロスプラットフォーム分析 - NTT Communications Engineers' Blog

                                                            本記事では6月に開催されたDATA+AI Summit 2024でGeneral Availabilityが発表されたDatabricksのDeltaLake Universal Formatの機能を使ってクロスプラットフォームでの分析を実現する方法について紹介します。 DeltaLake Universal FormatはDeltaLakeに保存されたデータをApache Icebergなどの異なるフォーマットで読み出すことができるようにする機能です。本記事では実際にDatabricks上でDeltaLake Universal Formatの機能を有効にしたテーブルを作成し、Amazon AthenaからApache Iceberg形式でクエリを発行するサンプルを用いて、機能の使い方と本機能のメリットについて解説します。 目次 目次 はじめに データレイクとOpen Table For

                                                              DeltaLake Universal Formatを使ったクロスプラットフォーム分析 - NTT Communications Engineers' Blog
                                                            • Databricks、“オープン”な汎用LLM「DBRX」リリース 商用利用可

                                                              米AI企業のDatabricksは3月27日(現地時間)、“オープンな”汎用LLM「DBRX」を発表した。同社によると、DBRXは標準的なベンチマークで既存のすべてのオープンモデルより優れたパフォーマンスを発揮するという。ただし、マルチモーダルではない。 DBRXは、オープンソースプロジェクトMegaBlocksに基づいて構築されたMoE(Mixture of Experts;混合エキスパート)を採用した。このMoEは、他のMoEと比較してトレーニング速度が2倍以上、計算効率も最大2倍になるという。 サイズは1320億パラメータと米MetaのLlama 2のほぼ2倍だが、速度はLlama 2の2倍という。言語理解、プログラミング、数学、ロジックのベンチマークで、Llama 2 70B、仏Mistral AIのMixtral 8x7B、米XのGrok-1、米OpenAIのGPT-3.5を上回

                                                                Databricks、“オープン”な汎用LLM「DBRX」リリース 商用利用可
                                                              • Introducing Meta Llama 3: The most capable openly available LLM to date

                                                                Today, we’re introducing Meta Llama 3, the next generation of our state-of-the-art open source large language model.Llama 3 models will soon be available on AWS, Databricks, Google Cloud, Hugging Face, Kaggle, IBM WatsonX, Microsoft Azure, NVIDIA NIM, and Snowflake, and with support from hardware platforms offered by AMD, AWS, Dell, Intel, NVIDIA, and Qualcomm.We’re dedicated to developing Llama 3

                                                                  Introducing Meta Llama 3: The most capable openly available LLM to date
                                                                • Databricksがオープンな大規模言語モデル「DBRX」をリリース、GPT-3.5やCodeLLaMA-70Bを上回る性能

                                                                  データ分析ツールなどを提供する企業のDatabricksが、2024年3月27日にオープンな汎用大規模言語モデル(LLM)である「DBRX」を発表しました。オープンライセンスでの配布となっており、月間アクティブユーザーが7億人以下の企業は無料で商用利用が可能となっています。 Introducing DBRX: A New State-of-the-Art Open LLM | Databricks https://www.databricks.com/blog/introducing-dbrx-new-state-art-open-llm DBRXはトランスフォーマーのデコーダーを使用するLLMで、「mixture-of-experts(MoE)」アーキテクチャが採用されています。パラメータの合計数は1320億となっていますが、全ての入力に反応するのは360億パラメータのみで、残りのパラメ

                                                                    Databricksがオープンな大規模言語モデル「DBRX」をリリース、GPT-3.5やCodeLLaMA-70Bを上回る性能
                                                                  • Developer eXperience Day 2024【参加無料・アーカイブ配信あり】|EventRegist(イベントレジスト)

                                                                    2024年7月16日(月)と17日(火)の2日間にわたり「Developer eXperience Day 2024」(一般社団法人 日本CTO協会主催)を、オフライン・オンラインのハイブリッド形式で開催いたします。 【参加無料・アーカイブ配信あり】です。ぜひご参加ください! 開催概要 名称:Developer eXperience Day 2024 開催日:2024年7月16日(火)・17日(水) 開催形式:オフライン(現地参加)・オンライン配信 会場:浅草橋ヒューリックホール&カンファレンス アクセス:https://hulic-hall.com/access/ JR総武線「浅草橋駅(西口)」より徒歩1分 参加方法:事前申込制(参加費:無料) 申込サイト:本イベントサイトよりお申込みください 参加対象: ソフトウェア開発の第一線で挑戦するエンジニアをはじめ、テックリード、エンジニアリン

                                                                      Developer eXperience Day 2024【参加無料・アーカイブ配信あり】|EventRegist(イベントレジスト)
                                                                    • 1Password joins the Rails Foundation: Strengthening the community, empowering developers | 1Password

                                                                      We’re excited to share some big news: 1Password is officially joining the Rails Foundation! And we’re not just joining – we’re going all in as a core member, standing shoulder to shoulder with companies that support the brilliant minds behind Rails, including some of our fellow Canadians. This is more than just a badge of honor for us; it’s a commitment to support the Rails ecosystem in the best w

                                                                        1Password joins the Rails Foundation: Strengthening the community, empowering developers | 1Password
                                                                      • Open Source AI Is the Path Forward | Meta

                                                                        In the early days of high-performance computing, the major tech companies of the day each invested heavily in developing their own closed source versions of Unix. It was hard to imagine at the time that any other approach could develop such advanced software. Eventually though, open source Linux gained popularity – initially because it allowed developers to modify its code however they wanted and

                                                                          Open Source AI Is the Path Forward | Meta
                                                                        • Meta、「Llama」を「国家防衛のために米政府機関に提供している」

                                                                          米Metaは11月4日(現地時間)、“オープンな”LLM「Llama」シリーズを「防衛および国家安全保障アプリケーションに取り組んでいる機関を含む米国政府機関」に提供していると発表した。 Llamaを政府機関に提供するために、Accenture、AWS、Anduril、Booz Allen、Databricks、Deloitte、IBM、Leidos、Lockheed Martin、Microsoft、Oracle、Palantir、Scale AI、Snowflakeなどの企業と提携している。 例えば、Lockheed Martinは、コードの生成などのユースケースで防衛分野の顧客にLlamaを提供しているという。 Llama 3の利用規約では、「軍事、戦争、核産業または応用、スパイ活動、米国国務省が管理する国際武器取引規則(ITAR)の対象となる材料または活動での使用」を禁じている。

                                                                            Meta、「Llama」を「国家防衛のために米政府機関に提供している」
                                                                          • Introducing DBRX: A New State-of-the-Art Open LLM

                                                                            Unified governance for all data, analytics and AI assets

                                                                              Introducing DBRX: A New State-of-the-Art Open LLM
                                                                            • Amazon S3 Tablesにデータを投入してAthenaとRedshiftからクエリしてみた - Qiita

                                                                              Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? この記事はBeeX Advent Calendar 2024の5日目の記事です。 遅刻しました。(12/5投稿予定だった) ※本記事には一部AWSのプレビュー機能も含まれており、一般公開された際には記事の内容から変更される可能性がありますので、認識の上ご覧ください。 はじめに 先日アメリカのラスベガスで開催された AWS re:Invent 2024では多くのAWSアップデートが発表されました。 本記事ではその中でもAmazon S3 Tablesにフォーカスして検証してみましたので、記録として書いていきます。 ざっくりどんなことをする

                                                                              • Introducing Llama 3.1: Our most capable models to date

                                                                                Meta is committed to openly accessible AI. Read Mark Zuckerberg’s letter detailing why open source is good for developers, good for Meta, and good for the world.Bringing open intelligence to all, our latest models expand context length to 128K, add support across eight languages, and include Llama 3.1 405B—the first frontier-level open source AI model.Llama 3.1 405B is in a class of its own, with

                                                                                  Introducing Llama 3.1: Our most capable models to date
                                                                                • The Young, Inexperienced Engineers Aiding Elon Musk’s Government Takeover

                                                                                  The Young, Inexperienced Engineers Aiding Elon Musk’s Government Takeover Engineers between 19 and 24, most linked to Musk’s companies, are playing a key role as he seizes control of federal infrastructure. Elon Musk’s takeover of federal government infrastructure is ongoing, and at the center of things is a coterie of engineers who are barely out of—and in at least one case, purportedly still in—

                                                                                    The Young, Inexperienced Engineers Aiding Elon Musk’s Government Takeover