並び順

ブックマーク数

期間指定

  • から
  • まで

241 - 280 件 / 349件

新着順 人気順

Databricksの検索結果241 - 280 件 / 349件

  • Azure status history | Microsoft Azure

    Preliminary Post Incident Review (PIR) - Azure Front Door - Intermittent latency and timeouts in the UK Preliminary Post Incident Review (PIR) – Azure Front Door – Intermittent latency and timeouts in the UK This is our "Preliminary" PIR that we endeavor to publish within 3 days of incident mitigation, to share what we know so far. After our internal retrospective is completed (generally within 14

    • データ基盤移行計画とPySpark(Spark Connect)の検証 - MicroAd Developers Blog

      マイクロアドでサーバサイドエンジニアをしているタカギです。 今回はデータ基盤移行とPySparkについての話になります。 目次 目次 データ基盤移行の概要 データ基盤移行後のバッチ処理 Spark Connectを導入する Spark Connectの問題点 まとめ 補足 データ基盤移行の概要 諸々の事情1により、データ基盤をHadoopから移行することになりました。 現在のデータ基盤でのETL/ELT処理はHadoopエコシステム(Hive、HDFSなど)を中心に構成されています。 ※Hadoopについてはこちらの記事が参考になります。 これらをKubernetes、PySpark、S3互換ストレージ(詳細未確定)を組み合わせたデータ基盤へ移行する計画です。 すぐにすべてを移行するのは難しく、完全移行までは新旧並行稼働がそれなりの期間続く予定です。 今回の記事では、PySparkを使用し

        データ基盤移行計画とPySpark(Spark Connect)の検証 - MicroAd Developers Blog
      • データメッシュアーキテクチャの段階的な検討プロセスをご紹介します - KAKEHASHI Tech Blog

        この記事は カケハシ Advent Calendar 2023 の19日目の投稿になります。 adventar.org 東 浩稔(あずま ひろとし)と申します。 私は、カケハシでデータプロダクトのPdM(プロダクトマネージャー)を務めております。 2023年の7月に入社し、全社のデータ利活用を促進するため、データプロダクトの整備・強化に取り組んでいます。 今回は、9月にDatabricks AI World Tour Tokyo 2023で発表した「データガバナンスの視点から見たデータメッシュアーキテクチャ」を元に 当社のデータメッシュアーキテクチャの詳しく掘り下げて解説いたします。 本書を読むことで得られること データメッシュアーキテクチャを段階的に検討するための手法やヒントが得られます。 当社はなぜデータメッシュアーキテクチャか? 当社では、患者様や薬剤師様の医療体験を向上させるため、

          データメッシュアーキテクチャの段階的な検討プロセスをご紹介します - KAKEHASHI Tech Blog
        • 日本語データセットを用いたMPT-7Bのファインチューニングおよび性能評価とチャットボット構築 - Platinum Data Blog by BrainPad

          本記事は、当社オウンドメディア「Doors」に移転しました。 約5秒後に自動的にリダイレクトします。 このたびブレインパッドは、LLM/Generative AIに関する研究プロジェクトを立ち上げ、この「Platinum Data Blog」を通じてLLM/Generative AIに関するさまざまな情報を発信をしています。 最近、オープンソースかつ商用利用可能なLLMを日本語に対応させるファインチューニングが注目を集めている中、商用利用可能な日本語データセットを用いてMPT-7Bをファインチューニングしてみました。 はじめに こんにちは、アナリティクスサービス部の内田です。 最近、オープンソースかつ商用利用可能なLLMを日本語に対応させるファインチューニングが注目を集めています。上記のようなLLMを使用すれば、ChatGPTやそのAPIとは異なり、オンプレ環境やクラウド環境で実行する場合

            日本語データセットを用いたMPT-7Bのファインチューニングおよび性能評価とチャットボット構築 - Platinum Data Blog by BrainPad
          • Databricksで綺麗にメダリオンアーキテクチャを構築するために実装ルールを決めた話 - バイセル Tech Blog

            こちらは バイセルテクノロジーズ Advent Calendar 2022 の10日目の記事です。 前日の記事は 稲川さんの「Railsでscopeとeager_loadを組み合わせて関連テーブルのデータを一括取得した話」でした。 テクノロジー戦略本部データサイエンス部の近藤です。2022年7月にバイセルに入社しました。 バイセルではSSOT(Single Source Of Truth)を実現するためにDatabricksを導入しましたが、 サーバーやフロントの開発と同じく、チーム開発を行う場合に個人が好き勝手に実装をするとコードがカオスになってしまうため、何らかの実装ルールが必要です。 そこでバイセルではメダリオンアーキテクチャというデータ設計をもとに実装ルールを定めました。今回はそちらのお話をいたします。 なお、以前GCPでDatabricksを導入した経緯をブログ記事にしてますので

              Databricksで綺麗にメダリオンアーキテクチャを構築するために実装ルールを決めた話 - バイセル Tech Blog
            • Synapse Analytics の特徴って何なんだろう?? at SE の雑記

              Synapse Analytics については、以前 SQL Data Warehouse (SQLDW) と呼ばれていた部分のみしかきちんと理解できておらず、全体像がぼんやりとしたままでした。 Azure Synapse Analytics Overview がとても素晴らしくまとまっていました。 旧 SQL DW 部分以外は実際には触れていないので、理解に誤りがある個所もあると思いますが、このスライドを見ながら特徴を勉強してみようかと。 はじめに サービスの特徴としては、Azure Synapse Analytics に次のように記載されています。 Azure Synapse は、制限のない分析サービスで、エンタープライズ データ ウェアハウスとビッグ データ分析がまとめられています。サーバーレスのオンデマンドまたはプロビジョニング済みリソースのいずれかを使用して、自分の条件でデータを

                Synapse Analytics の特徴って何なんだろう?? at SE の雑記
              • 週刊Railsウォッチ: ShopifyのYJIT記事、RubyGemsのgem execコマンドほか(20230202後編)|TechRacho by BPS株式会社

                週刊Railsウォッチについて 各記事冒頭には🔗でパーマリンクを置いてあります: 社内やTwitterでの議論などにどうぞ 「つっつきボイス」はRailsウォッチ公開前ドラフトを(鍋のように)社内有志でつっついたときの会話の再構成です👄 お気づきの点がありましたら@hachi8833までメンションをいただければ確認・対応いたします🙏 TechRachoではRubyやRailsなどの最新情報記事を平日に公開しています。TechRacho記事をいち早くお読みになりたい方はTwitterにて@techrachoのフォローをお願いします。また、タグやカテゴリごとにRSSフィードを購読することもできます(例:週刊Railsウォッチタグ) 🔗Ruby 🔗 Ruby 3.2のYJITはproductionで使えるレベル(Ruby Weeklyより) 元記事: Ruby 3.2’s YJIT i

                  週刊Railsウォッチ: ShopifyのYJIT記事、RubyGemsのgem execコマンドほか(20230202後編)|TechRacho by BPS株式会社
                • Azure Databricks とは?使用するメリットや基本的な使い方について解説 - Qiita

                  はじめに 本記事では Azure Databricks についてまだ馴染みのないデータに関わるエンジニア向けに、Databricksについての概要の解説や基本的な操作方法について説明していきます。 少々ボリュームはありますが、本記事のみで Azure Databricks が一通り使えるような内容となっております。 注意点について Azure Databricks のワークスペースは既に準備されているという前提のもと進めていきます。ワークスペースの準備がまだお済でない場合、こちらに Azure databricks ワークスペースの作成方法が記載されていますので参考にしていただければと思います。 Databricks は大規模データの分析時に真価を発揮するサービスにはなりますが、今回はチュートリアルとして小さなサンプルデータを使用します。 Python や SQL の知識があると本記事の内

                    Azure Databricks とは?使用するメリットや基本的な使い方について解説 - Qiita
                  • The State of Data Engineering 2022 - Git for Data - lakeFS

                    This layer includes streaming technologies and SaaS services that provide pipelines from operational systems to data storage. The evolution worth mentioning here is the dramatic rise of Airbyte. Founded in 2020 and pivoting to its current offering only towards the end of that year, Airbyte is an open-source project used today by over 15,000 companies. The community counts over 600 contributors. It

                      The State of Data Engineering 2022 - Git for Data - lakeFS
                    • [2023年5月24日号]個人的に気になったModern Data Stack情報まとめ | DevelopersIO

                      さがらです。 Modern Data Stack関連のコンサルタントをしている私ですが、Modern Data Stack界隈は日々多くの情報が発信されております。 そんな多くの情報が発信されている中、この2週間ほどの間で私が気になったModern Data Stack関連の情報を本記事でまとめてみます。 ※注意事項:記述している製品のすべての最新情報を網羅しているわけではありません。私の独断と偏見で気になった情報のみ記載しております。 Modern Data Stack全般 Enterprise Tech 30(2023)が公開 Wing社によって取りまとめられ、ベンチャーキャピタリスト96名と各企業の開発責任者30名により評価されたテック企業の一覧として「Enterprise Tech 30」がありますが、この2023年版が公開されました。 Modern Data Stack界隈だと、

                        [2023年5月24日号]個人的に気になったModern Data Stack情報まとめ | DevelopersIO
                      • AWSのMLサービスを整理してみた - Qiita

                        顧客離れの予測 製品消費と購入に関する履歴データを使用し、顧客離れのパターンを明確に示しながら、将来に離脱するリスクがある消費者を推定します。 価格と収益を最適化 需要と価格、および季節的な傾向の履歴を通じて、商品やサービスの価格を予測し、収益を最大化しながら顧客にとって最良の価格を設定します。 配送時間の正確さを向上 受注、満足度、運搬状況、および休日データを利用して配送時間を予測し、サプライチェーンの最適化と、より効率的な商品配送を実現します。 効率的な在庫計画の作成 過去の売上と需要のデータを、関連するウェブトラフィック、料金、製品カテゴリー、天候、休日の情報と組み合わせることで、必要な在庫数を予測します。 トレーニングデータセットの品質向上 Amazon SageMaker のデータラベリング製品は、合成データ生成などの手動によるエラーの発生が少なく、トレーニングデータセットの品質

                          AWSのMLサービスを整理してみた - Qiita
                        • 【レポート】キーノート:「自動化されたデータ統合の未来」- Modern Data Stack Conference 2020 | DevelopersIO

                          2020年10月21日~22日にかけて、Fivetran社が主催するオンラインカンファレンスイベントであるModern Data Stack Conference 2020が開催されました。 オンラインイベントながら、かっこいいTシャツがイベント当日に間に合うよう、アメリカからはるばる送られてきました。「日本にいながらイベントに参加してるぞ!」なんて一体感を感じられますね。 本エントリでは、キーノート「The Future of Automated Data Integration(自動化されたデータ統合の未来)」についてレポートします。 セッション概要 スピーカー Fraser Harris, VP of Product @ Fivetran Tristan Handy, CEO & Founder @ Fishtown Analytics 内容 Fraser氏とTristan氏は、信頼

                            【レポート】キーノート:「自動化されたデータ統合の未来」- Modern Data Stack Conference 2020 | DevelopersIO
                          • AIを有効活用するために必要なこと――準備工程の複雑さをDatabricksが解決する【デブサミ2020】

                            「Software Ate The World, Now AI Is Eating Software(ソフトウェアは世界を食べた。今、人工知能がソフトウェアを食べようとしている)」これは、Web版のForbesで2019年8月29日に掲載された記事のタイトルである。AIは今後、利用の拡大が望まれる技術だ。しかし、期待が寄せられる一方、AIの活用はなかなか進んでいない。その要因としては、機械学習の実行環境の準備や各種データの抽出、フォーマットの変換など、準備工程が複雑であることが挙げられる。このセッションではDatabricks Japan株式会社のグティエレス・パウロ氏が、AIの現状やDatabricksのソリューションを用いたAI活用法について披露した。 Databricks Japan株式会社 ソリューション・アーキテクト グティエレス パウロ氏 AIが実現するビジネスインパクトは非常

                              AIを有効活用するために必要なこと――準備工程の複雑さをDatabricksが解決する【デブサミ2020】
                            • AWS re:Invent 2022 「for Apache Spark」に見るデータエンジニアリングのトレンド - Qiita

                              はじめに 株式会社NTTデータ Data & Intelligence事業部 の nttd-saitouyun です。 昨年12月の AWS re:Invent 2022 にて、以下の「for Apache Spark」機能が発表されました。 Amazon Redshift integration for Apache Spark Amazon Athena for Apache Spark Amazon DataZoneなど他にも目玉はあるものの、re:Inventで「for Apache Spark」という名がついた機能が2つも発表されていることには意味があると考え、本記事では、なぜ今「for Apache Spark」なのかについて考察してみました。 「for Apache Spark」について Apache Spark とは Apache Sparkは、大規模なデータに対してオンメ

                                AWS re:Invent 2022 「for Apache Spark」に見るデータエンジニアリングのトレンド - Qiita
                              • GitHub - taishi-i/awesome-ChatGPT-repositories: A curated list of resources dedicated to open source GitHub repositories related to ChatGPT

                                CLIs zap-gpt - Este projeto explora a integração do ChatGPT com o WhatsApp, transformando o chatbot em um assistente virtual capaz de realizar tarefas como falar com amigos, responder a perguntas de clientes, e muito mais, com um toque de humanização nas conversas. Tutorials langchain-kr - LangChain 공식 Document, Cookbook, 그 밖의 실용 예제를 바탕으로 작성한 한국어 튜토리얼입니다. 본 튜토리얼을 통해 LangChain을 더 쉽고 효과적으로 사용하는 방법을

                                  GitHub - taishi-i/awesome-ChatGPT-repositories: A curated list of resources dedicated to open source GitHub repositories related to ChatGPT
                                • 第102回 連載100回記念第2弾「OSSデータベースは100ヶ月後も生き残れるか?」、MySQL 8.3.0のリリース、PostgreSQL最新情報 | gihyo.jp

                                  OSSデータベース取り取り時報 第102回連載100回記念第2弾「OSSデータベースは100ヶ月後も生き残れるか?」⁠⁠、MySQL 8.3.0のリリース⁠⁠、PostgreSQL最新情報 この連載はOSSコンソーシアム データベース部会のメンバーがオープンソースデータベースの毎月の出来事をお伝えしています。前回紹介した連載100回記念セミナー第1弾につづく第2弾について報告します。 連載100回記念第2弾「OSSデータベースは100ヶ月後も生き残れるか?」 前回にお知らせしたとおり、1月27日のオープンソースカンファレンス(OSC)2024 Osaka(大阪開催)にて本連載の100回を記念した企画セミナーの第2弾を実施しました。今回のOSC 2024 Osakaは4年ぶりに展示とセミナーの両方が会場で開催することになり、OSSコンソーシアムメンバに加えてオープンソースソフトウェア協会(O

                                    第102回 連載100回記念第2弾「OSSデータベースは100ヶ月後も生き残れるか?」、MySQL 8.3.0のリリース、PostgreSQL最新情報 | gihyo.jp
                                  • Lakehouse: A New Generation of Open Platforms that Unify Data Warehousing and Advanced Analytics

                                    Lakehouse: A New Generation of Open Platforms that Unify Data Warehousing and Advanced Analytics Michael Armbrust1, Ali Ghodsi1,2, Reynold Xin1, Matei Zaharia1,3 1Databricks, 2UC Berkeley, 3Stanford University Abstract This paper argues that the data warehouse architecture as we know it today will wither in the coming years and be replaced by a new architectural pattern, the Lakehouse, which will

                                    • Dataform を活用してデータ変換パイプラインを構築する - バイセル Tech Blog

                                      はじめに テクノロジー戦略本部データサイエンス部データアナリストの森山です。 バイセルでは事業部組織(以下、Biz メンバー)が自立してデータに基づいた意思決定を行うことを目的に、データ基盤を整備しグループの全社員に公開しています。 Biz メンバーは自分自身で SQL を書きデータ基盤から必要なデータを抽出しますが、そのためには基盤に蓄積したデータを必要な形式に変換・加工(以下、データ変換パイプライン)する必要があります。 今回は、データ変換パイプラインの構築のために導入した Google Cloud が提供する Dataform の利用事例をご紹介します。 Dataform をこれから活用しようと思っている方、実例が見つからず悩んでいる方の参考になれば幸いです。 ※なぜ Biz メンバーが SQL を書く環境を整備しているかは、以下の記事をご確認ください。 tech.buysell-t

                                        Dataform を活用してデータ変換パイプラインを構築する - バイセル Tech Blog
                                      • Google Colab で Dolly 2.0 を試す|npaka

                                        「Google Colab」で「Dolly 2.0」を試したので、まとめました。 【注意】「Google Colab」で「Dolly 2.0 12B」を実行するには、「Google Colab Pro/Pro+」のプレミアムが必要です。 1. Dolly 2.0「Dolly 2.0」は、Databricksの機械学習プラットフォームで学習された命令追従型大規模言語モデルです。「pythia」ベースで、商用利用が許可されています。InstructGPT論文の能力ドメイン(ブレインストーミング、分類、クローズドQA、生成、情報抽出、オープンQA、要約など)でDatabricks社員が生成した15Kの学習データで学習しています。 公式では、次の3モデルが提供されています。 ・databricks/dolly-v2-12b ・databricks/dolly-v2-7b ・databricks/d

                                          Google Colab で Dolly 2.0 を試す|npaka
                                        • Hello Dolly: Democratizing the magic of ChatGPT with open models

                                          Unified governance for all data, analytics and AI assets

                                            Hello Dolly: Democratizing the magic of ChatGPT with open models
                                          • Delta LakeのACIDトランザクションについて - Qiita

                                            この記事は、Distributed computing (Apache Spark, Hadoop, Kafka, ...) Advent Calendar 2021 の12/25のエントリです。 はじめに ビッグデータにおける分散型ストレージと聞いて、皆さんは何を思い浮かべますか。例として、Apache Hadoop HDFSがあげられるでしょう。HDFSなどの分散型ストレージの誕生によって、大量のデータを保存・活用ができるようになったわけです。これらの分散型ストレージはスケーラビリティや耐故障性の面で優れています。一方、データ処理や分析のデータストアとして比較に挙げられがちなのはRDBMSですが、RDBMSと比べると特徴が一部失われていることもあります。例えば、並列分散化に加えてある程度の塊で書き込む工夫のトレードオフとして読み込み・書き込みを低レイテンシで行うことが難しくなった、書き

                                              Delta LakeのACIDトランザクションについて - Qiita
                                            • 地理空間情報分析とは?衛星画像と位置情報データを触ってみる - Qiita

                                              位置情報 (GPS) データ - 乗車エリアごとのNYCタクシー運行距離(時系列) 目次 はじめに 地理空間情報分析とは 実際に触ってみた 衛星画像 位置情報データ おわりに はじめに 皆さんは地理空間情報がお好きでしょうか。 「天網恢恢疎にして漏らさず」と老子は言ったそうですが、現代では「地理空間情報」と呼ばれる位置情報が付与されているデータが時々刻々と生み出されており、どこで何が起きているか教えてくれます。今回は世界で何が起きているかを解き明かす「地理空間情報分析」について紹介します。 対象読者: 衛星画像や位置情報を使ったデータ分析に興味のあるエンジニア/分析担当者 目的: 地理空間情報分析で取り扱われるデータ(衛星画像・位置情報)を把握する 留意事項として、今回はそれぞれの処理の詳細な説明はいたしません。ご興味のある方は LinkedIn や弊社ホームページなどからお問い合わせいた

                                                地理空間情報分析とは?衛星画像と位置情報データを触ってみる - Qiita
                                              • 生成AIでデータ分析やコーディングはどう変わるのか? - Qiita

                                                こちらでお話しした内容です。 自己紹介とイベント案内 Databricks DATA+AI WORLD TOUR Tokyo Databricks Japan最大のイベント! 日時: 2023年9月14日(木) 場所: ANA インターコンチネンタルホテル東京 URL: https://dbricks.co/3QOCKGs イベント概要: データブリックスジャパン、最大の年次イベントです!お客様、弊社社長によるキーノートスピーチ、Databricksハンズオン、テクニカルブレークアウトセッションなどを対面で実施します!生成AIの話題も多数カバーしています! JEDAI勉強会 第4回: 生成AIとは何か? 日時: 2023年9月27日(水) URL: https://jedai.connpass.com/event/293793/ イベント概要 田辺三菱製薬様にご登壇いただき、生成AI活用の

                                                  生成AIでデータ分析やコーディングはどう変わるのか? - Qiita
                                                • Databricks E2リリースで新しく追加された機能について

                                                  はじめに 2020年9月、AWS上で利用可能なdatabricksのプランに新しく E2 が追加されました。 この記事では、E2の機能について紹介していきます。 プランの概要 E2のプランにすることで、以下の機能が使えるようになります。 マルチワークスペースアカウント 顧客管理VPC 安全なクラスター接続 ノートブックの顧客管理キー それぞれの機能について、見ていきます。 1. Multi-workspace accounts アカウントAPIを使用し、単一のDatabricksアカウントで、複数の新しいDatabricksワークスペースをプログラムで作成することが可能です。作成する各ワークスペースには 異なる構成を設定できます。 2. Customer-managed VPCs デフォルトでは、Databricksは各ワークスペースのAWSアカウントにVPCを作成しますが、E2の場合、こ

                                                  • 未利用だった数千万件の配荷データが“ファンづくり”の主役に カルビーが実現したデータ活用の舞台裏

                                                    人口減少の局面にある日本市場で企業が生き残るには、いかに顧客を確保するかという課題に向き合う必要がある。「ポテトチップス」「じゃがりこ」といったスナック菓子で有名なカルビーは、会社や商品のファンになった人たちと積極的にコミュニケーションを取ることで愛着心を高めてもらおうと奮闘している。 ファンづくりの一環で力を入れているのが、スマートフォン向けアプリ「カルビー ルビープログラム」(以下、ルビープログラム)だ。アプリを介して、工場見学やじゃがいもの収穫体験など独自の体験を提供して商品や会社を身近に感じてもらうデジタルマーケティングだ。 2020年9月にルビープログラムを開始。カルビーの商品がどこの店舗で売っているか検索できる機能「販売店検索システム」を22年1月に追加した。ポテトチップスだけでも年間100種類を超えるという新商品の中には、数量限定や期間限定商品も多いため、「食べたいけど売って

                                                      未利用だった数千万件の配荷データが“ファンづくり”の主役に カルビーが実現したデータ活用の舞台裏
                                                    • Deep Dive: Delta Log について理解する - connecting the dots

                                                      はじめに 環境情報 前提: Delta Lakeとは何か Delta Log とは何か _delta_logディレクトリの構成 1. JSONトランザクションログ: 2. Checkpoint ファイル: 3. Last Checkpoint ファイル: 4. CRC (Cyclic Redundancy Check) ファイル: JSONトランザクションログ JSONトランザクションログのスキーマ アトミックコミットを構成するアクション metaData: メタデータの更新 add: ファイルの追加 remove: ファイルの削除 txn: トランザクションの設定 protocol: プロトコルの変更 commitInfo: コミット情報 Checkpoint ファイル Last Checkpoint ファイル CRC (Cyclic Redundancy Check) ファイル CRC

                                                        Deep Dive: Delta Log について理解する - connecting the dots
                                                      • データレイクとデータウェアハウスとは?それぞれの強み・弱みと次世代のデータ管理システム「データレイクハウス」を解説

                                                          データレイクとデータウェアハウスとは?それぞれの強み・弱みと次世代のデータ管理システム「データレイクハウス」を解説
                                                        • 【FDUA】第一回 金融データ活用チャレンジをやってみている #1 - Qiita

                                                          ひょんなことから【FDUA】第一回 金融データ活用チャレンジに参加しているので、個人の活動記録を兼ねてやってることを書いてみます。 正直、あまり分析の助けにはならないと思いますが、学習回してる間の読み物にでもなれば。。。 自身の背景知識 コンペ初参加。Kaggle覗いたことがある程度。 機械学習はちょっと触ってる程度。 コンペの分析基盤であるDatabricksは業務で利用中。プラットフォーム自体の知識はそこそこある・・・かな? 金融のドメイン知識は全く無い。 普段はデータエンジニア・アナリティクスエンジニア的な仕事を事業会社でやっていて、 コンペ参加は勉強のためという理由です。 参加にあたってのコンセプト(自分への縛り) せっかくなので、「Databricksらしい(?)」やり方でやってみて、どこまでいけるか試す。 モデル訓練は頑張らない。頑張らない方法でやる。 前処理や特徴量エンジニア

                                                            【FDUA】第一回 金融データ活用チャレンジをやってみている #1 - Qiita
                                                          • 初心者歓迎の機械学習資格「Azure Data Scientist Associate」とは? 合格するには

                                                            関連キーワード Amazon Web Services | Microsoft Azure | Google IT分野でのキャリア形成に役立つ、大手クラウドベンダーの機械学習認定資格。Amazon Web Services(AWS)の「AWS Certified Machine Learning - Specialty」を紹介した前編「“機械学習のプロ”を認める『AWS Certified Machine Learning - Specialty』とは? 合格するには」に続き、中編となる本稿はMicrosoftの「Azure Data Scientist Associate」を取り上げる。 初心者歓迎 知っておきたい「Azure Data Scientist Associate」とは 併せて読みたいお薦め記事 機械学習の活用が広がっている 深層学習と機械学習の違いとは? 実例で分かるその活

                                                              初心者歓迎の機械学習資格「Azure Data Scientist Associate」とは? 合格するには
                                                            • 【特集#2】The Cloud 100 2021を一挙に紹介します(#1-30)|One Capital|note

                                                              こんにちは、One Capital の三好(@saas_penguin)です。 ここ2日間くらいはとても涼しいですね。リビングにエアコンがないので、大変助かっております。むしろ、このくらいの気温が1年中続けばいいなと思いました。 毎年恒例の「The Cloud 100」の発表があったので、急遽企画を変更して、The Cloud 100 2021 にランクインした企業について紹介したいと思います。 すでにレポートを読んだ方も多いかと思いますが、100社がどんな会社なのか知らない方も多いのではないでしょうか。 そこで、今回は2021にランクインした100社全てを、直近の資金調達とともに簡単に紹介したいと思います。100社全てを一度に紹介するととんでもないボリュームになるので、3回に分けます(今回も1万字近くですがw)。 レポートをまだ見ていないという方は、Twitterでサマりましたので、よろ

                                                                【特集#2】The Cloud 100 2021を一挙に紹介します(#1-30)|One Capital|note
                                                              • Github Copilot Chat にて生成される SQL 文を Few-shot learning により改善する方法 - Qiita

                                                                Github Copilot Chat にて生成される SQL 文を Few-shot learning により改善する方法GitHubSQLDatabricksgithubcopilotChatGPT 概要 Github Copilot Chat にて SQL 文(CREATE TABLE 文)を Few-shot learning により改善できたため、実施内容を共有します。データストアに最適化した SQL を生成するプロンプトに関する記事があまり見つけられなかったため、参考にしていただければ幸いです。 想定実行対象のデータストアは、Databricks(Spark) であり、Spark に関する情報を学習していないようで、想定通りの CREATE TABLE 文を生成できませんでした。 Create a new table with the following conditions:

                                                                  Github Copilot Chat にて生成される SQL 文を Few-shot learning により改善する方法 - Qiita
                                                                • 【Llama 3】ついに出たMeta最新モデル!SonetやGPT-3.5よりもスゴイって本当? | WEEL

                                                                  WEELメディア事業部LLMライターのゆうやです。 2024年4月18日、ついにMetaよりLlamaシリーズの最新モデルとなるLlama 3が公開されました! Introducing Meta Llama 3: the most capable openly available LLM to date. Today we’re releasing 8B & 70B models that deliver on new capabilities such as improved reasoning and set a new state-of-the-art for models of their sizes. Today's release includes the first two Llama 3… pic.twitter.com/Q80lVTeS7m — AI at Meta (@

                                                                    【Llama 3】ついに出たMeta最新モデル!SonetやGPT-3.5よりもスゴイって本当? | WEEL
                                                                  • 5分でわかるAzure Databricksの特徴とは?| Azure導入支援デスク

                                                                    5分で分かるAzure Databricksの特徴とは? 2023年12月30日編集 DXの実現においては、大量データを効率的に処理できるデータ分析プラットフォームが必要となります。そのような中で検討したいのが、企業のデータ分析ニーズに一元的に対応できるAzure Databricksです。 今回は、Azure Databricksでどのようなことが実現できるのか、特長や活用事例をご紹介していきます。 Azure Databricksとは? レイクハウス「Databricks」をAzure上で利用できるサービス Azure Databricksとは、Microsoft Azureクラウドサービス上で動作する、大量のデータを高速に分析できるサービスです。 Databricksは同名称のDatabricks社が提供するレイクハウスプラットフォームです。DatabricksをMicrosoft

                                                                    • Google Cloud上でのDatabricksの一般提供が開始

                                                                      CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

                                                                        Google Cloud上でのDatabricksの一般提供が開始
                                                                      • [2024年6月6日号]個人的に気になったModern Data Stack情報まとめ | DevelopersIO

                                                                        さがらです。 Modern Data Stack関連のコンサルタントをしている私ですが、Modern Data Stack界隈は日々多くの情報が発信されております。 そんな多くの情報が発信されている中、この2週間ほどの間で私が気になったModern Data Stack関連の情報を本記事でまとめてみます。 ※注意事項:記述している製品のすべての最新情報を網羅しているわけではありません。私の独断と偏見で気になった情報のみ記載しております。 Data Extract/Load Fivetran 「Fivetran Managed Data Lake Service」を発表 Fivetranが新機能として、「Fivetran Managed Data Lake Service」を発表しました。 基本的には、宛先にS3、Azure Data Lake Storage、Microsoft OneLa

                                                                          [2024年6月6日号]個人的に気になったModern Data Stack情報まとめ | DevelopersIO
                                                                        • Japan PR slides

                                                                          DeepSpeed: 深層学習の訓練と推論を劇的に 高速化するフレームワーク Microsoft DeepSpeed Team 2023 年 6 月 7 日 このスライドでは、我々が研究開発しているDeepSpeedというフレームワークに ついて、概要をご紹介します。 1 概要 • 大規模かつ高速な深層学習を容易に実現する様々な機能を持ったソフトウェア • オープンソースソフトウェアとしてGitHubで公開中 • DeepSpeed (メインのレポジトリ) • DeepSpeedExamples (使用例). • Megatron-DeepSpeed (NVIDIAのMegatron-LMと結合したもの). • DeepSpeed-MII (DeepSpeedの高速な推論を容易に利用するためのツール) メインレポジトリのURL DeepSpeedのプロジェクトは、MicrosoftのAI

                                                                          • Scala を使っている海外有名(big) tech 企業の紹介

                                                                            2021年には Scala 3 がリリースされて激アツなのに、google のサジェストでも "Scala オワコン" がでてきて悲しいですね😢 どこぞのインフルエンサーの影響でしょうか... ほかにも 有名OSS作者の travis brown さんがサヨナラしちゃったり... JetBrains さん: わが社のスカラチームは二番目に大きなチームですよ😊 JetBrains さん: だれも Scala 使ってないらしいので Fleet で Scala はさぽーとしませ~ん🤪 Kotlin を使ってね😊 (一応、JVM言語の読み込み・解析は可能なようですが Scala のシンタックスハイライトや補完機能は導入されていないようです.) なんてことがあったり... Scalaはオワコン?🤔 せっかくなので調べてみました!😖 以下 Scala を使っている big tech とその

                                                                              Scala を使っている海外有名(big) tech 企業の紹介
                                                                            • MLflow and PyTorch — Where Cutting Edge AI meets MLOps

                                                                              Authors: Geeta Chauhan, PyTorch Partner Engineering Lead and Joe Spisak, PyTorch Product Lead at Facebook PyTorch has continued to evolve rapidly since the introduction of PyTorch 1.0, which brought an accelerated workflow from research to production. Looking at the momentum in research, as shown on paperswithcode.com/trends, we can see that the research community has embraced PyTorch as its tool

                                                                                MLflow and PyTorch — Where Cutting Edge AI meets MLOps
                                                                              • Databricks MLflowインテグレーションの一般供与が開始

                                                                                シンプルなテストピラミッドの提案 ~ テストを有効活用するためのイロハ Overcomplicating your test structure can lead to slow, brittle tests. A focus on test speed as the primary labeling mechanism maximizes your test investment.

                                                                                  Databricks MLflowインテグレーションの一般供与が開始
                                                                                • MLOpsのキホンと動向

                                                                                  主要カテゴリー IBM Cloud Blog IBM Data and AI IBM Consulting IBM Partner Ecosystem IBM Sustainability Software Client Engineering IBM テクニカル・サポート 社員が語る「キャリアとIBM」 IBM Cloud Blog IBM Cloud News IBM クラウド・ビジョン IBM Cloud アップデート情報 IBM Cloud チュートリアル IBM Data and AI IBM Watson Blog アナリティクス Data Science and AI SPSS Modeler ヒモトク Db2 オートメーション IBM Consulting デジタル変革(DX) アプリの開発とモダナイゼーション 製品/サービス ソフトウェア ハードウェア サービス 無料評価

                                                                                    MLOpsのキホンと動向