並び順

ブックマーク数

期間指定

  • から
  • まで

361 - 400 件 / 861件

新着順 人気順

Databricksの検索結果361 - 400 件 / 861件

  • How Uber Uses Spark and Hadoop to Optimize Customer Experience

    How Uber Uses Spark and Hadoop to Optimize Customer Experience If you’ve ever used Uber, you’re aware of how ridiculously simple the process is. You press a button, a car shows up, you go for a ride, and you press another button to pay the driver. But there’s a lot more going on behind the scene, and much of that infrastructure increasingly runs on Hadoop and Spark, as the Uber data team recently

      How Uber Uses Spark and Hadoop to Optimize Customer Experience
    • What's new in Azure Media Services video processing | Blog | Microsoft Azure

      Products Popular View all products (200+) Azure Virtual Machines Azure Virtual Desktop Azure SQL Microsoft Copilot in Azure PREVIEW Azure AI Services Azure AI Studio Azure Cosmos DB Azure Kubernetes Service (AKS) Azure Arc​ Azure Migrate AI + machine learning Azure Machine Learning Azure AI Services Microsoft Copilot in Azure PREVIEW Azure OpenAI Service Azure AI Studio Azure AI Vision Azure AI Se

      • TensorFlowOnSparkを動かしてみた

        TensorflowOnSparkを起ち上げてみた Yahoo!がTensorflowOnSparkを公開しました。 Sparkクラスターで動くTensorflowのようです。 GitHub: https://github.com/yahoo/TensorFlowOnSpark 記事: http://yahoohadoop.tumblr.com/ https://techcrunch.com/2017/02/13/yahoo-supercharges-tensorflow-with-apache-spark/ Distributed Tensorflowはすでにありますし、Sparkクラスターでの起動を試している人も見かけましたが、天下のYahoo!がTensorflowをカバーするというので面白い試みです。 Distributed Tensorflow https://www.tenso

          TensorFlowOnSparkを動かしてみた
        • TechCrunch

          Databricks has remained a hot startup at a time when interest from investors has cooled across the ecosystem. Just last month the company raised $500 million at an eye-popping $43 billion valuation. T

            TechCrunch
          • TechCrunch

            Databricks has remained a hot startup at a time when interest from investors has cooled across the ecosystem. Just last month the company raised $500 million at an eye-popping $43 billion valuation. T

              TechCrunch
            • 20160322 bdi

              20160322 bdi 1. Spark as a Compiler + SQL Codegen Researches 2016.3.22 maropu@BDI 2. SparkSQL codegen h<ps://issues.apache.org/jira/browse/SPARK-­‐12795 •  Sparkers currently developing whole-­‐stage codegen under a JIRA Pcket, SPARK-­‐12795 –  a part of the Project Tungsten bringing Spark to bare-­‐metal –  fusing a sub-­‐tree of operators (stages) into a single efficient funcPon •  A quick overvie

                20160322 bdi
              • visual-studio-team-services-september-2017-digest

                Products Popular View all products (200+) Azure Virtual Machines Azure Virtual Desktop Azure SQL Microsoft Copilot in Azure PREVIEW Azure AI Services Azure AI Studio Azure Cosmos DB Azure Kubernetes Service (AKS) Azure Arc​ Azure Migrate AI + machine learning Azure Machine Learning Azure AI Services Microsoft Copilot in Azure PREVIEW Azure OpenAI Service Azure AI Studio Azure AI Vision Azure AI Se

                • Apache Spark - Wikipedia

                  Apache Sparkはオープンソースのクラスタコンピューティングフレームワークである。カリフォルニア大学バークレー校のAMPLabで開発されたコードが、管理元のApacheソフトウェア財団に寄贈された。Sparkのインタフェースを使うと、暗黙のデータ並列性と耐故障性を備えたクラスタ全体をプログラミングできる。 日経BP社が発表した「ITインフラテクノロジーAWARD 2015」において、SparkはDockerに次ぐ準グランプリとされた[2]。 概要[編集] フォールトトレラントシステムで管理され、複数マシンのクラスタに分散されたデータ項目の読み取り専用多重集合であるRDD(resilient distributed dataset)と呼ばれるデータ構造を中心とするアプリケーションプログラミングインターフェイスを備えている。MapReduceは、分散プログラム上で特定の線形データフロー

                    Apache Spark - Wikipedia
                  • Best Open Source Software List For Data Management In 2024

                    Data management software encompasses a range of tools used in collaboration to help businesses collect, store, and maintain data and extract value from it, including everything from data analytics platforms to data warehouses. The best open source tools for data management offer the same features and capabilities as paid versions but are freely available to use, customize, and distribute without b

                      Best Open Source Software List For Data Management In 2024
                    • Spark/Sharkで次世代Hadoop? – OpenGroove

                      Clouderaが、Apache Sparkのサポートを開始したそうだ。 正直に言うと、Apache Sparkって今日初めて聞いたんだけど… Cloudera announces support for Apache Spark, Cloudera Connect: Innovators partnership with Databricks. http://t.co/hRP7xbMTxH — Matt Aslett (@maslett) October 28, 2013 以下資料によると、Hadoop HDFSに特殊なキャッシュを載せて繰り返し処理を高速化できるもの、らしい。条件によってはMapReduceより100倍高速になることも。処理はDSLで記述するが、さらにSQLライクな構文で記述可能なフレームワークSharkを利用することでHive同様な使い方ができる! こちらは日本語の非

                      • BigDL + Apache Spark on EMR 5.8 でお手軽分散学習 - Obey Your MATHEMATICS.

                        こんにちは。例のごとく久しぶりの投稿になってしまいました。 前回投稿からいろいろな事がありました。 db analytics showcase Sapporo 2017 で講演してきたり ベイズ統計の数理と深層学習 @db analytics showcase Sapporo 2017 from Takeshi Yoneda www.slideshare.net 雑誌に激エモポエムを寄稿したり YANSに参加してきたり gunosiru.gunosy.co.jp テキストアナリティクス・シンポジウム で発表してきたり data.gunosy.io もう少しで新卒で入社して半年が過ぎるわけですが、今振り返ると本当に刺激的な日々でした。近いうちに書籍の執筆もするっぽいです。 この調子で突っ走りたいと思います。 さて、前置きはこれくらいにして今日の題材は BigDL + Spark on EMR

                          BigDL + Apache Spark on EMR 5.8 でお手軽分散学習 - Obey Your MATHEMATICS.
                        • Deep Dive into Spark SQL's Catalyst Optimizer

                          Unified governance for all data, analytics and AI assets

                            Deep Dive into Spark SQL's Catalyst Optimizer
                          • [翻訳] GPT-4 System Card (後編) - Qiita

                            こちらの後半にあるGPT-4 System Cardの翻訳です。前後編の後編です。前編はこちら。Technical Reportはこちら。 Databricksのユーザー会でChatGPTの勉強会やります。 注意 本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。 脚注、参考文献、Appendixなどは本文をご覧ください。 3 デプロイメントの準備 OpenAIはより安全なローンチに備えるために8月上旬以来、GPT-4とデプロイメント計画に対してイテレーション[21]を行ってきました。我々は、これによってリスクの浮上を押し留めていると信じていますが、完全に排除したわけではありません。現在のデプロイメントは、デプロイメントによるリスクの最小化と、ポジティブなユースケースの実現、デプロイメントからの学習のバランスをとっています。この期間における我

                              [翻訳] GPT-4 System Card (後編) - Qiita
                            • Introducing DBRX: A New State-of-the-Art Open LLM | Databricks

                              Unified governance for all data, analytics and AI assets

                                Introducing DBRX: A New State-of-the-Art Open LLM | Databricks
                              • What's new for Spark SQL in Apache Spark 1.3

                                Unified governance for all data, analytics and AI assets

                                  What's new for Spark SQL in Apache Spark 1.3
                                • How to accelerate Scala Builds with Bazel

                                  Unified governance for all data, analytics and AI assets

                                    How to accelerate Scala Builds with Bazel
                                  • Top 5 Reasons for Choosing S3 over HDFS

                                    Unified governance for all data, analytics and AI assets

                                      Top 5 Reasons for Choosing S3 over HDFS
                                    • TechCrunch

                                      Even with some criticisms, most VC think that the state's effort to track diversity data is worth it. Databricks has remained a hot startup at a time when interest from investors has cooled across the ecosystem. Just last month the company raised $500 million at an eye-popping $43 billion valuation. T

                                        TechCrunch
                                      • TechCrunch

                                        Even with some criticisms, most VC think that the state's effort to track diversity data is worth it. Databricks has remained a hot startup at a time when interest from investors has cooled across the ecosystem. Just last month the company raised $500 million at an eye-popping $43 billion valuation. T

                                          TechCrunch
                                        • Sparkで機械学習: 回帰モデルで値を予測する - Namiking.net

                                          サンプルデータ: 身体情報から結婚時期を予測する CSV形式のダウンロード データの傾向 ただ無差別にデータを作っても、予測が合ってるかどうかの判断がつかないため、 以下の様な事実無根な法則で値をでっちあげてみた。 B型は早婚 O型は晩婚 AB型はとても早婚 女性は早婚 肥満とモヤシは晩婚 男性の高身長はとても晩婚 コーディング前の準備 Apache Zeppelinのインストール Spark(ScalaやPython)の記述やその他細かいシェルスクリプトなどの操作をWeb上でインタラクティブに行えるノートブック系OSS1。この記事では、Sparkの操作は基本的にこのソフトを用いてコーディングを行っている。Sparkも一緒に含まれているので、これをローカルにインストールするだけで概ね動くはず。 Apache Zeppelin (incubating) https://zeppelin.in

                                          • RAG (Retrieval Augmented Generation) を活用!LLMで外部データを参照する方法を解説 | 株式会社ARISE analytics(アライズ アナリティクス)

                                            Tweet RAG (Retrieval Augmented Generation) を活用!LLMで外部データを参照する方法を解説 はじめに はじめまして、DX Technology Unitの芹澤です。普段はAI関連技術を用いた研究開発に携わっています。 昨今、ChatGPTを初めとした大規模言語モデル (Large Language Model; 以下LLM) が話題になっており、様々な質問に対して非常に優れたアウトプットが得られるようになりました。一方、LLMを企業で使用する場合、社内特有のデータを参照する必要があるため、社内特化LLMシステムを構築することが必須となります。 弊社では、社内の業務効率化を目的とした生成AIの活用を促進する「生成AIプロジェクト」が立ち上がり、ChatGPTをはじめとしたLLMの検証作業を進めています。その中で生成AIが社内情報を参照できるようにする

                                              RAG (Retrieval Augmented Generation) を活用!LLMで外部データを参照する方法を解説 | 株式会社ARISE analytics(アライズ アナリティクス)
                                            • The problems in the Modern Data Stack

                                              👋 Hi folks, thanks for reading my newsletter! My name is Diogo Santos, and I write about data product principles, the evolution of the modern data stack, and the journey to data mesh (the future of data architecture). In today’s article, I’ll discuss the biggest challenges in the modern data stack. How do we got here, what are the main problems, and how to address them. Please consider subscribin

                                                The problems in the Modern Data Stack
                                              • An Overview of Apache Streaming Technologies | Databaseline

                                                There are many technologies for streaming data: simple event processors, stream processors, and complex event processors. Even within the open-source community there is a bewildering amount of options with sometimes few major differences that are not well documented or easy to find. That’s why I’ve decided to create an overview of Apache streaming technologies, including Flume , NiFi , Apex ,  Spa

                                                  An Overview of Apache Streaming Technologies | Databaseline
                                                • Databricks Community Edition で Spark に触れる - astamuse Lab

                                                  山縣です。 今回は Spark を無料で手軽に触れる Databricks Community Edition について書きたいと思います。 Databricks Community Editionとは Databricks は Databricks 社が提供しているSparkサービスで、Community Edition はその無料版にあたります。 無料にもかかわらずメモリ6GBのAWSのインスタンスとNotebook が使えるというなかなか太っ腹なサービスです。 弊社では Cloudera社の CDH のクラスタがありSparkもその上で動かしていますが、個人的にSpark そのものの動作を確認したり、異なるバージョンを触りたいときに時々使わせてもらっています。 Sparkの学習用環境としては十分な機能が備わっていると思いますので、簡単に紹介したいと思います。 ユーザ登録 Commun

                                                    Databricks Community Edition で Spark に触れる - astamuse Lab
                                                  • データ活用におけるトレンド予想2023

                                                    企業におけるデータ活用は年々注目度が増しており、ほぼすべての企業の中期経営計画においてデータ活用について触れられている。とはいえ、いきなり大きな投資をするのではなく、小さく始めて成功を重ねたい企業も多い。小さく始め、大きく成長させる、もしくは大きく成長した後に発生する課題に対応するための技術トレンドとして、モダンデータスタック、データファブリック、データメッシュという3つのキーワードを紹介する。 目次 Think Big Act Small !! Data&Intelligence領域における新語・流行語 モダンデータスタック(Modern Data Stack) データファブリック(Data Fabric) データメッシュ(Data Mesh) 3つのトレンドの共通点 忘れてはいけない、最終的な価値提供 Think Big Act Small !! この言葉を初めて聞いたのは、2005年

                                                      データ活用におけるトレンド予想2023
                                                    • 革新的ソフトウェアの初期投資家に聞く、これからのSaaS企業──Kleiner Perkins・Mamoon Hamidインタビュー

                                                      ALL STAR SAAS FUNDのメールマガジン「ALL STAR SAAS NEWSLETTER」購読登録受付中ALL STAR SAAS FUNDがお届けする 最新SaaSニュース、ブログ記事情報を配信するSaaS業界にいる方は必見のメールマガジン! この2年間、株式市場でSaaS企業の株価は大きく変動し、高いマルチプルを維持しているSaaSと、マルチプルが低下するSaaSが混在するようになりました。利益を優先するSaaSもあれば、大型調達を実施するSaaSもあり、マーケットは激しく変化し続けています。 米国の投資領域において第一線で活動を続けるベンチャーキャピタルは、この状況をどう見ているのでしょうか。今回、Box、Rippling、Figmaなど著名なSaaS企業への投資実績をもつ「Kleiner Perkins」のPartner Mamoon Hamidさんに『減速するSaa

                                                        革新的ソフトウェアの初期投資家に聞く、これからのSaaS企業──Kleiner Perkins・Mamoon Hamidインタビュー
                                                      • Microsoft、「Azure Data Factory」のデータソースコネクターを拡充

                                                        Microsoft、「Azure Data Factory」のデータソースコネクターを拡充:80種類以上のデータソースに対応 Microsoftは、フルマネージドデータ統合サービス「Azure Data Factory(ADF)」に各種データストアからデータを取り込むためのコネクターを拡充した。 Microsoftは2019年2月4日(米国時間)、「Microsoft Azure」で分析ワークロードを実行するためのフルマネージドデータ統合サービス「Azure Data Factory(ADF)」に各種データストアからデータを取り込むためのコネクターを拡充したと発表した。 ADFでは、80種類以上のデータソースからシンプルなドラッグ&ドロップでデータをコピーできる。さらに柔軟な制御フローや豊富なモニタリング機能、CI/CD(継続的インテグレーション/継続的デリバリー)機能により、SLA(サー

                                                          Microsoft、「Azure Data Factory」のデータソースコネクターを拡充
                                                        • リアルタイムでなければ意味がない ─「Gigaom Structure Data 2016」で見たデータアナリティクス最前線 | gihyo.jp

                                                          リアルタイムでなければ意味がない ─「Gigaom Structure Data 2016」で見たデータアナリティクス最前線 ここ1年ほどの間、データアナリティクスの世界ではマシンラーニング(機械学習)や深層学習(ディープラーニング)といったキーワードをニュースなどで頻繁に聞くようになりました。その理由に、自動運転カーやロボティクス、あるいは「アルファ碁(AlphaGo⁠)⁠」など、AIにおける技術革新が実用レベルに達しつつあることを感じさせるユースケースが増えていることが挙げられます。そしてこれらのイノベーションの本場はやはりシリコンバレーであり、この地を本拠とするGoogleやFacebook、AppleといったAI研究の最先端企業に牽引され、データアナリティクスの世界はすさまじいスピードで前に進んでいます。 世界最先端を行くAI、そしてデータアナリティクスの本場ではいま何がホットトピ

                                                            リアルタイムでなければ意味がない ─「Gigaom Structure Data 2016」で見たデータアナリティクス最前線 | gihyo.jp
                                                          • TechCrunch

                                                            Even with some criticisms, most VC think that the state's effort to track diversity data is worth it. Databricks has remained a hot startup at a time when interest from investors has cooled across the ecosystem. Just last month the company raised $500 million at an eye-popping $43 billion valuation. T

                                                              TechCrunch
                                                            • Azure Machine Learning + MLflowで実験管理とモデル管理をしつつ機械学習モデル開発をする話 - Qiita

                                                              本記事は「求ム!Pythonを使ってAzureで開発する時のTips!【PR】日本マイクロソフト Advent Calendar 2020」の17日目の記事です。空いていた枠に後日投稿しました。 Azure Machine Learning という機械学習周りの広い範囲をカバーするサービスがあります。Azure Machine Learning はデータセット管理からモデルの開発、実験の管理、モデルの管理、デプロイまで、機械学習モデルの開発に必要なほぼほぼ全ての工程をこなすことができるサービスですが、本記事ではAzure Machine Learning の機能の一部、実験管理とモデル管理部分をインターネットに接続可能な任意の Python 開発環境と組み合わせる方法を検証しつつ紹介します。 ただし、Azure Machine Learning の機能を素の状態では使用しません。最も広く使

                                                                Azure Machine Learning + MLflowで実験管理とモデル管理をしつつ機械学習モデル開発をする話 - Qiita
                                                              • TechCrunch

                                                                Even with some criticisms, most VC think that the state's effort to track diversity data is worth it. Databricks has remained a hot startup at a time when interest from investors has cooled across the ecosystem. Just last month the company raised $500 million at an eye-popping $43 billion valuation. T

                                                                  TechCrunch
                                                                • 『DELISH KITCHEN』のA/Bテスト基盤を構築しました - every Tech Blog

                                                                  はじめに こんにちは。株式会社エブリーでデータサイエンティストをしている伊藤です。 『DELISH KITCHEN』では、サービスをより良くするため、新機能の開発や既存機能・デザインの改善など様々な施策が行われています。 これらの施策は、一部のユーザのみを対象とする「A/Bテスト」によってオンライン評価され、その効果が認められてからユーザ全体にリリースされます。 直近、A/Bテストの信頼性・アジリティをより高めるため、データチームが主導となり新しくA/Bテスト基盤を構築・導入しました。 本記事では、新しく導入したA/Bテスト基盤の概観を紹介させていただきます。 今回紹介するA/Bテスト基盤の活用については、少し前の記事でも紹介していただいているので、そちらも是非合わせてご覧ください。 tech.every.tv これまでの課題 これまで、A/Bテストは各運営チームが主導となって実施されてき

                                                                    『DELISH KITCHEN』のA/Bテスト基盤を構築しました - every Tech Blog
                                                                  • Databases | Microsoft Azure Blog | Microsoft Azure

                                                                    Products Popular View all products (200+) Azure Virtual Machines Azure Virtual Desktop Azure SQL Microsoft Copilot in Azure PREVIEW Azure AI Services Azure AI Studio Azure Cosmos DB Azure Kubernetes Service (AKS) Azure Arc​ Azure Migrate AI + machine learning Azure Machine Learning Azure AI Services Microsoft Copilot in Azure PREVIEW Azure OpenAI Service Azure AI Studio Azure AI Vision Azure AI Se

                                                                    • Strata + Hadoop World参加記録 その5 - 元データ分析の会社で働いていた人の四方山話

                                                                      Strata + Hadoop World参加記録 その1 Strata + Hadoop World参加記録 その2 Strata + Hadoop World参加記録 その3 Strata + Hadoop World参加記録 その4 という感じで念願のStrataに参加でき、無事日本に帰国して落ち着いたので色々振り返ってみています。 今回の個人的な感想 Starata + Hadoop Conferenceと言いつつ、ほぼ誰もHadoopの事は言わず、ほとんどがSparkネタという。いよいよ、という感じですよね。— norihiro shimoda (@rindai87) 2015, 2月 19 という感じです。これは、Hadoopがオワコンとかそういう訳ではなく、もうすでにHadoopが浸透しきって、MapReduceによるバッチ処理はひと通りやり尽くしたので、次になにを?、という

                                                                        Strata + Hadoop World参加記録 その5 - 元データ分析の会社で働いていた人の四方山話
                                                                      • TechCrunch

                                                                        Even with some criticisms, most VC think that the state's effort to track diversity data is worth it. Databricks has remained a hot startup at a time when interest from investors has cooled across the ecosystem. Just last month the company raised $500 million at an eye-popping $43 billion valuation. T

                                                                          TechCrunch
                                                                        • Google Colab で OpenCALM-7B のLoRAファインチューニングを試す|npaka

                                                                          「Google Colab」で「OpenCALM-7B」のLoRAファインチューニングを試したのでまとめました。 【注意】Google Colab Pro/Pro+ の A100で動作確認しています。今回のファインチューニングには、VRAMは23.5GB必要でした。 1. OpenCALM-7B「OpenCALM-7B」は、「サイバーエージェント」が開発した、日本語LLMです。商用利用可能なライセンスで公開されており、このモデルをベースにチューニングすることで、対話型AI等の開発が可能です。 2. 学習「Google Colab」で「OpenCALM-7B」のLoRAファインチューニングを行います。データセットは@kun1em0nさんの「kunishou/databricks-dolly-15k-ja」を使わせてもらいました。 学習手順は、次のとおりです。 (1) メニュー「編集→ノートブ

                                                                            Google Colab で OpenCALM-7B のLoRAファインチューニングを試す|npaka
                                                                          • Let Spark Fly: Advantages and Use Cases for Spark on Hadoop

                                                                            http://bit.ly/1BTaXZP – Apache Spark is currently one of the most active projects in the Hadoop ecosystem, and as such, there’s been plenty of hype about it in recent months, but how much of the discussion is marketing spin? And what are the facts? MapR and Databricks, the company that created and led the development of the Spark stack, will cut through the noise to uncover practical advantages fo

                                                                              Let Spark Fly: Advantages and Use Cases for Spark on Hadoop
                                                                            • SWRと状態管理

                                                                              VSCodeでのDatabricks開発もお勧めしたい/I would also recommend Databricks development with VSCode.

                                                                                SWRと状態管理
                                                                              • TechCrunch

                                                                                Even with some criticisms, most VC think that the state's effort to track diversity data is worth it. Databricks has remained a hot startup at a time when interest from investors has cooled across the ecosystem. Just last month the company raised $500 million at an eye-popping $43 billion valuation. T

                                                                                  TechCrunch
                                                                                • Adobe Summit 2024において画像生成AI「Firefly」のアップデートや新たなイノベーションの発表が行われる

                                                                                  Adobeが2024年3月26日から27日にかけて開催しているデジタルエクスペリエンスカンファレンス「Adobe Summit 2024」において「Adobe Experience Platform AI Assistant」「Federated Audience Composition」「Adobe Real-Time Customer Data Platform (CDP) Collaboration」という3つのイノベーションを発表しました。また、画像生成AIの「Firefly」でもアップデートが行われています。 Adobe Summit 2024: Unveiling the future of Customer Experience Management (CXM) in the age of Gen AI | Adobe Blog https://blog.adobe.com/

                                                                                    Adobe Summit 2024において画像生成AI「Firefly」のアップデートや新たなイノベーションの発表が行われる