並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 794件

新着順 人気順

Databricksの検索結果1 - 40 件 / 794件

  • 機械学習モデルを作成する - Training

    Microsoft Learn では、対話的な方法で、従来の機械学習の概要を理解することができます。 これらのラーニング パスは、ディープ ラーニングのトピックに移行するための優れた基盤にもなり、各自の生産性を向上させます。 最も基本的な従来の機械学習モデルから、探索的データ分析やカスタマイジングのアーキテクチャまで、ブラウザーを離れることなく、概念的内容や対話型の Jupyter Notebook を簡単に把握することができます。 知識と興味に応じて自分のパスを選択してください。 オプション 1: 完全なコース: 機械学習のためのデータ サイエンスの基礎 ほとんどのユーザーには、このパスがお勧めです。 これには、概念の理解を最大限に高めるカスタム フローを備えた、他の 2 つのラーニング パスと同じモジュールがすべて含まれています。 基になる概念と、最も一般的な機械学習ツールでモデルを構

      機械学習モデルを作成する - Training
    • Dockerのことが多分わかるハンズオン

      VSCodeでのDatabricks開発もお勧めしたい/I would also recommend Databricks development with VSCode.

        Dockerのことが多分わかるハンズオン
      • Developers Summit 2020 資料リンクまとめ - Qiita

        毎年開催されているデブサミが2020/2/13(木)、14(金)で開催されましたね。 現時点で公開されている資料のリンクをまとめました。 よろしければご活用ください。 はじめに 公式サイト - Developers Summit 2020 登壇者名は敬称略させていただいています。 Twitterアカウントについては、多くの方はデブサミ公式サイトの紹介ページに記載がありましたので、そちらから引用させていただきました。記載がなかった方については、調べて分かった方のみ記載しています。 資料について、見つけられなかった or 元々資料を使用していない 方についてはレポート記事を見つけられた方のみ、そのリンクを記載しています。 なお、こういったリンクまとめをQiitaに投稿するのは初めてなので何か問題がある場合や、リンクの間違い等ありましたらコメントいただけると助かります。 2/13 13-A-1

          Developers Summit 2020 資料リンクまとめ - Qiita
        • データ分析基盤まとめ(随時更新)

          はじめに データ分析基盤の資料を力尽きるまで追記していきます。 構成図にあるアイコンや記事の内容から技術要素を調べて記載していますが、不明分は未記載にしています。修正のコメント頂ければ助かります。 あと、この記事追加してっていう要望も歓迎いたします。 テンプレート 記事公開日 : 会社名(サービス名) データソース : データ処理 : アウトプット : 画像 URL 2025年 2024/03/14 : 株式会社エス・エム・エス(カイポケ) データソース : Amazon Aurora データ処理 : Datastream、BigQuery、dbt アウトプット : Looker Studio 2024/03/12 : 株式会社マイナビ データソース : SQL Server、Amazon S3 データ処理 : Embulk、Amazon MWAA、Apache Airflow、Snowf

            データ分析基盤まとめ(随時更新)
          • 株式会社エブリーのブログ記事が私のブログ記事と類似していた件について問い合わせた結果の一部始終|paulxll

            株式会社エブリーとしては「法的な問題はない」という見解をお持ちであるものの、私としてはいささか納得しかねるものであり、他の方、特に技術ブログを書く方にもこういった事象について広く知っていただきたくこの記事を書いた次第です。 以下、時系列順に起こったことを書きます。 気づき2020年9月15日に株式会社エブリーのブログに記事が公開されました。私が直接知ったのは9月25日、このツイートを見てのことだったと記憶しています。 株式会社エブリーの吉田さんが、データブリックスの使い勝手や良いところを、エブリーさんのエンジニアリングブログでご紹介頂きました!非常にわかりやすいです。 吉田さん、誠に有難うございます!!https://t.co/amUJq6SXYf — データブリックス・ジャパン株式会社(公式) (@DatabricksJP) September 25, 2020 前職にてよく使っており、

              株式会社エブリーのブログ記事が私のブログ記事と類似していた件について問い合わせた結果の一部始終|paulxll
            • 新しいデータ基盤アーキテクチャである「データレイクハウス」について調べてみた - Taste of Tech Topics

              最近ソーダストリームを買い、炭酸水を飲むのにはまってます。機械学習エンジニアの@yktm31です。 以前に「AWS Lake Formationでデータレイク体験!」という記事を書いてみて、データ基盤アーキテクチャに興味が湧いてきました。 データレイクハウスは、「データウェアハウス」と「データレイク」を統合したようなアーキテクチャで、 2020年にDatabricks社により提唱され、新しいデータ基盤アーキテクチャとして注目されているようです。 www.databricks.com そこで今回、「データレイクハウス」について調べてみたことをまとめてみたいと思います。 なぜデータレイクハウスが注目されているのか? データウェアハウスの特徴・課題 データレイクの特徴・課題 データレイクハウスの特徴 データレイクハウスのアーキテクチャ Azure Azure Synapse Analyticsを

                新しいデータ基盤アーキテクチャである「データレイクハウス」について調べてみた - Taste of Tech Topics
              • 分散データシステム入門の決定版『データ指向アプリケーションデザイン』をたった30分で学んでみた #DataEngineeringStudy | DevelopersIO

                基調講演「30分でわかるデータ指向アプリケーションデザイン」 ・ スピーカー 斉藤 太郎氏  Twitter:@taroleo / Github:@xerial Principal Software Engineer , Treasure Data 東京大学理学部情報科学科卒。情報理工学 Ph.D。データベース、大規模ゲノムデータ処理の研究に従事。その後、スタートアップであるTreasure Dataに加わり、アメリカ、シリコンバレーを拠点に活動中。日本データベース学会上林奨励賞受賞。OSSを中心にプログラミングやデータ処理を簡単にするためのプロダクトを作成している。 「30分でわかるデータ指向アプリケーションデザイン」最新の論文にも触れながら、分散データシステムの世界の魅力を伝えていきます。後半、@tagomoris https://t.co/TQ2TnsFIOT… — Taro L.

                  分散データシステム入門の決定版『データ指向アプリケーションデザイン』をたった30分で学んでみた #DataEngineeringStudy | DevelopersIO
                • 「英語は新しいプログラミング言語であり、生成的AIは新しいコンパイラだ」。英語対応のためのSDK「English SDK for Apache Spark」をデータブリックスが発表

                  「英語は新しいプログラミング言語であり、生成的AIは新しいコンパイラだ」。英語対応のためのSDK「English SDK for Apache Spark」をデータブリックスが発表 Apache Sparkなどの開発で知られるデータブリックス社は、同社が主催したイベント「DATA+AI Summit 2023 by Databricks」で、英語をApache Sparkの問い合わせ言語にできるSDK「English SDK for Apache Spark」を発表しました。 英語は新しいプログラミング言語である Databricks共同創業者兼チーフアーキテクト Reynold Xin氏。 英語は新しいプログラミング言語であり、生成的AIは新しいコンパイラであり、Pythonは新しいバイトコードだ。 これが何を意味するのか。多くの方々がChatGPTを使ってSparkの問い合わせコードを

                    「英語は新しいプログラミング言語であり、生成的AIは新しいコンパイラだ」。英語対応のためのSDK「English SDK for Apache Spark」をデータブリックスが発表
                  • LLM時代のX情報収集術|べいえりあ

                    AI for Everyoneについては日本語版もあるのと、どちらのコースも日本語字幕付きで見られる(多分機械翻訳での英語字幕からの翻訳だが、翻訳の質は悪くない)ので、英語分からなくてある程度何とかなるんじゃないかと思います。 あと、余力のある人、最新のNLP研究を理解したい人はこちらの本を読むことをオススメします。アルゴリズムの詳細は必ずしも理解しなくても良いですが、どんなタスクがあるのかは理解しておいた方が良いかと思います。 NLPの知識がLLMを応用する上で実際にどう役に立つかですが、例えばで言うとNLP的には対話の中には「タスク指向型対話(task-oriented dialogue)」と「雑談(chit-chat dialogue)」があります。それぞれ対話の中で重要視されるものから評価の仕方まで全然違うのですが、NLPをやらずにLLMをやっている人と話しているとこれらをごっちゃ

                      LLM時代のX情報収集術|べいえりあ
                    • [レポート]みんなの考えた最強のデータアーキテクチャ #datatechjp | DevelopersIO

                      さがらです。 11月8日20時~22時に、datatech-jp(データエンジニアリング関係のコミュニティ)主催でみんなの考えた最強のデータアーキテクチャというイベントが開催されました。 本記事はこのイベントのレポートブログとなります。 イベント概要 ※connpassより引用 datatech-jpで集ったデータエンジニアが、それぞれみんなの考えた最強のデータアーキテクチャを紹介し合うという夢のような企画が実現しました! たくさんの新しいプロダクトが群雄割拠する現在、モダンデータスタックなどという言葉も登場しています。 今こそ、どんなプロダクトを選び、どのようなデータ基盤を作れば、効率的にやりたいことが実現できるのか。 5人の猛者からおすすめの構成をご紹介いただきながら、参加者のみなさんとも一緒に考えていく時間としたいと思います。 おまけ:当イベントの応募者数 このイベントですが、なんと

                        [レポート]みんなの考えた最強のデータアーキテクチャ #datatechjp | DevelopersIO
                      • 百花繚乱の大規模言語モデル その現状まとめ【2023年4月末版】

                        昨年末から急激に話題を呼んだChatGPT、その内部的なバージョンアップであるGPT-3.5とGPT-4はいずれもMicrosoftから強力な支援を受けた米OpenAIという企業が独占的に提供する大規模言語モデル(LLM)だ。 それに呼応するかのように、Meta社からはLLaMA(ラマ)がリリースされ、LLaMAをChatGPTとの1万3千回の会話データで微調整したAlpaca(アルパカ)、AlpacaをShareGPT(GPTとの会話を有志がオープンにしたもの)のデータで微調整したVicuna(ビクーニャ)といった派生モデルが次々と登場した。 しかし、LLaMAはMeta社の意向により「アカデミック用途限定」という縛りがある。またGPTの出力にはOpenAIの利用規定で「GPTの出力結果を元にGPTに対抗できる強力なAIを作ってはいけない」という制約があるため、AlpacaもVicuna

                          百花繚乱の大規模言語モデル その現状まとめ【2023年4月末版】
                        • what we use(技術スタックデータベース)

                          Azure Databricksを中心としたデータ基盤への刷新。データをグループ会社横断で活用し、価値創出を行う施策

                            what we use(技術スタックデータベース)
                          • 歴代チャットボットと最近のLLMのまとめ - Qiita

                            LLMs The History of Chatbots ELIZA (1966) 初期の人工知能プログラムのひとつ。 ルールベースの簡単なパターンマッチングで返答していた。 心理療法士の会話を模したELIZA(DOCTOR)が有名。 PARRY (1972) PARRYは偏執病的統合失調症患者をシミュレートしようとしたもの。 ELIZA(DOCTOR)と通信し話題となった。 Jabberwacky (1982, 1988, 1997) ユーモラスな人間同士の自然な会話をシミュレートすることを目的としていた。 ユーザーとの会話の大規模なデータベースを構築し、言語と文脈を学習することができた。 プロジェクト自体は1982年から開始されていたが、当初は学習機能は有していなかった。 ローブナー賞を2005年(George)、2006年(Joan)に受賞している。 ローブナー賞(Loebner P

                              歴代チャットボットと最近のLLMのまとめ - Qiita
                            • ゆるふわMLOps入門 - Re:ゼロから始めるML生活

                              MLOpsに関してちゃんと勉強中でして、色々事例とか調べてました。 とは言うものの、現在ではMLOpsを様々な観点から語られて、MLOpsという言葉にいろんな意味が含まれています。 という事情から色々探していたら、こちらをお見かけしました。 medium.com 書籍へのリンクはこちらです。 n月刊ラムダノート Vol.1, No.1(2019)(紙書籍+PDF版) – 技術書出版と販売のラムダノート こちらの書籍では基本的な背景からきれいに整理されていました。 こちらを参考にしつつ、頑張ってMLOpsの動向について整理してみたので、そのメモです。 それでは張り切って書いていきます。 tl;dr; 背景・問題設定 機械学習は学習のアルゴリズムよりその周辺のほうが大きい 機械学習システムに携わる人の役割の違いによってうまくいかないことがある 機械学習システムの構築・運用する上で課題も多い 問

                                ゆるふわMLOps入門 - Re:ゼロから始めるML生活
                              • AWSもSpectreとMeltdownの対策完了を報告。対策後、Amazon EC2で性能の低下は見られないと

                                Amazon Web Services(AWS)は、「Spectre」および「Meltdown」と名付けられたCPUの脆弱性に関して同社の対応をまとめたWebページ「Processor Speculative Execution Research Disclosure」において、すでに脆弱性対策が済んだことを報告しています。 AWSがこうした特設ページを設けるのは珍しいことで、本件の重要性と緊急性の高さがうかがえます。 ただ、Googleが脆弱性の詳細な報告と対策の経緯などを詳細にブログで開示したのに対し、AWSの情報提供は実務的であっさりしたものになっています。 Amazon EC2のワークロードに性能低下は見られない 下記はAmazon EC2に関する報告を引用したものです。すべての対策が済んだと報告されています。また、OSのアップデートが推奨されています。 All instances

                                  AWSもSpectreとMeltdownの対策完了を報告。対策後、Amazon EC2で性能の低下は見られないと
                                • TechCrunch

                                  Even with some criticisms, most VC think that the state's effort to track diversity data is worth it. Databricks has remained a hot startup at a time when interest from investors has cooled across the ecosystem. Just last month the company raised $500 million at an eye-popping $43 billion valuation. T

                                    TechCrunch
                                  • データオーケストレーションツールDagsterの紹介

                                    データオーケストレーションとは データオーケストレーションという言葉をご存知でしょうか?日本ではまだ耳慣れない言葉ですが、data orchestrationでgoogle検索すると実に3000万件以上ヒットし、世界的には十分に市民権を得ている言葉です。Databricksではデータオーケストレーションを以下のように説明しています。 データオーケストレーションとは データオーケストレーションとは、複数のストレージからサイロ化したデータを取り出し、組み合わせて整理し、分析に利用できるようにするための自動化されたプロセスです。 このプロセスでは、レガシーシステム、クラウドベースのツール、データレイクといったあらゆるデータセンターが接続されます。データは標準形式に変換されるため、理解しやすく、容易に意思決定に利用できます。 オーケストレーションとは、コンピュータシステム、アプリケーション、および

                                      データオーケストレーションツールDagsterの紹介
                                    • Delta Lake とは何か - connecting the dots

                                      はじめに 環境情報 Delta Lake (デルタレイク) とは Delta Lake の実体 Delta Lake の構造 Parquet と Delta の相違点 Parquetとは何か Parquetの構造 Parquet と Delta の違い Delta Lake が生まれた経緯: データレイクと Delta Lake の違い データレイクのメリット データレイクの課題 *Parquetで構築した場合 Delta Lake の特徴 ACIDトランザクションの担保 スケーラブルなメタデータ管理 バッチとストリーミングワークロードの統合 タイムトラベル (バージョン管理) CONSTRAINT句のサポート DML (データ操作言語) のフルサポート UPDATE DELETE MERGE 柔軟なスキーマ管理 1. スキーマ エンフォースメント 2. スキーマ エボリューション ストレ

                                        Delta Lake とは何か - connecting the dots
                                      • データウェアハウスのデータモデリングを整理してみた - Qiita

                                        概要 スタースキーマからスノーフレーク、ギャラクシー、そしてデータボールトやアンカーモデリングまで、各スキーマの特徴、利点、そして適用シナリオを掘り下げます。 スタースキーマ スタースキーマを元に整理します。 スタースキーマ または 星型スキーマ はデータウェアハウスに利用される最も単純なスキーマである。スタースキーマには唯1つもしくは少数のファクト表と複数のディメンション表が含まれる。スタースキーマはスノーフレークスキーマの一種であるが、多くの用途で利用されている。 DWHに利用される最も単純なスキーマ 唯一または少数のファクトテーブルと、複数のディメンションテーブルが含まれる スノーフレークスキーマの一種 モデル ファクト表はデータウェアハウスでの解析で利用され、複数の異なるディメンションに区分される。ファクト表は主要なデータを持つ一方、ディメンション表は相対的にサイズが小さくディメン

                                          データウェアハウスのデータモデリングを整理してみた - Qiita
                                        • free-programming-books/free-programming-books.md at master · EbookFoundation/free-programming-books · GitHub

                                          Removal of "Learn Python in Y Minutes" from free-programming-books.md and addition to free-programming-cheatsheets.md Co-authored-by: Eric Hellman <eric@hellman.net> Index ABAP Ada Agda Alef Android APL Arduino ASP.NET Assembly Language Non-X86 AutoHotkey Autotools Awk Bash Basic BETA Blazor C C# C++ Chapel Cilk Clojure COBOL CoffeeScript ColdFusion Component Pascal Cool Coq Crystal CUDA D Dart DB

                                            free-programming-books/free-programming-books.md at master · EbookFoundation/free-programming-books · GitHub
                                          • (翻訳) データエンジニアの始まり - satoshihirose.log

                                            訳者まえがき 原著者 Maxime Beauchemin の許可を得て以下の記事を翻訳・公開しました。 medium.freecodecamp.org 原著者は、Apache Airflow や Apache Superset のクリエーターで、現在は Lyft で Data Engineer をしています。 データエンジニアの始まり(翻訳) 私は 2011 年にBIエンジニアとしてFacebookに入社しました。2013年に退職するときには、私はデータエンジニアでした。 昇進もしくは新しい役割に就いたわけではありません。そうではなく、Facebookは、私たちが行っていた仕事が伝統的なBIを超えていたことに気づいたのです。私たち自身のために作り出した役割は、まったく新しい専門分野でした。 私のチームはこの変革の最前線にいました。私たちは新しいスキル、新しいやりかた、新しいツール開発し、そ

                                              (翻訳) データエンジニアの始まり - satoshihirose.log
                                            • Apache Kafkaを使ったマイクロサービス基盤

                                              class: center, middle # Apache Kafka<br/>を使った<br/>マイクロサービス基盤 [2016/01/31 Scala Matsuri](https://scalamatsuri.org/) ![CC-BY-NC-SA](https://licensebuttons.net/l/by-nc-sa/3.0/88x31.png) --- class: center, middle 発表後に追記 [当日の発表動画はこちら](https://www.youtube.com/watch?v=64HNeksRx5I) --- class: middle <img src="image/xuwei.gif" alt="icon" width="100" height="100" /> - twitter [@xuwei_k](https://twitter.com/

                                              • 小さく始めて大きく育てるMLOps2020 | | AI tech studio

                                                AI Labの岩崎(@chck)です、こんにちは。今日は実験管理、広義ではMLOpsの話をしたいと思います。 MLOpsはもともとDevOpsの派生として生まれた言葉ですが、本稿では本番運用を見据えた機械学習ライフサイクル(実験ログやワークフロー)の管理を指します。 https://www.slideshare.net/databricks/mlflow-infrastructure-for-a-complete-machine-learning-life-cycle 参考記事のJan Teichmann氏の言葉を借りると、 エンジニアがDevOpsによって健全で継続的な開発・運用を実現している一方、 多くのデータサイエンティストは、ローカルでの作業と本番環境に大きなギャップを抱えている クラウド含む本番環境でのモデルのホスティングが考慮されないローカルでの作業 本番のデータボリュームやス

                                                  小さく始めて大きく育てるMLOps2020 | | AI tech studio
                                                • Hadoop/Storm の統合を実現する Twitter の SummingBird - Okapies' Archive

                                                  Twitter が SummingBird を正式リリースして早二ヶ月。「日本語の紹介記事がほとんど出てないな」と気付いたので、調査がてらまとめてみました。 SummingBird とは? MapReduce なプログラムを書くための Scala/Java ライブラリ。最大の特徴は、ひとたび SummingBird で書いたジョブは Hadoop でも Storm でも同じように実行できること。 SummingBird では、Hadoop を使う「バッチモード」と、Storm を使う「リアルタイムモード」に加えて、二つを同時に実行する「ハイブリッドモード」がある。ハイブリッドモードでは、ジョブの作者が特に配慮しなくても、バッチとリアルタイムの処理結果を自動的にマージできる。 ハイブリッドモードでは、同じジョブを Hadoop と Storm で同時に実行できるので、Hadoop の耐障害性

                                                    Hadoop/Storm の統合を実現する Twitter の SummingBird - Okapies' Archive
                                                  • Deep Learning ライブラリ&フレームワークをリストアップしてみた ~インストール・環境構築方法 と 使い方 解説ウェブサイトまとめ - Qiita

                                                    git clone https://github.com/deeplearning4j/nd4j.git cd nd4j mvn clean install -DskipTests -Dmaven.javadoc.skip=true ( クイック・スタート) OpenGroove 「deeplearning4j (DL4j)について書く」 deeplearning4jとは。以下ミニノート。 スタートアップのSkymind社による、Java deep-learningライブラリ。 Skymind社が商用サポートするが、オープンソースプロジェクトでもある。※ RedHat/Linux的な関係 out-of-the-boxでスタート可能、かつ一般的なCUPで動作する。 研究用ではなく、一般的なビジネス使用を視野に入れている。 neural networksに特化したDSL。 Scala, Clo

                                                      Deep Learning ライブラリ&フレームワークをリストアップしてみた ~インストール・環境構築方法 と 使い方 解説ウェブサイトまとめ - Qiita
                                                    • TechCrunch

                                                      Even with some criticisms, most VC think that the state's effort to track diversity data is worth it. Databricks has remained a hot startup at a time when interest from investors has cooled across the ecosystem. Just last month the company raised $500 million at an eye-popping $43 billion valuation. T

                                                        TechCrunch
                                                      • TechCrunch

                                                        Even with some criticisms, most VC think that the state's effort to track diversity data is worth it. Databricks has remained a hot startup at a time when interest from investors has cooled across the ecosystem. Just last month the company raised $500 million at an eye-popping $43 billion valuation. T

                                                          TechCrunch
                                                        • CyberAgent社の日本語LLM OpenCALMの対話モデル用途のfinetune検証 - ACES エンジニアブログ

                                                          こんにちは、ACESでアルゴリズムエンジニアとして働いている檜口です。最近はChatGPTを始めとする言語モデルの研究開発やプロダクト改善に取り組んでいます。 昨年末のChatGPTのリリース以降、大規模言語モデル(large language model, LLM)の社会実装が急速に進んできています。弊社でも商談解析AIツールACES MeetにLLMを組み込むなど、LLMの活用を広げています。こちらに関してはLLMを活用したAIまとめ機能リリースの裏側について過去記事を書いてありますのでご興味ある方はぜひご覧ください。 tech.acesinc.co.jp LLMはOpenAIのChatGPTが最も有名ですが、最近はオープンソースでモデルを開発する流れも活発になっています。特に、英語で学習したオープンソースモデルはMeta社のリリースしたLlamaを始めとして非常に強力なものがリリース

                                                            CyberAgent社の日本語LLM OpenCALMの対話モデル用途のfinetune検証 - ACES エンジニアブログ
                                                          • Apache Spark 2.0正式版がリリース。ANSI SQL標準サポート、10倍以上の高速化など

                                                            Apache Spark 2.0正式版がリリース。ANSI SQL標準サポート、10倍以上の高速化など 分散処理フレームワークの「Apache Spark 2.0」正式版のリリースが、開発元のDatabricksから発表されました。これまでApache Sparkはバージョン1.x(直前の最新版は1.6)でしたので、メジャーバージョンアップとなります。 Spark 2.0で最大の新機能は、新しいSQLパーサーを採用したことによるANSI SQL(SQL 2003)への対応です。ビッグデータのベンチマークの1つであるTPC-DSの99種類のクエリがそのまま実行可能と説明されており、プログラマが慣れ親しんだ一般的なSQL文はすべて実行可能になります。 また、DataFrameとDatasetは統合されたAPIとなりました。 こうしたAPIの変更や改善が行われた一方で、Spark 2.0ではパフ

                                                              Apache Spark 2.0正式版がリリース。ANSI SQL標準サポート、10倍以上の高速化など
                                                            • 機械学習プロジェクトをいい感じにプロダクトに載せていく今風のやり方について考える | Qrunch(クランチ)

                                                              機械学習プロジェクトをいい感じにプロダクトに載せていく今風のやり方について考える この記事は裏freee developers Advent Calendar 2018の18日目の記事です。 どうも、@aflcです。freeeで機械学習とかやってます。freeeだとRoyで通ってます。 今日は、なんとかしてモデルは作ったもののその後どうしよう、という話をします。 TL;DR TensorFlow Servingとkubelessで、サーバーとか何も考えずにデプロイ出来るようになることを目指します。 本日話す内容 機械学習モデルのデプロイ 前処理・後処理の実装 モデルのバージョン 話さない内容 評価・テスト 開発時の環境 TensorFlow以外で実装する場合 APIの設計 などなど Python以外の言語の話題 はじめに あなたが様々な苦労を乗り越え、イカした機械学習モデルを構築できたとし

                                                                機械学習プロジェクトをいい感じにプロダクトに載せていく今風のやり方について考える | Qrunch(クランチ)
                                                              • TechCrunch

                                                                Databricks has remained a hot startup at a time when interest from investors has cooled across the ecosystem. Just last month the company raised $500 million at an eye-popping $43 billion valuation. T

                                                                  TechCrunch
                                                                • Real-time Recommendations using Spark Comcast Labs

                                                                  JOIN THE GLOBAL DATA COMMUNITY FOR 500+ SESSIONS AND EXPLORE HOW DATA INTELLIGENCE ENABLES EVERY ORGANIZATION TO HARNESS THE POWER OF GENAI ON THEIR OWN DATA.

                                                                    Real-time Recommendations using Spark Comcast Labs
                                                                  • 先進的な技術を“合理的に”導入する。リクルートが「ニアリアルタイムデータ基盤」を実現できた背景 - はてなニュース

                                                                    どんな企業にとってもデータは「資産」ですが、ユーザーとクライアントのマッチングを軸に事業を展開するリクルートにとっては、ビジネスを支える存在の一つです。 リクルートではサービスに関わるデータを収集・蓄積するデータ基盤を構築し、マッチングの精度向上を含むプロダクト改善などに活用してきました。例えばWebサイトの回遊状況を元にユーザーの興味や関心を推測してリコメンデーションを行ったり、検索結果を提供したりするなど、ユーザーとクライアント、双方が満足できるマッチング機会の創出に取り組んでいます。 このような取り組みにおいて、新しく生まれた価値のある情報を、より素早く活用していく「データの鮮度」は大事な要素になります。データの鮮度とは、すなわちリアルタイム性のこと。多様かつ膨大な量のデータを取り扱うビジネスでは、このリアルタイム性をいかに高められるかが、意思決定の精度や速度に直結します。 リクルー

                                                                      先進的な技術を“合理的に”導入する。リクルートが「ニアリアルタイムデータ基盤」を実現できた背景 - はてなニュース
                                                                    • Ben Horowitz, Author at Andreessen Horowitz

                                                                      More About Ben Ben Horowitz is a cofounder and general partner at the venture capital firm Andreessen Horowitz. He is the author of the New York Times bestsellers, The Hard Thing About Hard Things and What You Do Is Who You Are. He also created the a16z Cultural Leadership Fund to connect the greatest cultural leaders to the best new technology companies, and enable more young African Americans to

                                                                        Ben Horowitz, Author at Andreessen Horowitz
                                                                      • AWSの意図しない料金の上昇に気付く仕組み - dely engineering blog

                                                                        はじめに 本記事はSRE 2 Advent Calendar 2018の11日目の記事です。 SRE 2 Advent Calendar 2018 - Qiita dely Advent Calendar 2018もやっていますので目を通していただけると嬉しいです。クラシルの秘話がたくさん書かれています。 dely Advent Calendar 2018 - Adventar dely Advent Calendar 2018 - Qiita こんにちは!delyでSREをやっている井上です。 SREのみなさん!インフラコストの最適化してますか? delyはどうかというと、正直まだまだ不十分な状況です。。。 クラシルでまだまだやりたいこと・やるべきことがたくさんあり、コスト最適化の優先順位がなかなか上がりにくいのが現状です。 ちなみについ先日クラシルに待望の献立機能がリリースされました!

                                                                          AWSの意図しない料金の上昇に気付く仕組み - dely engineering blog
                                                                        • SQLFluffを完全に理解する | DevelopersIO

                                                                          Google Cloudのデータエンジニアをしています、はんざわです。 今回はSQLのリンターであるSQLFluffを触りながら理解を深めたいと思います。 検証環境 macOS: 13.3.1 Python: 3.9.5 SQLFluffとは SQLFluffとは、SQLのフォーマットを自動で問題点の指摘や修正をしてくれるオープンソースサービスです。 さっそくインストールして使ってみたいと思います。 インストール SQLFluffをインストールするにはPython3が必要です。 $ pip3 install sqlfluff 正常にインストールできているか確認します。 $ sqlfluff version 2.0.7 インストールが完了しました。実際にクエリを用意し、使ってみたいと思います。 さっそく使ってみる sqlfluffには大きくlintとfixの2つの機能があります。 まずはli

                                                                            SQLFluffを完全に理解する | DevelopersIO
                                                                          • Meta、無料で商用可の新LLM「Llama 3」、ほぼすべてのクラウドでアクセス可能に

                                                                            米Metaは4月18日(現地時間)、オープンソースのLLMの最新版「Llama 3」を発表した。80億パラメータと700億パラメータの2モデルで、いずれもほぼすべての主要クラウドサービス(AWS、Databricks、Google Cloud、Hugging Face、Kaggle、IBM WatsonX、Microsoft Azure、NVIDIA NIM、Snowflake)で間もなく利用可能になる。 昨年リリースの先代「Llama 2」にも700億パラメータモデルはあったが、Llama 3は4000億パラメータの高密度モデル(こちらはまだ公開されていない)のトレーニングも継続中だとマーク・ザッカーバーグCEOは語った。 トレーニングデータセットは、Llama 2よりも7倍大きく、4倍のコードが含まれている。英語以外での利用に備えるため、データセットの5%以上が非英語データで構成されて

                                                                              Meta、無料で商用可の新LLM「Llama 3」、ほぼすべてのクラウドでアクセス可能に
                                                                            • データカタログ特集 データ利活用に向けたアーキテクチャ6選 - Findy Tools

                                                                              整備したデータ基盤を、事業部や会社全体で活用に持っていく中で「データカタログ」の必要性が増々注目を集めています。 今回は、データカタログを導入し、データ利活用に挑んでいる6社に、アーキテクチャの工夫ポイントからデータカタログ導入によって得られた効果などを伺いました。 ◆目次 株式会社10X 株式会社ビットキー 株式会社エブリー 株式会社Luup Sansan株式会社 株式会社ZOZO 株式会社10X 事業内容 10Xでは「10xを創る」をミッションとし、小売向けECプラットフォーム「Stailer」の提供を通じて、スーパーやドラッグストア等のオンライン事業立ち上げ・運営支援を行っています。Stailerでは業務構築におけるコンサルティングから、必要な商品マスタやお客様アプリ・スタッフ向けのオペレーションシステム等の提供、配達システムの提供、販売促進の支援など、データを分析しながら一気通貫で

                                                                                データカタログ特集 データ利活用に向けたアーキテクチャ6選 - Findy Tools
                                                                              • Inside of Asakusa DSL

                                                                                Project Tungsten Bringing Spark Closer to Bare Meta (Hadoop / Spark Conferenc... Hadoop / Spark Conference Japan 2016 キーノート講演資料 『Project Tungsten Bringing Spark Closer to Bare Metal』 Reynold Xin (databricks) ▼イベントページ http://hadoop.apache.jp/hcj2016-program/ http://hcj2016.eventbrite.com/

                                                                                  Inside of Asakusa DSL
                                                                                • Introducing MPT-7B: A New Standard for Open-Source, Commercially Usable LLMs | Databricks

                                                                                  Unified governance for all data, analytics and AI assets

                                                                                    Introducing MPT-7B: A New Standard for Open-Source, Commercially Usable LLMs | Databricks