並び順

ブックマーク数

期間指定

  • から
  • まで

121 - 160 件 / 349件

新着順 人気順

Databricksの検索結果121 - 160 件 / 349件

  • Developer eXperience Day 2024【参加無料・アーカイブ配信あり】|EventRegist(イベントレジスト)

    2024年7月16日(月)と17日(火)の2日間にわたり「Developer eXperience Day 2024」(一般社団法人 日本CTO協会主催)を、オフライン・オンラインのハイブリッド形式で開催いたします。 【参加無料・アーカイブ配信あり】です。ぜひご参加ください! 開催概要 名称:Developer eXperience Day 2024 開催日:2024年7月16日(火)・17日(水) 開催形式:オフライン(現地参加)・オンライン配信 会場:浅草橋ヒューリックホール&カンファレンス アクセス:https://hulic-hall.com/access/ JR総武線「浅草橋駅(西口)」より徒歩1分 参加方法:事前申込制(参加費:無料) 申込サイト:本イベントサイトよりお申込みください 参加対象: ソフトウェア開発の第一線で挑戦するエンジニアをはじめ、テックリード、エンジニアリン

      Developer eXperience Day 2024【参加無料・アーカイブ配信あり】|EventRegist(イベントレジスト)
    • ゼロからはじめるPython(104) 大規模言語モデルの熱き戦いを肌で感じよう、日本語LLM「OpenCALM」を試そう

      2023年初めに大ブレイクしたChatGPTだが「大規模言語モデル(LLM)」と呼ばれる仕組みに基づいている。そのブレイクから半年、ChatGPTに追いつけ追い越せと多くの研究者が大規模言語モデルを改良し続けている。それで動かすだけならば意外と簡単に試すことができる。今回は、オープンソースのモデルを動かす方法を紹介しよう。 OpenCALMを使って猫の名前や小説のアイデアを出したところ ChatGPTに追いつけ追い越せ ChatGPTは会話型AIである。AIを相手にして、かなり良い精度で会話をすることができる。しかし、ただ会話ができるだけではない。「生成AI(Generative AI)」と呼ばれるだけあって、かなり複雑な指示を読み取って、文章生成を行うことができる。もともと大規模なWeb上のテキストデータを用いて、機械学習で訓練していることから、大規模言語モデル(LLM)と呼ばれている。

        ゼロからはじめるPython(104) 大規模言語モデルの熱き戦いを肌で感じよう、日本語LLM「OpenCALM」を試そう
      • データメッシュの概念について理解する - connecting the dots

        はじめに データの利活用が進まない原因 データメッシュとは何か データメッシュアーキテクチャ データメッシュアーキテクチャの特徴 サイロ化されたデータ基盤との大きな違い データメッシュの思想 1. ドメイン主導によるデータオーナーシップ ドメインとは何か データ所有権の一元化の課題 ドメイン主導のデータオーナーシップ ドメイン主導のテクノロジースタック選定 2. プロダクトとしてのデータ データプロダクトとは何か 3. プラットフォームとしてのセルフサービス型データ基盤 セルフサービス型データ基盤とは セルフサービス型データ基盤を構成するリソースとツール 中央IT組織とドメインのそれぞれに求められる役割と責任 4. ドメインと中央による分担管理型データガバナンス ドメインと中央による分担管理型データガバナンスとは ガバナンスの定義 データメッシュを実現するには まとめ 参考 はじめに Fo

          データメッシュの概念について理解する - connecting the dots
        • 「Databricks とは?何ができるか」新入社員が感じたイケてる機能10選 - Qiita

          目次 はじめに 背景と目的 Databricksとは何か 機能紹介 共通 データエンジニアリング 機械学習 Databricks SQL おわりに はじめに こんにちは。Databricks の新井です。Qiita 初投稿です。 2022年の7月よりソリューションアーキテクトとして働き始めました。 お客様に弊社製品を知っていただき、導入いただく際の技術サポートを行う役割です。 本記事では Databricks にご興味がある皆様に弊社プラットフォームを理解いただくために、新入社員の目線から便利だと感じた10個の機能をまとめました。 今後も記事執筆を継続するモチベーションに繋がりますので「いいね」や記事の保存、SNSで共有いただけると嬉しいです。宜しくお願いいたします! 背景と目的 皆様の中には Databricks という会社に馴染みがない方も多いと思います。 米国カリフォルニア州に本社が

            「Databricks とは?何ができるか」新入社員が感じたイケてる機能10選 - Qiita
          • Python: MLflow Tracking を使ってみる - CUBE SUGAR CONTAINER

            MLflow は MLOps に関連した OSS のひとつ。 いくつかのコンポーネントに分かれていて、それぞれを必要に応じて独立して使うことができる。 今回は、その中でも実験の管理と可視化を司る MLflow Tracking を試してみることにした。 機械学習のプロジェクトでは試行錯誤することが多い。 その際には、パラメータやモデルの構成などを変えながら何度も実験を繰り返すことになる。 すると、回数が増えるごとに使ったパラメータや得られた結果、モデルなどの管理が煩雑になってくる。 MLflow Tracking を使うことで、その煩雑さが軽減できる可能性がある。 使った環境は次のとおり。 $ sw_vers ProductName: Mac OS X ProductVersion: 10.14.6 BuildVersion: 18G5033 $ python -V Python 3.7.

              Python: MLflow Tracking を使ってみる - CUBE SUGAR CONTAINER
            • OpenCALM-7BをLoRAでinstruction tuningするための実装解説 / QLoRAの実装も紹介 - Qiita

              はじめに ※本記事で「現時点」という言葉は2023/6/1を指すこととします。 先日(2023年5月17日)、サイバーエージェントが日本語に特化したLLM(Large Language Model)をhuggingface上に公開されました。 現時点で日本語に特化したLLMで最大級のパラメータを持つモデル 商用利用可能 という点が非常に魅力的であり、すでにたくさんの方がこのOpenCALM-7Bを動かしたり、チューニングしたりされてるように、自分も勉強がてらこのLLMのチューニングに挑戦してみました。 とはいえ、パラメータ数が68億と巨大ですし、単純な全パラメータのファインチューニングは、私の手元の環境では現実的ではなく、何かしら軽量化したりDeepSpeedなどのライブラリで効率よく処理する必要がありそうです。 今回はLoRA(Low Rank Adaptation)と呼ばれる低リソース

                OpenCALM-7BをLoRAでinstruction tuningするための実装解説 / QLoRAの実装も紹介 - Qiita
              • Apache Sparkの概要 - Qiita

                はじめに Apache Sparkはデータの高速な処理能力や、汎用性の高さから、昨今ではクラウドのPaaS型のデータ処理エンジンに搭載されるようになってきた。たとえばAzureのサービスでは従来からAzure HDInsightにPure 100% OSSのSparkが以前から搭載されている。Azure DatabricksはSparkのクラスター管理を大幅にクラウド側に寄せ、Notebookやジョブのインターフェース等を提供する形態も出てきて多くのユーザーに利用されているようである。また、2019年のMicrosoft Igniteで発表されたAzure Synapse Analyticsは従来のAzure SQL Data Warehouseに、Sparkエンジンを搭載してオンデマンドクエリ機能を提供するとの事。さらには、Azure Data Factory内にMapping Data

                  Apache Sparkの概要 - Qiita
                • CS大学生のアメリカ就活失敗体験記|Yuki

                  はじめに留学前に目指していたアメリカ・シリコンバレーでのSoftware Engineer就活は失敗に終わりました。しかしながら、もう一度大学1年生に戻ることができるなら、そこそこ上手くいく自信があるので、私の経験を反面教師としていただければ幸いです。 また、当初の目標は達成できなかったものの、アメリカの日系企業の内定、日本の外資系企業から内定を獲得し、納得のいく結果となったので、海外就活時の併願先選びの参考になればと思います。 追記: 私はOPT3年有、GC/国籍は無です。一般的なCS専攻留学生です。 自己紹介私はカリフォルニア州立大学でComputer Scienceを専攻していました。高校時代はプログラミングも英語もできませんでしたが、自分を変えたいという思いと、シリコンバレーで働きたいという夢を持ち、海外の大学を目指しました。 コミュニティカレッジから4年制大学への編入ルートを選び

                    CS大学生のアメリカ就活失敗体験記|Yuki
                  • データと AI の企業 |​ Databricks

                    プラットフォームDatabricks データインテリジェンスプラットフォームDatabricks は、AI とデータの融合と活用、成果の創出を支援します。

                      データと AI の企業 |​ Databricks
                    • Introducing container image streaming in GKE | Google Cloud Blog

                      Introducing GKE image streaming for fast application startup and autoscaling We’re excited to announce the general availability of a new feature in Google Kubernetes Engine (GKE): image streaming. This revolutionary GKE feature has the potential to drastically improve your application scale-up time, allowing you to respond to increased user demand more rapidly, and save money by provisioning less

                        Introducing container image streaming in GKE | Google Cloud Blog
                      • Beyond Pandas: Spark, Dask, Vaex and other big data technologies battling head to head

                        WhyWhen confronting a new data science problem, one of the first questions to ask is which technology to use. There is hype; there are standard tools; there are bleeding-edge technologies, entire platforms and off-the-shelf solutions. Over the last few years, I’ve been building proof of concepts and solutions with any technology I could get my hands on. If there is a new platform, I register for t

                          Beyond Pandas: Spark, Dask, Vaex and other big data technologies battling head to head
                        • S3+Athena構成の弊社データ基盤の限界が近い - Qiita

                          こちらのアドベントカレンダーの記事です。 近々書くような気がするので、先駆けてアドベントカレンダー駆動で書いていきます。 スタートアップのデータ基盤に興味がある人には刺さるかもしれません。 TL;DR 2020年に構築した弊社のS3+Athena構成のデータ基盤の限界が近い 構築当時に比べてデータ基盤の選択肢色々増えて嬉しい 2024/1~3にかけてSnowflake or Redshift Serverlessの検証をします 現在のデータ基盤の構成 タイトルの通りS3 + Athenaを中心にAWSの細かいサービスを使っています 使用技術 S3 Athena Glue GlueETLは費用の面で使わず他のサービスを組み合わせる形で内製 Firehose Lambda(Python) Codebuild Step Functions / EventBridge ECS on Embulk

                            S3+Athena構成の弊社データ基盤の限界が近い - Qiita
                          • What I learned from looking at 200 machine learning tools

                            [Twitter thread, Hacker News discussion] Click here to see the new version of this list with an interactive chart (updated December 30, 2020). To better understand the landscape of available tools for machine learning production, I decided to look up every AI/ML tool I could find. The resources I used include: Full stack deep learning LF AI Foundation landscape AI Data Landscape Various lists of t

                              What I learned from looking at 200 machine learning tools
                            • Delta LakeとLakehouseプラットフォームによるデータウェアハウス設計 - every Tech Blog

                              Delta LakeとLakehouseプラットフォームによるデータウェアハウス設計 こんにちは。ビッグデータ処理基盤の物理レイヤーから論理レイヤーの設計実装、データエンジニアやデータサイエンティストのタスク管理全般を担当している、Data/AI部門の何でも屋マネージャの @smdmts です。 この記事は、弊社のデータ基盤の大部分を支えるDelta LakeとLakehouseプラットフォームによるデータウェアハウス設計の紹介です。 Databricks社が主体となり開発しているDelta Lakeをご存じでしょうか? Delta Lakeは、Apache Sparkを利用したLakehouseプラットフォームを実装可能とするオープンソースです。 Lakehouseプラットフォームの詳細は、こちらの論文に記載されています。 Lakehouseプラットフォームとは、一つのデータレイクのプラ

                                Delta LakeとLakehouseプラットフォームによるデータウェアハウス設計 - every Tech Blog
                              • 実験管理について考える - Re:ゼロから始めるML生活

                                この記事はMLOps Advent Calendar 2020 - Qiita7日目の記事です。 機械学習では、データサイエンティストは実に多くの実験を行い、膨大な数の実験からより良いモデルへと繋がる着想を得ていきます。 逆に言えば、機械学習に関する開発においては非常に多くの実験が行われ、それらを効率よく・適切に管理することができなければ、優れたモデルを効率よく開発することへの妨げになってしまいかねません。 このように、機械学習に関する開発において実験管理は非常に重要な役割を果たすと私は考えています。 しかし、実験管理と一口に言っても、ノートブックのバージョン管理だったり、ハイパーパラメータの違いの記録、はたまた学習時のバリデーションスコアの記録など、細かな要素は多岐にわたります。 そして、こうした細かな「やらなければならないこと」に簡単に対応することは意外と難しく、やらなければならないが

                                  実験管理について考える - Re:ゼロから始めるML生活
                                • pysparkでデータハンドリングする時によく使うやつメモ - Qiita

                                  この記事について pysparkのデータハンドリングでよく使うものをスニペット的にまとめていく。随時追記中。 勉強しながら書いているので網羅的でないのはご容赦を。 Databricks上での実行、sparkは2.3.0以降, pythonは3.6以降を利用することを想定。 既存データからDataFrameの作成 # csvk形式1(spark DataFrameから書き出されたデータなど、データが複数にまたがっている場合) df = spark.read.csv("s3://my-backet/my-data/*.csv") # csv形式1(単一のファイルの場合。そもそもあまりない状況だと思うが…。状況にもよるが後にrepartion()実行を推奨) df = spark.read.csv("s3://my-backet/my-data/data.csv") # parquet形式 df

                                    pysparkでデータハンドリングする時によく使うやつメモ - Qiita
                                  • [翻訳] GPT-4 Technical Report - Qiita

                                    こちらの前半のTechnical Reportの翻訳です。System Cardの翻訳はこちら。 Databricksのユーザー会でChatGPTの勉強会やります。 注意 本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。 脚注、参考文献、Appendixなどは本文をご覧ください。 アブストラクト 画像とテキストのインプットを受け取り、テキストのアウトプットを生成することができる大規模かつマルチモーダルなモデルであるGPT-4の開発を報告します。多くの現実世界のシナリオにおいて人間より能力が劣りますが、GPT-4は司法試験をテスト受験者のトップ10%の点数で通過したことを含み、さまざまな専門的、学術的なベンチマークで人間レベルのパフォーマンスを示しています。GPT-4は文書内の次のトークンを予測するように事前学習したトランスフォーマーベースの

                                      [翻訳] GPT-4 Technical Report - Qiita
                                    • [翻訳] GPT-4 System Card (後編) - Qiita

                                      こちらの後半にあるGPT-4 System Cardの翻訳です。前後編の後編です。前編はこちら。Technical Reportはこちら。 Databricksのユーザー会でChatGPTの勉強会やります。 注意 本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。 脚注、参考文献、Appendixなどは本文をご覧ください。 3 デプロイメントの準備 OpenAIはより安全なローンチに備えるために8月上旬以来、GPT-4とデプロイメント計画に対してイテレーション[21]を行ってきました。我々は、これによってリスクの浮上を押し留めていると信じていますが、完全に排除したわけではありません。現在のデプロイメントは、デプロイメントによるリスクの最小化と、ポジティブなユースケースの実現、デプロイメントからの学習のバランスをとっています。この期間における我

                                        [翻訳] GPT-4 System Card (後編) - Qiita
                                      • Introducing DBRX: A New State-of-the-Art Open LLM | Databricks

                                        Unified governance for all data, analytics and AI assets

                                          Introducing DBRX: A New State-of-the-Art Open LLM | Databricks
                                        • RAG (Retrieval Augmented Generation) を活用!LLMで外部データを参照する方法を解説 | 株式会社ARISE analytics(アライズ アナリティクス)

                                          Tweet RAG (Retrieval Augmented Generation) を活用!LLMで外部データを参照する方法を解説 はじめに はじめまして、DX Technology Unitの芹澤です。普段はAI関連技術を用いた研究開発に携わっています。 昨今、ChatGPTを初めとした大規模言語モデル (Large Language Model; 以下LLM) が話題になっており、様々な質問に対して非常に優れたアウトプットが得られるようになりました。一方、LLMを企業で使用する場合、社内特有のデータを参照する必要があるため、社内特化LLMシステムを構築することが必須となります。 弊社では、社内の業務効率化を目的とした生成AIの活用を促進する「生成AIプロジェクト」が立ち上がり、ChatGPTをはじめとしたLLMの検証作業を進めています。その中で生成AIが社内情報を参照できるようにする

                                            RAG (Retrieval Augmented Generation) を活用!LLMで外部データを参照する方法を解説 | 株式会社ARISE analytics(アライズ アナリティクス)
                                          • The problems in the Modern Data Stack

                                            👋 Hi folks, thanks for reading my newsletter! My name is Diogo Santos, and I write about data product principles, the evolution of the modern data stack, and the journey to data mesh (the future of data architecture). In today’s article, I’ll discuss the biggest challenges in the modern data stack. How do we got here, what are the main problems, and how to address them. Please consider subscribin

                                              The problems in the Modern Data Stack
                                            • データ活用におけるトレンド予想2023

                                              企業におけるデータ活用は年々注目度が増しており、ほぼすべての企業の中期経営計画においてデータ活用について触れられている。とはいえ、いきなり大きな投資をするのではなく、小さく始めて成功を重ねたい企業も多い。小さく始め、大きく成長させる、もしくは大きく成長した後に発生する課題に対応するための技術トレンドとして、モダンデータスタック、データファブリック、データメッシュという3つのキーワードを紹介する。 目次 Think Big Act Small !! Data&Intelligence領域における新語・流行語 モダンデータスタック(Modern Data Stack) データファブリック(Data Fabric) データメッシュ(Data Mesh) 3つのトレンドの共通点 忘れてはいけない、最終的な価値提供 Think Big Act Small !! この言葉を初めて聞いたのは、2005年

                                                データ活用におけるトレンド予想2023
                                              • 革新的ソフトウェアの初期投資家に聞く、これからのSaaS企業──Kleiner Perkins・Mamoon Hamidインタビュー

                                                ALL STAR SAAS FUNDのメールマガジン「ALL STAR SAAS NEWSLETTER」購読登録受付中ALL STAR SAAS FUNDがお届けする 最新SaaSニュース、ブログ記事情報を配信するSaaS業界にいる方は必見のメールマガジン! この2年間、株式市場でSaaS企業の株価は大きく変動し、高いマルチプルを維持しているSaaSと、マルチプルが低下するSaaSが混在するようになりました。利益を優先するSaaSもあれば、大型調達を実施するSaaSもあり、マーケットは激しく変化し続けています。 米国の投資領域において第一線で活動を続けるベンチャーキャピタルは、この状況をどう見ているのでしょうか。今回、Box、Rippling、Figmaなど著名なSaaS企業への投資実績をもつ「Kleiner Perkins」のPartner Mamoon Hamidさんに『減速するSaa

                                                  革新的ソフトウェアの初期投資家に聞く、これからのSaaS企業──Kleiner Perkins・Mamoon Hamidインタビュー
                                                • Azure Machine Learning + MLflowで実験管理とモデル管理をしつつ機械学習モデル開発をする話 - Qiita

                                                  本記事は「求ム!Pythonを使ってAzureで開発する時のTips!【PR】日本マイクロソフト Advent Calendar 2020」の17日目の記事です。空いていた枠に後日投稿しました。 Azure Machine Learning という機械学習周りの広い範囲をカバーするサービスがあります。Azure Machine Learning はデータセット管理からモデルの開発、実験の管理、モデルの管理、デプロイまで、機械学習モデルの開発に必要なほぼほぼ全ての工程をこなすことができるサービスですが、本記事ではAzure Machine Learning の機能の一部、実験管理とモデル管理部分をインターネットに接続可能な任意の Python 開発環境と組み合わせる方法を検証しつつ紹介します。 ただし、Azure Machine Learning の機能を素の状態では使用しません。最も広く使

                                                    Azure Machine Learning + MLflowで実験管理とモデル管理をしつつ機械学習モデル開発をする話 - Qiita
                                                  • 『DELISH KITCHEN』のA/Bテスト基盤を構築しました - every Tech Blog

                                                    はじめに こんにちは。株式会社エブリーでデータサイエンティストをしている伊藤です。 『DELISH KITCHEN』では、サービスをより良くするため、新機能の開発や既存機能・デザインの改善など様々な施策が行われています。 これらの施策は、一部のユーザのみを対象とする「A/Bテスト」によってオンライン評価され、その効果が認められてからユーザ全体にリリースされます。 直近、A/Bテストの信頼性・アジリティをより高めるため、データチームが主導となり新しくA/Bテスト基盤を構築・導入しました。 本記事では、新しく導入したA/Bテスト基盤の概観を紹介させていただきます。 今回紹介するA/Bテスト基盤の活用については、少し前の記事でも紹介していただいているので、そちらも是非合わせてご覧ください。 tech.every.tv これまでの課題 これまで、A/Bテストは各運営チームが主導となって実施されてき

                                                      『DELISH KITCHEN』のA/Bテスト基盤を構築しました - every Tech Blog
                                                    • Google Colab で OpenCALM-7B のLoRAファインチューニングを試す|npaka

                                                      「Google Colab」で「OpenCALM-7B」のLoRAファインチューニングを試したのでまとめました。 【注意】Google Colab Pro/Pro+ の A100で動作確認しています。今回のファインチューニングには、VRAMは23.5GB必要でした。 1. OpenCALM-7B「OpenCALM-7B」は、「サイバーエージェント」が開発した、日本語LLMです。商用利用可能なライセンスで公開されており、このモデルをベースにチューニングすることで、対話型AI等の開発が可能です。 2. 学習「Google Colab」で「OpenCALM-7B」のLoRAファインチューニングを行います。データセットは@kun1em0nさんの「kunishou/databricks-dolly-15k-ja」を使わせてもらいました。 学習手順は、次のとおりです。 (1) メニュー「編集→ノートブ

                                                        Google Colab で OpenCALM-7B のLoRAファインチューニングを試す|npaka
                                                      • SWRと状態管理

                                                        VSCodeでのDatabricks開発もお勧めしたい/I would also recommend Databricks development with VSCode.

                                                          SWRと状態管理
                                                        • Adobe Summit 2024において画像生成AI「Firefly」のアップデートや新たなイノベーションの発表が行われる

                                                          Adobeが2024年3月26日から27日にかけて開催しているデジタルエクスペリエンスカンファレンス「Adobe Summit 2024」において「Adobe Experience Platform AI Assistant」「Federated Audience Composition」「Adobe Real-Time Customer Data Platform (CDP) Collaboration」という3つのイノベーションを発表しました。また、画像生成AIの「Firefly」でもアップデートが行われています。 Adobe Summit 2024: Unveiling the future of Customer Experience Management (CXM) in the age of Gen AI | Adobe Blog https://blog.adobe.com/

                                                            Adobe Summit 2024において画像生成AI「Firefly」のアップデートや新たなイノベーションの発表が行われる
                                                          • ベストプラクティス: AWS によるオブザーバビリティの実装 | Amazon Web Services

                                                            Amazon Web Services ブログ ベストプラクティス: AWS によるオブザーバビリティの実装 お客様は、クラウドベースのソリューションを導入する際に、システムが円滑に稼働していることを確認し、問題が発生したときに迅速に修正できるようにする必要があります。しかし、オブザーバビリティを特に企業間をまたがって数十から数百のサービスが関わるような大規模に展開することは、簡単にはいかない場合があります。そのため、お客様はベストプラクティスの推奨事項、ツールの選択に関するガイダンス、そして最も重要な、オブザーバビリティを開始するための段階的なプロセスを求めています。AWS での堅牢なオブザーバビリティ戦略を実装するプロセスを簡素化するために、ベストプラクティスガイドをまとめました。この記事では、ガイドで取り上げられているトピック、ガイドの活用方法、およびガイドへ貢献する方法について説明

                                                              ベストプラクティス: AWS によるオブザーバビリティの実装 | Amazon Web Services
                                                            • kunishou/databricks-dolly-15k-ja · Datasets at Hugging Face

                                                              This dataset was created by automatically translating "databricks-dolly-15k" into Japanese. This dataset is licensed under CC-BY-SA-3.0 Last Update : 2023-05-11 databricks-dolly-15k-ja https://github.com/kunishou/databricks-dolly-15k-ja databricks-dolly-15k https://github.com/databrickslabs/dolly/tree/master/data

                                                                kunishou/databricks-dolly-15k-ja · Datasets at Hugging Face
                                                              • 48個の LLM を用いた Instruction データセットの品質スコアリング - Qiita

                                                                LLM Advent Calendar 2023について こんにちは、LLM Advent Calendar 2023を企画しましたkunishouです。今年も気づけばあっという間に12月ですが皆さんいかがお過ごしでしょうか?ちょうど1年と1日前の2022年11月30日にChatGPTが世界に公開されたのは記憶に新しいですが、それを皮切りに世の中の機械学習/自然言語処理周りの技術トレンドも大きく変化した1年だったと感じました。私はちょうど1年ほど前に「オープンソースAIを用いた音声対話ロボットの作成」というBERTと音声対話する内容の記事を投稿しましたが1年経ち改めて読み返すとかなり陳腐な内容に見えてしまい、技術の進歩の速さに非常に驚いています。実際、技術の進歩は早く、この1年はLLM(Large Language Model)に関連する新しい技術や日本語対応したLLMが日々公開され、常に

                                                                  48個の LLM を用いた Instruction データセットの品質スコアリング - Qiita
                                                                • Towards MLOps: Technical capabilities of a Machine Learning platform

                                                                  Table of contentsIntroduction 1.1 The workflows of data science and software development are different 1.2 The ML pipeline has to include Continuous Training 1.3 Model driftFeature Store 2.1 Centralised data access 2.2 Data Versioning 2.3 Data pipelines 2.4 Data labeling 2.5 Feature repository and data discoveryTraining pipeline 3.1 Model and experiment management 3.2 Pipeline orchestration 3.3 Au

                                                                    Towards MLOps: Technical capabilities of a Machine Learning platform
                                                                  • LLMは「複合AIシステム」へ進化する、データブリックスCTOの主張を読み解く

                                                                    LLM(大規模言語モデル)単体ではなく、複数のLLMに検索システムなどを組み合わせた「複合AI(人工知能)システム」がこれからの主流になる――。そう指摘するのは、データ分析基盤を提供する米Databricks(データブリックス)の共同創業者、Matei Zaharia(マテイ・ザハリア)CTO(最高技術責任者)だ。 ザハリアCTOはカリフォルニア大学バークレー校(UCバークレー)の博士課程に在籍していた2009年に、ビッグデータ分析のオープンソースソフトウエア(OSS)である「Apache Spark」の開発プロジェクトを始めたことで知られる。データブリックスはSparkをベースにしたデータ分析基盤を提供するスタートアップで、ザハリアCTOは今もUCバークレーの准教授を務める。 複合AIシステム(Compound AI Systems)とは2024年2月に、ザハリアCTOがUCバークレーの

                                                                      LLMは「複合AIシステム」へ進化する、データブリックスCTOの主張を読み解く
                                                                    • 強化学習でポケモンをプレイする - Qiita

                                                                      久しぶりのQiita投稿です.現在,三菱UFJフィナンシャル・グループの戦略子会社であるJapan Digital Design株式会社でリサーチャーをしています.こちらは,Japan Digital Design Advent Calendar 2023 の7日目の記事になります! 本記事では,「強化学習を使ってポケモンをプレイする動画」についてご紹介させていただきます! ※ 動画内容の切り抜き利用につきましては,Peter Whidden氏の許可を頂いております. ※ 本記事では,ポケモンをプレイするための技術を解説していきますが,動画で見た方が面白いので,ご興味のある方はぜひご覧になってみてください! 導入 みなさま強化学習(reinforcement learning)をご存知でしょうか? 強化学習とは,機械学習の手法1つで,エージェント(AI)が環境とのやり取りを通じながら,累積

                                                                        強化学習でポケモンをプレイする - Qiita
                                                                      • LLMでSnowflakeのSQLを最適化、クラウド費用を最大8割削減するEspresso AIが登場——シードで1,100万米ドル調達も - BRIDGE(ブリッジ)テクノロジー&スタートアップ情報

                                                                        Image credit: Espresso AI シリコンバレーの AI スタートアップ Espresso AI は、現在企業コンピューティングにおけるおそらく最大の課題であるクラウドコストの高騰抑制に AI の力を導入するため、1,100万米ドル以上のシード資金を調達した。この資金調達には、Daniel Gross(ダニエル・グロス)氏と Nat Friedman(ナット・フリードマン)氏がリードしたシードラウンドと、FirstMark の Matt Turck 氏がリードしたプレシードラウンドがあり、業界のリーダーたちも参加している。 7日にステルス状態から抜け出した同社は、高度な言語モデルと機械学習を使ってコードを自動的に最適化し、クラウドの計算コストを最大80%削減する技術を開発した。最初の製品は、人気のクラウド・データウェアハウス・プラットフォーム「Snowflake」の SQ

                                                                          LLMでSnowflakeのSQLを最適化、クラウド費用を最大8割削減するEspresso AIが登場——シードで1,100万米ドル調達も - BRIDGE(ブリッジ)テクノロジー&スタートアップ情報
                                                                        • バイセルのテックカンパニーへの変遷、CTOとしての取り組みを振り返る|kyuns /キュン 今村雅幸

                                                                          約3年ぶりの投稿になります、株式会社BuySell Technologies(以下バイセル)で取締役CTOをしている @kyunsです。 バイセルでのCTO歴も2年半が経ちましたので、この記事ではバイセルのテックカンパニーへの変遷に向けたこれまでの取り組みの紹介をしていきたいと思います。 本記事はバイセルテクノロジーズ Advent Calendar 2023の 25日目の記事となります。 バイセルについてバイセルはグループ各社がそれぞれの強みを活かして、買取から販売まで、幅広い商材を取り扱う総合リユースビジネスを展開しています。 特に出張訪問買取事業は業界最大級の規模で全国展開するバイセルの強みです。出張訪問以外にもバイセルグループ全体で全国200店舗以上を運営しています。 売上規模は400億円を超え、グループ全体の従業員は1400名以上になります。 バイセルグループの事業概要全国200

                                                                            バイセルのテックカンパニーへの変遷、CTOとしての取り組みを振り返る|kyuns /キュン 今村雅幸
                                                                          • 『みんなの考えた最強のデータアーキテクチャ’24新春-最新版SP!』レポートを参加者の皆さんのX投稿でまとめてみた #datatechjp | DevelopersIO

                                                                            『みんなの考えた最強のデータアーキテクチャ’24新春-最新版SP!』レポートを参加者の皆さんのX投稿でまとめてみた #datatechjp アライアンス事業部 エンジニアグループ モダンデータスタック(MDS)チームの しんや です。 前回開催されて非常に大きな評判だった「みんなの考えた最強のデータアーキテクチャ」の2024年版イベント『』が2024年01月16日、開催されました。 2023年開催のイベント内容はこちらをご参照ください。 イベント全体としては非常に聴き応えのある内容だったのですが、イベントのアーカイブ(録画)なし/前半のLTのメモを取り切る体力と瞬発力が無かった(体力の衰えが...)/後半のパネルディスカッションも内容が濃すぎて名言連発しており、それら名言を取り上げるだけでもイベントの良さや内容が伝わるかな、とも思い参加者の皆様のX投稿で気になったものをピックアップする形で

                                                                              『みんなの考えた最強のデータアーキテクチャ’24新春-最新版SP!』レポートを参加者の皆さんのX投稿でまとめてみた #datatechjp | DevelopersIO
                                                                            • オールインワンAI/機械学習プラットフォーム「Dataiku」のSaaS版「Dataiku Cloud」の取り扱いを開始 | NTTデータ先端技術株式会社

                                                                              NTTデータ先端技術株式会社(本社:東京都中央区、代表取締役社長:藤原 遠、以下:NTTデータ先端技術)は2024年2月13日より、オールインワンAI/機械学習プラットフォーム「Dataiku」のSaaS版である「Dataiku Cloud」の取り扱いを開始しました。 これまでNTTデータ先端技術は、「Dataiku」のクラウドインストール版、オンプレミスインストール版を提供してきました。今回、新たなラインナップとしてSaaS版の「Dataiku Cloud」の取り扱いを開始し、お客様の初期構築期間をこれまでよりも大幅に短縮し、最新のデータを迅速に活用開始いただけるようになります。AI/機械学習のフルマネージド・AIプラットフォームサービスとして、お客様のAI活用、アナリティクスによる洞察を加速させます。今後は、「Dataiku Cloud」も含めた3つのプランから、お客様のビジネス状況に

                                                                                オールインワンAI/機械学習プラットフォーム「Dataiku」のSaaS版「Dataiku Cloud」の取り扱いを開始 | NTTデータ先端技術株式会社
                                                                              • データ ストア モデルについて - Azure Application Architecture Guide

                                                                                現代のビジネス システムで管理する異種データの量は急速に増加しています。 この多様性は、単一のデータ ストアがいつも最善のアプローチであることを意味しません。 代わりに、異なる種類のデータを、それぞれ特定のワークロードや使用パターンに重点を置いた異なるデータ ストアに格納する方が適切です。 ポリグロット パーシステンスという用語は、さまざまなデータ ストア テクノロジを組み合わせて使用するソリューションを表すために使われます。 そのため、主なストレージ モデルとそのトレードオフについて理解しておくことが重要です。 要件に応じた正しいデータ ストアを選択することは、重要な設計上の意思決定です。 SQL および NoSQL データベースの文字通り何百もの実装の中から選択することになります。 データ ストアは、多くの場合、データの構造とサポートする操作の種類によって分類されます。 この記事では、

                                                                                  データ ストア モデルについて - Azure Application Architecture Guide
                                                                                • Tech Solvency: The Story So Far: CVE-2021-44228 (Log4Shell log4j vulnerability).

                                                                                  Log4Shell log4j vulnerability (CVE-2021-44228 / CVE-2021-45046) - cheat-sheet reference guide Last updated: $Date: 2022/02/08 23:26:16 $ UTC - best effort, validate all for your environment/model before use, unofficial sources may be wrong by @TychoTithonus (Royce Williams), standing on the shoulders of many giants Send updates or suggestions (please include category / context / public (or support