並び順

ブックマーク数

期間指定

  • から
  • まで

41 - 79 件 / 79件

新着順 人気順

Databricksの検索結果41 - 79 件 / 79件

  • Amazon Redshift から Snowflake へのデータ基盤移行

    データ基盤を S3 + Redshift から Snowflake に移行し、Snowflake Database として DataHub を構築 主要なデータソースである Aurora MySQL からのデータ連携方式を、従来の「全件洗い替え方式」から dbt incremental モデルを用いた「増分更新方式」に変更 インフラリソースの IaC 管理を Terraform + Terragrunt で行い、アカウントレベルで環境を分離 データレイヤー間のデータ変換を Glue ETL ジョブから dbt に変更 ワークフローエンジンには従来通り AWS Step Functions を利用(変更なし) 移行前の状態シンプルフォームでは、主に金融機関のお客様における法人審査業務を効率化・高度化するための SaaS ソリューションを提供しており、そのために全国 500 万法人に関する様々

      Amazon Redshift から Snowflake へのデータ基盤移行
    • NVIDIAのGPUはコモディティー化するか、快進撃の裏でよみがえる「Ciscoの悪夢」

      時価総額が2.6兆ドル(約410兆円)を超え、2.9兆ドルで世界2位の米Apple(アップル)の背中が見えてきた米NVIDIA(エヌビディア)。エヌビディアの専売特許であるGPU(画像処理半導体)の今後を占う連載の第2回は、2つめの死角「コモディティー化」の可能性を検討する。 GPUにとって2つめの死角は低価格化だ。コモディティー化ともいえる。市場参入時には高付加価値を持っていた製品が、市場の活性化や競合の出現などによって他の製品との機能・サービスの差がなくなり、価格競争を余儀なくされる状態を指す。 例えば2010年代に日系電機メーカーが苦しんだ薄型テレビはその典型だろう。当時、売れ筋だった40インチの薄型テレビの店頭実売価格は2009年には14万円程度だったが、3年後の2012年には6万円台と半額以下になった。「3年で半額」という法則はDVDやブルーレイディスクのレコーダーにも当てはまっ

        NVIDIAのGPUはコモディティー化するか、快進撃の裏でよみがえる「Ciscoの悪夢」
      • Azure Databricksで試す、レイクハウスでの非構造化ログの分析 - NTT Communications Engineers' Blog

        この記事は、NTT Communications Advent Calendar 2024 12日目の記事です。 Azure Databricksを使ってレイクハウスアーキテクチャのログ基盤を構築し、 構造化されていないアプリケーションログの保管や加工、分析を試します。 はじめに レイクハウスアーキテクチャ ログ基盤とレイクハウス Azure Databricksでアプリケーションログを分析する Azure Databricksの準備 Terraformを使ったリソース作成 カタログとスキーマの作成 ログの取り込み ログの加工 BronzeからSilver SliverからGold ログの分析 (可視化) まとめ 参考文献 はじめに こんにちは、コミュニケーション&アプリケーションサービス部の吉仲です。 2022年度に入社し、初期配属からメール系システムと文書要約APIの開発・運用業務に取

          Azure Databricksで試す、レイクハウスでの非構造化ログの分析 - NTT Communications Engineers' Blog
        • 「専門用途のAI開発で日本に勝機」、UCバークレーのザハリア准教授が指摘

          「オープンソースの基盤モデルを活用すれば、低コストで専門用途に特化したAI(人工知能)を開発できるようになった。ここに勝機がある」――。米カリフォルニア大学バークレー校(UCバークレー)の准教授で、米Databricks(データブリックス)の共同創業者兼CTO(最高技術責任者)を務めるMatei Zaharia(マテイ・ザハリア)氏は2025年3月18日、日経BPが開催した「AIリーダーズ会議2025 Spring」の基調講演でこう呼びかけた。 AIリーダーズ会議は、日本におけるAIによる産業変革を促進する目的で開催したイベント。基調講演には、UCバークレーでビッグデータ分析のオープンソースソフトウエア(OSS)である「Apache Spark」を生み出し、Sparkの商用ベンダーであるデータブリックスをユニコーン(推定企業価値が10億ドル以上の未上場企業)に育てたザハリア氏が登壇。AIの

            「専門用途のAI開発で日本に勝機」、UCバークレーのザハリア准教授が指摘
          • データレイクハウスの概要とそれを支える技術 - Qiita

            Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? はじめに 近年のデータ基盤技術の界隈では、データレイクハウス(Data Lakehouse) という言葉がよく聞かれるようになってきました。データレイクハウスを最初に提示したのはDatabricks1だと思いますが、最近はMicrosoft Fabric2や他のデータ基盤製品でも採用されるようになってきています。 データレイクハウスを一言で説明すると「データレイクハウスとは、データウェアハウスとデータレイクの良いとこ取りをしたもの」という表現がよくされます。ただ、データウェアハウスもデータレイクも一般利用者向けではなく社内向けのシステム

              データレイクハウスの概要とそれを支える技術 - Qiita
            • データベース分野のPhDが考える:なぜデータエンジニアは本気でAIを学ぶべきなのか! - Qiita

              Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? データベースシステムの博士号を持ち、クラウドプロバイダーでの経験を積み、さらにデータストリーミングのスタートアップ RisingWave を4年間運営してきたエンジニアとして、私はすべてのデータエンジニアがAIを受け入れるべきだと強く信じています。つまり、AIを使い、AIを学び、AIを理解し、そして次のステップとしてAIアプリケーションを構築することです! 私は2024年後半からAIを積極的に推進しています。なぜか? それは、AIが今後の未来にとって絶対に不可欠であり、データインフラ業界全体を破壊的に変革する可能性を秘めていると確信して

              • 【最新情報】Chrome事業が売却されればPerplexityも買収に名乗り - AI検索エンジン市場の地殻変動 - 社内SEゆうきの徒然日記

                個人の感想 マイクロソフトがバックに付いているOpen AIが買収すると EDGE+chromeでいまよりもっと独占進むから、この方が無難かと。 この件に限らず昔からアメリカは独占に厳しいから、openAIが買収することを規制当局は認めないかも。 MSがopen AIの株手放せば・・・ 話題作りじゃなく前からブラウザに目をつけてたから、本気だと思う。 roboin.io # 【最新情報】もしもChrome事業が売却されればPerplexityも買収に名乗り - AI検索エンジン市場の地殻変動 news.yahoo.co.jp *2025年4月24日 更新* GoogleのChrome事業売却の可能性が高まる中、AI検索エンジンのPerplexityが買収に関心を示しました。米司法省による反トラスト法裁判の進展により、テック業界に大きな変革の波が押し寄せています。本記事では、この動きの背景と

                  【最新情報】Chrome事業が売却されればPerplexityも買収に名乗り - AI検索エンジン市場の地殻変動 - 社内SEゆうきの徒然日記
                • Snowflake×Icebergを採用すべきか迷った時に読む記事

                  結論 以下の条件に当てはまれば、Icebergの採用を検討すべきです。 データ量がペタバイトを超える 社内でSnowflake以外のデータ活用製品(Databricks、Redshiftなど)も多く利用している 同一のデータを使う関連グループ・企業が多く存在する Icebergの採用は、特に巨大企業においてメリットが大きいです。 逆に上記の条件に1つも当てはまらない場合は、採用を見送るのがよいでしょう。 Icebergとは何に代わるものなのか? Icebergは、Snowflakeのテーブルを置き換えることができます。 Icebergは完全にSnowflakeから独立した技術であり、Snowflakeの機能ではないことに注意が必要です。 最近Snowflakeが別のツールで作成したIcebergテーブルを、読めるようになっただけと捉えるのが1番実態に近いと思います。(※特定の条件下では書き

                    Snowflake×Icebergを採用すべきか迷った時に読む記事
                  • 「データウェアハウスを構築して」と上司から突然言われた人へ - Qiita

                    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? はじめに ◆この記事は何? この記事では、次の3つについて解説します データウェアハウスの重要な基本概念 構築時の注意点 学習に役立つ参考資料 ◆対象は? データウェアハウス構築について学びたい人 ◆この記事のねらい 初学者がデータウェアハウスについて何を学べばいいか分かる データウェアハウス構築の注意点がわかる 押さえておくと良いこと 業務データベースと分析データベース データの利用の観点から、データベースは業務データベースと分析データベースに分けることができます。データウェアハウスは分析データベースに相当します。 データベースの利用

                      「データウェアハウスを構築して」と上司から突然言われた人へ - Qiita
                    • Perplexity AI、企業向け内部ナレッジ検索とSpaces機能を発表 – AIが変える情報管理の未来 - イノベトピア

                      Perplexity AI、企業向け内部ナレッジ検索とSpaces機能を発表 – AIが変える情報管理の未来 Last Updated on 2024-10-21 16:03 by admin 2024年10月17日、AI検索エンジンを提供するPerplexity社が、新機能「内部ナレッジ検索(Internal Knowledge Search)」と「Spaces」を発表した。 内部ナレッジ検索は、Perplexity ProとEnterprise Proの有料プラン利用者向けに提供される。この機能により、ユーザーは公開されたWebコンテンツと自社の内部ファイルを同時に検索できるようになる。ただし、検索対象となる内部ファイルは、ユーザーがPerplexityにアップロードしたものに限定される。 Spacesは、AIを活用した研究・コラボレーションハブ機能で、チームメンバーが共同で作業を行え

                        Perplexity AI、企業向け内部ナレッジ検索とSpaces機能を発表 – AIが変える情報管理の未来 - イノベトピア
                      • With 10x growth since 2023, Llama is the leading engine of AI innovation

                        With 10x growth since 2023, Llama is the leading engine of AI innovation Llama models are approaching 350 million downloads to date (more than 10x the downloads compared to this time last year), and they were downloaded more than 20 million times in the last month alone, making Llama the leading open source model family.Llama usage by token volume across our major cloud service provider partners h

                          With 10x growth since 2023, Llama is the leading engine of AI innovation
                        • 『データプラットフォーム技術バイブル』が発売になります。 - smdmtsの技術メモ

                          データプラットフォーム技術バイブル 共著者の藪本氏と共同で執筆した『データプラットフォーム技術バイブル』が本日発売になります。 本記事は書籍の内容について紹介いたします。 データプラットフォームは広範囲の技術体系を含み、その全貌を把握することは容易ではありません。 本書ではめまぐるしく変遷するデータプラットフォームの技術を包括的に紹介し、技術選定で求められる観点に関しても解説しています。 開発時に求められる要素技術はもちろん、技術構成の根底に流れる設計思想、理解の前提となるDelta Lakeなどのデータフォーマットの知識、Apache Sparkに代表される分散コンピューティングによる処理方法なども盛り込んでいます。 執筆を開始した2019年には幅広く利用されていた技術で、現在では既に使われなくなってしまったものも数多くありますし、本書で取り上げている技術が、将来利用されなくなる可能性も

                            『データプラットフォーム技術バイブル』が発売になります。 - smdmtsの技術メモ
                          • Mochi 1登場:Genmo社がオープンソースAI動画生成モデルを無料公開 – 100億パラメータ! - イノベトピア

                            Mochi 1登場:Genmo社がオープンソースAI動画生成モデルを無料公開 – 100億パラメータ! Last Updated on 2024-10-29 22:58 by admin Genmo社は2024年10月22日、オープンソースのAI動画生成モデル「Mochi 1(モチワン)」のプレビュー版をリリースしました。テキストプロンプトから短編動画を生成できる本モデルは、Apache 2.0ライセンスで公開され、研究者やデベロッパーが自由に利用・改良できることが特徴です。 主な技術仕様 100億パラメータの拡散モデルを採用 AsymmDiT(非対称拡散トランスフォーマー)アーキテクチャを使用 30fpsで最大5.4秒の動画生成が可能 現行版は480p解像度 2024年内に720p対応のHD版をリリース予定 Genmo AI Mochi 1 – The Best Open Source

                              Mochi 1登場:Genmo社がオープンソースAI動画生成モデルを無料公開 – 100億パラメータ! - イノベトピア
                            • 生成AIのカスタマイズは「5段のハシゴ」、段抜かしのファインチューニングは厳禁

                              生成AI(人工知能)を業務で活用する際には、大規模言語モデル(LLM)などのカスタマイズが欠かせない。その上で専門家は「LLMのカスタマイズはハシゴ(ラダー)と同じ」と指摘する。カスタマイズは取り組みやすい手法から、一つ一つ試しながら進めていく必要があるとの意味だ。いきなり難しい手法に手を出す「段抜かし」は失敗の元なのだという。 生成AIのカスタマイズに関する注意点を筆者に教えてくれたのは、データ分析基盤を手掛ける米Databricks(データブリックス)でチーフAIサイエンティストを務めるJonathan Frankle(ジョナサン・フランクル)氏だ。 フランクル氏はオープンソースLLMを開発する米MosaicML(モザイクML)の創業者の1人で、データブリックスが2023年7月にモザイクMLを買収した。フランクル氏は現在、データブリックスのチーフサイエンティストとして引き続きLLM開発

                                生成AIのカスタマイズは「5段のハシゴ」、段抜かしのファインチューニングは厳禁
                              • Microsoft Ignite 2024 キーノート日本語まとめ - 吉田の備忘録

                                今年はシカゴで開催されています、Microsoft Ignite 2024!今日はそのIgnite 2024のキーノートでのSatya Nadellaの発表内容をまとめました。 こんなメジャーなプラットフォームの転換期に到達している時代に一緒に過ごせることが楽しみです。この同じ会場で、Windows 3.1が発表されたわけですが、いまのWindowsを形どったのではないかと思います。2015年にIgniteが開催されたわけですが、今日またこの場に戻れることが楽しみです。このキーノートでは、幅広く取り上げたいと思います。 さて、毎回のプラットフォームシフトでは、基礎となる力を深く理解することが重要です。今日はそれをスケーリング法則として話します。Mooreの法則のように、性能が18ヶ月ごとに倍増するのを見てきましたが、今では6ヶ月ごとに倍増するのを見始めています。最近では、スケーリング法則が

                                  Microsoft Ignite 2024 キーノート日本語まとめ - 吉田の備忘録
                                • [2024年6月6日号]個人的に気になったModern Data Stack情報まとめ | DevelopersIO

                                  さがらです。 Modern Data Stack関連のコンサルタントをしている私ですが、Modern Data Stack界隈は日々多くの情報が発信されております。 そんな多くの情報が発信されている中、この2週間ほどの間で私が気になったModern Data Stack関連の情報を本記事でまとめてみます。 ※注意事項:記述している製品のすべての最新情報を網羅しているわけではありません。私の独断と偏見で気になった情報のみ記載しております。 Data Extract/Load Fivetran 「Fivetran Managed Data Lake Service」を発表 Fivetranが新機能として、「Fivetran Managed Data Lake Service」を発表しました。 基本的には、宛先にS3、Azure Data Lake Storage、Microsoft OneLa

                                    [2024年6月6日号]個人的に気になったModern Data Stack情報まとめ | DevelopersIO
                                  • RAGの品質評価フレームワークの選択肢 - Qiita

                                    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? RAGの品質評価 最近、LLMコミュニティは自動評価の利用を探求しており、多くの研究者や企業がLLMを使用して自身のLLMアプリケーションの出力を評価しています。 DatabricksがGPT-3.5とGPT-4を評価として使用して、自社のチャットボットアプリケーションを評価した実践は、LLMを自動評価ツールとして使用することが効果的であることを示唆しています。 この方法がRAGベースのアプリケーションを効率的かつコスト効果的に評価することもできるでしょう。 評価のためのフレームワーク RAG評価フレームワークの分野では、RAGAS、A

                                      RAGの品質評価フレームワークの選択肢 - Qiita
                                    • Building an Open, Multi-Engine Data Lakehouse with S3 and Python - Tower

                                      Building an Open, Multi-Engine Data Lakehouse with S3 and Python The idea of open, multi-engine data lakehouses is gaining momentum in the data industry. Here is what has happened in the last six months alone. Last week, the data community was abuzz when AWS announced Iceberg-based S3 Tables at this year's re:Invent. In October, Snowflake launched a managed service for Iceberg metadata catalogs ca

                                        Building an Open, Multi-Engine Data Lakehouse with S3 and Python - Tower
                                      • セールスフォース・ジャパン、CRM向け対話型AIアシスタントの日本市場提供予定が10月になる旨を発表

                                        セールスフォース・ジャパン(以下、Salesforce)は、CRM向け対話型AIアシスタント「Einstein Copilot(ベータ版)」とハイパースケールのデータプラットフォーム「Salesforce Data Cloud」の「Data Cloudベクトルデータベース」を日本市場で提供開始すると発表。 これにより、ユーザー企業は信頼できるデータソースを確保し、SalesforceのCRMアプリで生成AIを活用できるようになるほか、SlackとTableauの最新AIイノベーションを用いて、働き方と分析を加速できるとのこと。 CRM向け対話型AIアシスタント「Einstein Copilot」 「Einstein Copilot」は、SalesforceのすべてのCRMアプリ向けの統合的な対話型AIアシスタント。顧客は自社で保有する信頼できるデータを活用し、質問への回答、コンテンツの要約

                                          セールスフォース・ジャパン、CRM向け対話型AIアシスタントの日本市場提供予定が10月になる旨を発表
                                        • SAP×Databricks戦略提携|Business Data Cloudで実現する次世代エンタープライズAI基盤 - イノベトピア

                                          ドイツのソフトウェア大手SAP SE(本社:ドイツ・ヴァルドルフ)は2025年2月13日、新しいSaaSプロダクト「SAP Business Data Cloud(BDC)」を発表しました。 データプラットフォーム企業Databricks(本社:米国サンフランシスコ)との戦略的提携により開発されたBDCは、企業の基幹システムデータとAIの統合を実現します。レイクハウスアーキテクチャを採用し、SAP S/4HANA、SAP Ariba、SAP SuccessFactorsなどのSAPアプリケーションデータを、Databricksのデータインテリジェンスプラットフォームとシームレスに統合します。 特徴として、ゼロコピー方式による双方向データ共有とDatabricks Unity Catalogによるガバナンス機能を備えています。既にドイツの化学・消費財大手Henkelが本プラットフォームを活用

                                          • Llama-3.1 の概要 |npaka

                                            以下の記事が面白かったので、簡単にまとめました。 ・Introducing Llama 3.1: Our most capable models to date 1. Llama-3.1 の概要「Llama-3.1」は、一般知識、操縦性、数学、ツールの使用、多言語翻訳の最先端の機能に関して、トップクラスのAIモデルに匹敵する、初めてオープンなモデルです。405Bモデルのリリースにより、イノベーションを加速させ、前例のない成長と探求の機会を得る準備が整いました。最新世代の 「Llama」は、合成データ生成による小規模モデルの改善と学習、およびモデル蒸留など、新しいアプリとモデリングパラダイムを活性化させると確信しています。これは、オープンソースでこの規模で実現されたことのない機能です。 この最新リリースの一環として、8Bモデルと70Bモデルのアップグレード版もリリースします。これらは多言語対

                                              Llama-3.1 の概要 |npaka
                                            • Llamaとは?最新モデルの性能や日本語対応の状況、活用例などを解説! | スキルアップAI Journal

                                              ChatGPTやGeminiなど、さまざまな生成AIサービスが登場しています。その中でも、Meta社が開発したことで注目を集めているのが「Llama」です。2024年4月には最新のAIモデル「Llama3」が発表され、その性能の高さが話題になりました。 この記事では、Llamaの性能や日本語対応状況、活用例などを紹介していきます。Llamaについて詳しく知りたい方、利用を検討している方は、ぜひ参考にしてください。 Llamaとは? Llamaとは、Meta社が開発した大規模言語モデル(LLM)です。読み方は「ラマ」であり、2023年2月に発表されました。 2024年7月現在、LlamaにはLLaMA・Llama2・Llama3の3つのバージョンがあります。中でもLlama3は、性能の高さやオープンソースであることから、大きな注目を集めています。 Llamaのバージョン 現在、Llamaの生

                                                Llamaとは?最新モデルの性能や日本語対応の状況、活用例などを解説! | スキルアップAI Journal
                                              • DuckDB Is Not a Data Warehouse

                                                Before I get to DuckDB, I’ve got three house-cleaning items this week: Bluesky, Materialized View’s one year anniversary, and P99 CONF. Let’s begin with social media. I’ve moved to Bluesky 🦋. Follow me @chris.blue if you’ve enjoyed my Twitter posts over the past 15 years. You can crosspost with Fedica or Buffer if you like. There are some great starter packs to bootstrap your feed, too. Here are

                                                  DuckDB Is Not a Data Warehouse
                                                • データエンジニアのことがちょっとだけわかるnote|Akira Iwasaki @ DataMarket 🏙

                                                  データエンジニアってどういう人?このnoteを書いたモチベーション今、データエンジニアの需要が少しずつ高くなってきています。 元々、データエンジニアリングの分野自体の歴史は古く、インターネットが広まる前からありました。当時はデータベースエンジニアと呼ばれ、主にOracleやMicrosoft SQLといったリレーショナルデータベース、簡単に言うと表形式のデータを扱うことが多かったですが、それらは大企業の大きなシステムで利用される専門性の強い分野でした。 やがてインターネットが広まり始めると同時にSQLサーバを自前で持つ企業も増え始め、そして2010年ごろビッグデータがバズワードとなると、ビッグデータを扱うための様々な技術が現れ、同時にデータアナリストやデータサイエンティストといった職種も台頭し、データの重要性が理解されはじめてきました。 データサイエンティストなどは、データサイエンティスト

                                                    データエンジニアのことがちょっとだけわかるnote|Akira Iwasaki @ DataMarket 🏙
                                                  • awesome-japanese-nlp-resources/docs/huggingface.ja.md at main · taishi-i/awesome-japanese-nlp-resources

                                                    This list is sorted by downloads as of December 24, 2024. 1107 models are listed. tohoku-nlp/bert-base-japanese BERT base日本語(IPA辞書)これは日本語のテキストで事前学習されたBERTモデルです。 Downloads: 2,148,658 jonatasgrosman/wav2vec2-large-xlsr-53-japanese 日本語の音声認識用に調整されたXLSR-53ラージモデル。Common Voice 6.1、CSS10、JSUTのトレーニングおよび検証データを使用して、facebook/wav2vec2-large-xlsr-53モデルを日本語で調整しました。このモデルを使用する際には、音声入力が16kHzでサンプリングされていることを確 Downloa

                                                      awesome-japanese-nlp-resources/docs/huggingface.ja.md at main · taishi-i/awesome-japanese-nlp-resources
                                                    • Snowflakeを凌駕する新星?Apache Icebergで変わるデータ戦略 - Qiita

                                                      Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 図書館を管理していると想像してください。ただし、整然とした本の棚ではなく、あちこちに散乱したバラバラのページだけがある状況です。必要な情報を見つけるのは悪夢のようで、他の人と共有するのはさらに困難です。これは、データの海に溺れている多くの企業にとっての現実です。Snowflake、Redshift、BigQueryのような従来のデータウェアハウスは秩序を提供しますが、しばしば高額なコストやベンダーロックインという問題を伴います。そこで登場するのが、データ界の新星であるApache Icebergです。しかし、それは単なるコスト削減だけな

                                                        Snowflakeを凌駕する新星?Apache Icebergで変わるデータ戦略 - Qiita
                                                      • AIモデル開発/ファインチューニングで起こり得るGPUのメモリ不足を解消するアプローチ | AMP[アンプ] - ビジネスインスピレーションメディア

                                                        AIモデル開発/ファインチューニングのコスト 大規模言語モデル(LLM)の開発やファインチューニングには、莫大な計算リソースが必要となる。その中でも特に、GPUのコストが大きな課題となっている。 LLMの開発コストは、モデルの規模によって大きく異なる。たとえば、グーグルのGemini Ultraは開発に1億9,100万ドル(約268億円)、OpenAIのGPT-4は7,800万ドル(約110億円)かかったと推定されている。比較的小規模なモデルでも、DatabricksのDBRXは1,000万ドル(約14億円)の開発コストがかかったと報告されている。 これらの巨額な開発コストは、ほとんどの組織にとって手の届かないものだ。そのため、多くの企業は既存のオープンソースモデルをベースに、自社のニーズに合わせてファインチューニングを行う方法を選択している。 しかし、ファインチューニングにもかなりのコス

                                                          AIモデル開発/ファインチューニングで起こり得るGPUのメモリ不足を解消するアプローチ | AMP[アンプ] - ビジネスインスピレーションメディア
                                                        • 7 Lessons from building a small-scale AI application

                                                          7 Lessons from building a small-scale AI application Jan 22 2025 ChatGPT heralded a seismic shift in software, and one that I felt compelled to understand. So, over the past year, I’ve been building an AI assistant for my past-CEO-self as a pedagogical exercise. It answers questions, gets status reports, and summarizes what’s going on. Reflecting on what I know now, here are my takeaways over the

                                                            7 Lessons from building a small-scale AI application
                                                          • 【技術ブログ】データサイエンティストが解説!GeminiのFine-tuning方法の解説とMed-LM|中外製薬公式note

                                                            こんにちは、中外製薬のデジタル戦略推進部で、データサイエンティストとして機械学習モデルの開発や導入をリードしている徳山です。前回は、AIによるデジタルパソロジーの取り組み事例を紹介しましたが、今回は最近話題の 大規模自然言語モデル (Large Language Model、以降、LLM) の取り組みについて紹介します。 徳山の過去のブログはこちら 大規模自然言語モデル(LLM)とは大規模自然言語モデル(LLM)とは、膨大な量のテキストデータから、単語や文章の意味や文法を学習し、さまざまな自然言語処理タスクにおいて高い性能を発揮する深層ニューラルネットワークのことです。例えば、BERTやGPTなどが有名です。これらのモデルは、事前に一般的なテキストデータで学習された後、特定のタスクに合わせて微調整することで、質問応答、文章生成、機械翻訳、要約、感情分析など、幅広い自然言語処理タスクに対応で

                                                              【技術ブログ】データサイエンティストが解説!GeminiのFine-tuning方法の解説とMed-LM|中外製薬公式note
                                                            • vLLMとPagedAttention:LLM推論の革新的技術

                                                              はじめに 大規模言語モデル(LLM)の世界で、効率的な推論は常に課題となっています。この記事では、その課題に革新的なソリューションを提供する「vLLM」と「PagedAttention」について詳しく解説します。これらの技術が、どのようにLLM推論を高速化し、メモリ使用を最適化しているのかを、初心者にも分かりやすく説明していきます。 解説スレ vLLMとは? vLLMは、オープンソースのLLM推論・サービングエンジンです。その特徴は、「PagedAttention」と呼ばれる新しいメモリ割り当てアルゴリズムを使用していることです。 vLLMの主な特徴 高速処理: HuggingFace Transformers(HF)と比較して最大24倍、HuggingFace Text Generation Inference(TGI)と比較して最大3.5倍のスループットを実現します。 効率的なメモリ使

                                                                vLLMとPagedAttention:LLM推論の革新的技術
                                                              • [論文] SIGMOD/PODS 2024「Amazon Redshift における自動化された多次元データレイアウト」 | DevelopersIO

                                                                AWS事業本部コンサルティング部の石川です。昨年のre:Invent2023 で発表された クエリのパフォーマンスを最適化する多次元データレイアウトを発表 (プレビュー)について、データベース研究分野における最も重要な国際会議の1つである SIGMOD/PODS 2024 で、論文が発表されました。まだプレビュー中の新機能について論文をベースに解説します。 SIGMOD’24について、Ippokratis PandisさんもXに投稿しています! Automated multidimensional data layouts in Amazon Redshift 分析データシステムでは、データのスキャンとフィルタリングのパフォーマンスを向上させるためにデータレイアウト技術が使用されています。この論文では、同じようなフィルター条件が頻繁に使用されるデータベース操作に対して既存の技術を上回る新し

                                                                  [論文] SIGMOD/PODS 2024「Amazon Redshift における自動化された多次元データレイアウト」 | DevelopersIO
                                                                • A decade of data evolution and 2025 predictions | dbt Labs

                                                                  This post first appeared in The Analytics Engineering Roundup. I’ve been writing this newsletter since September of 2015. This will be the 10th year I’ve had the opportunity to reflect on a year gone by and make predictions about the year ahead. Data science and the rise of PythonIn the early years (2015-2017), the data ecosystem was dominated by data science. Data viz, developments in the Python

                                                                    A decade of data evolution and 2025 predictions | dbt Labs
                                                                  • データ系のAdvent Calendarを眺める会を開催しました - yasuhisa's blog

                                                                    背景: 12月は読むべきAdvent Calendarが多すぎる 紹介したエントリ データ分析で用いるSQLクエリの設計方法 - 風音屋TechBlog datacontract-cliの紹介およびCI/CDについて プロダクトをまたいだクロスセルの施策効果を見積もるためのデータ分析パターン #データ分析 - Qiita セミナーアンケートをBigQueryで簡単に感情分析したお話|株式会社HR Force Analytics Hub / BigQuery データシェアリング 2024 #AnalyticsHub - Qiita データアナリストが使うと便利な生成AIプロンプト事例 dbtのmaterializationの話 Apache Iceberg BigQuey/BigLake テーブルを触ってみた データエンジニアリング関係の言葉の定義をまとめた(随時更新) #dataengin

                                                                      データ系のAdvent Calendarを眺める会を開催しました - yasuhisa's blog
                                                                    • セールスフォース、「Agentforce 2dx」を発表--バックグラウンドで動くAIエージェントをサポート

                                                                      Salesforceは米国時間3月5日、サンフランシスコで開発者向けイベント「TrailbrazerDX(TDX) 2025」を開催した。会期中は、最新のAIエージェントプラットフォーム「Agentforce 2dx」とAIエージェントのマーケットプレイス「AgentExchage」を発表するなど、2024年秋に発表(関連記事)したAIエージェント戦略を一歩進めた。 2025年末までに100万人の「Agentblazer」 ITベンダー各社がAIエージェント戦略を進める中、2024年秋の年次イベント「Dreamforce 2024」で「Agentforce」を発表したSalesforceは、急ピッチで新機能をリリースし、リードを図っている。Agentforceは、2024年12月にAgentforce 2.0にアップデートされ、そして今回の2dxとなる。 Salesforceは、Agent

                                                                        セールスフォース、「Agentforce 2dx」を発表--バックグラウンドで動くAIエージェントをサポート
                                                                      • 生成AIを活用したテキスト分類/名寄せのアイデア【Databricks】 - Qiita

                                                                        はじめに Databricksに入社したskatoと申します!社員としては初投稿です。 今回は以前から温めていた課題「テキスト分類(名寄せ)作業、生成AIでなんとか楽にできないか?」を解決するため、Databricksを使っていろいろ検証した過程を記事にしました。 そもそもDatabricksとは何か?については、こちらの記事が詳しいのでぜひご覧いただければと思います! 背景・目的 アナリスト(分析担当者)が自社の商品データを集計してレポートを作成する際、商品名が適切に分類されていないことに悩むことが多いかと思います。 例えば、以下のようなケースが考えられます。 <商品データの集計でよくある課題> # 課題 詳細 例

                                                                          生成AIを活用したテキスト分類/名寄せのアイデア【Databricks】 - Qiita
                                                                        • ユニコーンを次々生み出すUCバークレー、次のテーマは「AIマルチクラウド」

                                                                          シリコンバレーの大学といえばスタンフォード大学が有名だが、サンフランシスコ湾の対岸にあるライバル校、UCバークレー(カリフォルニア大学バークレー校)も有力な技術スタートアップを次々と生み出している。 スタートアップを生み出す「ゆりかご」となっているのは、UCバークレーが大手IT企業と連携し、5年間の期間限定で運営するコンピューター科学の研究所だ。 今回は、UCバークレーの准教授で自身も起業家であるMatei Zaharia(マテイ・ザハリア)氏への取材に基づき、いくつものユニコーン(企業価値が10億ドル以上の未上場企業)を生み出してきた歴代の研究所の歩みを振り返ると共に、最新の研究所が注力するテーマを紹介しよう。 ビッグデータやAIの研究をけん引 まず2006年から2010年にかけて運営された「RAD Lab」と、続く2011年から2016年にかけて運営された「AMPLab」からは、ビッグ

                                                                            ユニコーンを次々生み出すUCバークレー、次のテーマは「AIマルチクラウド」
                                                                          • 『データプラットフォーム技術バイブル』を執筆しました|やぶーん

                                                                            データプラットフォーム技術バイブル共著者の島田氏とともに執筆した、『データプラットフォーム技術バイブル 〜要素技術の解説から実践的な構築方法、利活用まで〜』が本日発売となります。 本書内容については、島田氏が素敵なブログを書いてくれたので、私は本書を通じて伝えたかったことを書きたいと思います。 章構成や技術など、本書の具体的な内容については、下記の島田氏のブログを参照してください。 データプラットフォーム技術バイブルまず、副題にも記載されているとおり、本書はデータプラットフォームを構築するために必要な、要素技術および実践的な構築方法について書かれた本です。 今や、目的意識を持って調べさえすれば、要素技術の情報はインターネット上のブログや公式のヘルプページ、さらにはAIを駆使して楽に学べるでしょう。 しかし、データプラットフォームを構築するための実践的な知見を集約し、必要な周辺技術まで網羅的

                                                                              『データプラットフォーム技術バイブル』を執筆しました|やぶーん
                                                                            • Apache Iceberg Japan Meetup #1 イベントレポート

                                                                              2/21(金)にdocomo R&D OPEN LAB ODAIBAにてIcebergミートアップを開催しました!合計5つのセッションはどれもディープな内容で勉強になりました。運営をしてくださった髙田さん、松原さん、酒徳さん、北岡さん、ありがとうございました! 各セッションの簡単な振り返りです。 動画 AWSの田中さんによるV3スペックに関するセッションです。最近TrinoでV3向けの機能を書いていることもあり個人的に聞きたかった内容でした。V3ではVariant、Geo、Timestamp nanoなど複数のデータ型が追加されます。Deletion VectorはV3でMoRを利用する上で必須な機能なので、MoRを利用する方は確認することをお勧めします。Row lineageは全く追えてなかったので勉強になりました。Row lineageに関するプロポーザルも参考になりそうです。 動画

                                                                                Apache Iceberg Japan Meetup #1 イベントレポート
                                                                              • Meta、「Llama 4」シリーズを発表 – 1000万トークンの超長文理解と革新的MoEアーキテクチャを実現 - イノベトピア

                                                                                Meta、「Llama 4」シリーズを発表 – 1000万トークンの超長文理解と革新的MoEアーキテクチャを実現 Last Updated on 2025-04-09 15:40 by admin 文庫本10冊分の会話を、AIが一度に読み解く時代がやってきた。 Metaが発表した「Llama 4」シリーズは、AIモデルの限界を一気に押し広げる革新的なアップグレードだ。1000万トークンという超長文を処理可能な「Scout」、画像と言語の統合理解でGPT-4oを凌駕する「Maverick」、そしてその背後に控える“巨大教師モデル”「Behemoth」。MoEアーキテクチャによる省電力と高速化、バイアス軽減の試みも含め、Llama 4は生成AIの新たな基準となる。 Metaは2025年4月、AIモデルの新シリーズ「Llama 4」を発表した。このシリーズには、オープンウェイトのネイティブマルチ

                                                                                  Meta、「Llama 4」シリーズを発表 – 1000万トークンの超長文理解と革新的MoEアーキテクチャを実現 - イノベトピア