本文「Databricks」を検索 - はてなブックマーク

121 - 160 件 / 861件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

Databricksの検索結果121 - 160 件 / 861件

オープンソース：コミュニティからビジネス化への道 (a16z) - FoundX Review - 起業家とスタートアップのためのノウハウ情報
- 28 users
- review.foundx.jp
- テクノロジー
- 2019/10/23
オープンソースのルネッサンスは進行中フリーからSaaSまでのオープンソースの歴史オープンソース0.0 – 「フリーソフトウェア時代」オープンソース1.0 – サポートとサービスの時代オープンソース2.0 – SaaSとオープンコアの時代オープンソースの好循環 Business Success Centersを支える三本の柱プロジェクトコミュニティフィットプロダクトマーケットフィット（PMF）バリューマーケットフィット事業モデルの選択クラウドと競争の壕 (moat) 市場開拓——オープンソースはファネルのトップ第一段階：認知と感心 – 開発者コミュニティのマネジメント第二段階：検討 – プロダクトマネジメント第三段階：評価と意図 – 見込み客の獲得とビジネスデベロップメント第四段階：購入と拡大 – インサイドセールスとフィールドセールス成功と失敗はどのような姿を
Apple・NVIDIA・AnthropicなどがYouTubeの動画字幕を許可なくAIのトレーニングに利用していたと判明
- 28 users
- gigazine.net
- テクノロジー
- 2024/07/17
IT系メディアのProof Newsが、AppleやAnthrpic、NVIDIAなどがYouTubeに公開されている17万本以上の動画の字幕をAIの学習に許可なく使用していたと指摘しています。 Apple, Nvidia, Anthropic Used Thousands of Swiped YouTube Videos to Train AI https://www.proofnews.org/apple-nvidia-anthropic-used-thousands-of-swiped-youtube-videos-to-train-ai/ YouTube creators surprised to find Apple and others trained AI on their videos | Ars Technica https://arstechnica.com/ai/20
- AI
- 人工知能
- 著作権
- 研究
- Apple
- YouTube
- 動画
Apache SparkのWebUI、いろいろ比較してみた
- 28 users
- x1.inkenkun.com
- テクノロジー
- 2015/08/14
Sparkを実行できるWebUIをいくつか比較してみました。対象としたのは下記の３つです。 Apache Zeppelin pyspark + Jupyter(iPython Notebook) spark-notebook Spark付属のSpark Web Interfaceは実行状況のモニタリングやRDDの状態が可視化されていて非常に便利なものなのですが、上記とは毛色が異なるため今回比較対象に入れていません。 Hueのnotebookやdatabricks cloudに関してはまた今度。。。まずはそれぞれの概要を少しご紹介します。 Apache Zeppelin Apacheが作っているnotebook形式のWeb UIで、対話型実行ができます。この記事を書いている時点での最新バージョンは0.6.0です。 Scala, Python, SQL(Spark), SQL(Hive)
- spark
- pyspark
- Jupyter
- Python
- IPython
- IT
- Web
Azure DevOps Services | Microsoft Azure
- 28 users
- azure.microsoft.com
- テクノロジー
- 2012/11/01
Products Popular View all products (200+) Azure Virtual Machines Azure Virtual Desktop Azure SQL Microsoft Copilot in Azure PREVIEW Azure AI Services Azure AI Studio Azure Cosmos DB Azure Kubernetes Service (AKS) Azure Arc Azure Migrate AI + machine learning Azure Machine Learning Azure AI Services Microsoft Copilot in Azure PREVIEW Azure OpenAI Service Azure AI Studio Azure AI Vision Azure AI Se
- DevOps
- tfs
- VisualStudio
- Microsoft
- programming
- git
- tools
- あとで
- webサービス
TechCrunch
- 27 users
- jp.techcrunch.com
- テクノロジー
- 2017/09/05
Even with some criticisms, most VC think that the state's effort to track diversity data is worth it. Databricks has remained a hot startup at a time when interest from investors has cooled across the ecosystem. Just last month the company raised $500 million at an eye-popping $43 billion valuation. T
- Saved For Later
- あとで読む
TechCrunch
- 27 users
- jp.techcrunch.com
- テクノロジー
- 2017/09/02
Even with some criticisms, most VC think that the state's effort to track diversity data is worth it. Databricks has remained a hot startup at a time when interest from investors has cooled across the ecosystem. Just last month the company raised $500 million at an eye-popping $43 billion valuation. T
TechCrunch
- 27 users
- jp.techcrunch.com
- テクノロジー
- 2017/09/05
Even with some criticisms, most VC think that the state's effort to track diversity data is worth it. Databricks has remained a hot startup at a time when interest from investors has cooled across the ecosystem. Just last month the company raised $500 million at an eye-popping $43 billion valuation. T
- AI
- あとで読む
- it
- Saved For Later
- Apple
Microsoft Azure - Wikipedia
- 27 users
- ja.wikipedia.org
- テクノロジー
- 2009/11/25
従来のAzureのロゴ Microsoft Azure（略称：Azure）(アジュール)は、マイクロソフトの管理するデータセンターを通してPaaS、IaaSを提供するクラウドコンピューティングサービスである。合計で100を超える数のサービスを提供[1]し、マイクロソフト独自とサードパーティ製の両方の多くのプログラミング言語、ツール、フレームワークが利用できる。IaaS における世界的シェアは21%で2位[2]。 2008年のProfessional Developer Conferenceで発表され[3]、2009年末までのサービス開始前の評価期間を経て、2010年1月に世界21ヶ国で正式にサービスを開始した。2014年3月26日に旧称であるWindows AzureからMicrosoft Azureへの名称変更が発表された[4]。サービス一覧[編集] Microsoft Azureは世
- Azure
- Cloud
- wikipedia
- Windows
- クラウド
- Microsoft
- あとで読む
「Hadoopはビッグデータの“OSカーネル”」、Hadoop Conference Japan開催
- 27 users
- xtech.nikkei.com
- テクノロジー
- 2014/07/08
オープンソースソフトウエア（OSS）の分散データ処理ソフト「Hadoop」のユーザー会「Hadoop Conference Japan 2014」が2014年7月8日、東京・汐留で開催された。基調講演には、Hadoopのオリジナル開発者であるダグ・カッティング氏（写真1）などが登壇。カッティング氏は「バッチ処理用の『MapReduce』以外の処理方式に対応した現在のHadoopは、ビッグデータを処理する分散OSのカーネルとも言うべき存在になった」と語った。基調講演にはカッティング氏のほか、日本Hadoopユーザー会の世話役であるリクルートテクノロジーズの米谷修氏やNTTデータの濱野賢一朗氏、「Spark」の開発元である米データブリックス（Databricks）のパトリック・ウェンデル氏、米トレジャーデータの太田一樹氏が登壇した。 NTTデータの濱野氏（写真2）は基調講演の冒頭、2009年
dbtとDataformを比較し、dbtを使うことにした - Attsun blog
- 27 users
- attsun1031.github.io
- テクノロジー
- 2021/02/12
TL;DRdbt, Dataformについて簡単に紹介dbtDataform比較対応するプラットフォーム主要な機能外部ツールとの接続性運用時のあれこれ両者のPros/Consまとめ私たちの選択どちらを使うべきなのか？選ばれたのは、dbtでしたまとめ最近、業務でDWH / Datamartの整備やデータ品質の担保を効率的に行いたくなる事情があり、調査したところdbtとDataformがツールとして有力そうだったので、比較してみました。 TL;DRdbtは機能が充実しており、カスタマイズするポイントも多く様々な要件に対応できそうです。反面、理解し使いこなすための学習コストがかかります。DataformはWebビューによる開発体験が非常に良いです。機能もほとんどはわかりやすく、迷うことも少ないです。一方、dbtに比較して融通はききづらいです。どちらも十分な機能は備えている素晴らしいツールだと感じ
TechCrunch
- 27 users
- jp.techcrunch.com
- 政治と経済
- 2017/09/05
Even with some criticisms, most VC think that the state's effort to track diversity data is worth it. Databricks has remained a hot startup at a time when interest from investors has cooled across the ecosystem. Just last month the company raised $500 million at an eye-popping $43 billion valuation. T
LLMでガチ勝負するには、1000億円じゃなくて、1兆円必要になっている。。 - Vengineerの戯言
- 26 users
- vengineer.hatenablog.com
- テクノロジー
- 2023/11/07
はじめにこのブログで7月10日、下記のように、「LLMで勝負するには、1000億円必要か？」と書きました。 vengineer.hatenablog.com また、昨日のブログで、MosaicMLがDatabricksに$1.3Bで買収されたということも書きました。 Google、AWS、Microsoftの投資額 Google : Anthropic に最大$2B投資 (2023.10.28) AWS : 最大$4B (2023.09.25) Microsoft : OpenAI $1B (2019 => 複数年で $10B) この他では、 Intel : Stability AI (4000 Gaudi2) Apple : アップル、“Apple GPT”開発に年間数十億ドルものAIサーバーを購入予定か (2023.1024) 2023年には約6億2000万ドル、2024年には47億
AWS Outposts Server (Graviton2, Xeon) 電力効率検証 - NTT Communications Engineers' Blog
- 26 users
- engineers.ntt.com
- テクノロジー
- 2023/09/21
はじめにこんにちは、イノベーションセンターの鈴ヶ嶺です。普段はクラウドサービスをオンプレミス環境でも同様のUI/UXで使用できるハイブリッドクラウド製品の技術検証をしています。我々は以下のように過去にAWSのサーバ型ハイブリッドクラウドの解説や実施検証などを行ってきました。 engineers.ntt.com engineers.ntt.com このたび、新たにAWS Graviton2搭載のOutposts Serverを導入しさまざまな検証を進めています。本記事では、AWS Graviton2搭載のOutposts ServerとIntel Xeon搭載のOutposts Serverとの性能差や電力効率を比較した結果を共有します。まずこれまでのAWS Graviton2, Intel Xeonの比較検証記事の調査結果を共有します。次に、実際にインテリジェントPDUに接続し
- AWS
- あとで読む
[2024年3月版] Databricksのシステムアーキテクチャ
- 25 users
- speakerdeck.com/databricksjapan
- テクノロジー
- 2024/04/13
2024年3月版のDatabricksのシステムアーキテクチャについて説明します。
Google Colab で LLaMA-Factory を試す｜npaka
- 25 users
- note.com/npaka
- テクノロジー
- 2024/01/02
「Google Colab」で「LLaMA-Factory」を試したので、まとめました。【注意】Google Colab Pro/Pro+のA100で動作確認しています。 1. LLaMA-Factory「LLaMA-Factory」は、WebUIによる簡単操作でLLMを学習できるLLMファインチューニングフレームワークです。サポートするモデルは、次のとおりです。サポートする学習法は、次のとおりです。サポートするデータセットは、次のとおりです。事前学習データセット・Wiki Demo (en) ・RefinedWeb (en) ・RedPajama V2 (en) ・Wikipedia (en) ・Wikipedia (zh) ・Pile (en) ・SkyPile (zh) ・The Stack (en) ・StarCoder (en) SFTデータセット・Stanford
Spark DataframeのSample Code集 - Qiita
- 25 users
- qiita.com/taka4sato
- テクノロジー
- 2016/02/16
はじめに：Spark Dataframeとは Spark Ver 1.3からSpark Dataframeという機能が追加されました。特徴として以下の様な物があります。 Spark RDDにSchema設定を加えると、Spark DataframeのObjectを作成できる Dataframeの利点は、 SQL風の文法で、条件に該当する行を抽出したり、Dataframe同士のJoinができる filter, selectというmethodで、条件に該当する行、列を抽出できる groupBy → aggというmethodで、Logの様々な集計ができる UDF(User Defined Function)で独自関数で列に処理ができる SQLで言うPivotもサポート (Spark v1.6からの機能) つまり、RDDのmapやfilterでシコシコ記述するよりもSimple Codeで、且つ高
TechCrunch
- 25 users
- jp.techcrunch.com
- テクノロジー
- 2017/09/04
Even with some criticisms, most VC think that the state's effort to track diversity data is worth it. Databricks has remained a hot startup at a time when interest from investors has cooled across the ecosystem. Just last month the company raised $500 million at an eye-popping $43 billion valuation. T
- unclassified
- Saved For Later
Apache Hudi を用いてレコード単位で削除可能なデータレイクを構築した話
- 25 users
- techblog.yahoo.co.jp
- テクノロジー
- 2022/05/25
ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。データ統括本部でYahoo!広告のデータエンジニアをしている江島です。本記事では、Yahoo!広告のデータ分析環境であるデータレイク上のデータを、Apache Hudi を用いてレコード単位で削除可能にした事例を紹介します。 Yahoo!広告のデータ分析環境 Yahoo!広告におけるデータマーケティングソリューションでは、ヤフーの持つ圧倒的な量と質のデータを活用し、消費者理解や広告効果分析を目的としたさまざまな商品を提供しています。これらの商品を提供するための裏側には広告に関する膨大なログや多種多様なサービスのログを使ってデータ分析や機械学習を行うためのデータ基盤が必要です。データマーケティングソリューションで
- aws
- データ
- data
- あとで読む
データパイプライン活用における「知見」だけでなく「つらみ」も共有 – Data Pipeline Casual Talk Vol.2 に参加してきた #DPCT | DevelopersIO
- 25 users
- dev.classmethod.jp
- テクノロジー
- 2019/04/17
前回「第1回」の開催となった「Data Pipeline Casual Talk」、参加レポートについては下記エントリで言及させて頂きましたが、イベントとしては驚異の競争率且つ実際参加した内容も非常に参加者に好評なものとなっておりました。 Data Pipeline Casual Talk - connpass データパイプラインに関する知見をカジュアルに語る！ Data Pipeline Casual Talkに参加してきた #DPCT ｜ DevelopersIO その1回目の好評を受けて、早速の「第2回」が予定され、2019年04月17日(水)にイベントとして開催されました。第2回は「ブログ枠」が設けられていましたのでその枠を使って参加を確保。当エントリはその参加レポートとなります。 Data Pipeline Casual Talk Vol.2 - connpass 目次参加レポ
- データ
- あとで読む
日本語LLMをPPOでファインチューニングする - Qiita
- 25 users
- qiita.com/jovyan
- テクノロジー
- 2023/12/29
TL;DR 3.6Bパラメータの日本語LLMに対し全パラメータをSupervised Fine Tuning (SFT)をしたさらにLoRAを使用してProximal Policy Optimization (PPO)を行った精度を定量評価できるようなタスクでSFT, PPOを行い、PPOにより確かに精度が向上することを確かめた学習はすべてGoogle ColabのA100 GPU1枚を用いて行ったはじめに GPT-3.5などのLLMの学習は以下の３段階で行われています。 Pre-traininig: 大規模なコーパスを用いた言語モデルの事前学習 Supervised Fine Tuning (SFT): 対話形式や指示・応答形式のデータセットを用いたファインチューニング Policy Optimization: 人間にとって好ましい応答をさせるためのファインチューニング（ポリシー
- LLM
- NLP
- あとで読む
- qiita
Open Sourcing TensorFlowOnSpark: Distributed Deep... | Hadoop at Yahoo
- 24 users
- yahoohadoop.tumblr.com
- テクノロジー
- 2017/02/14
By Lee Yang, Jun Shi, Bobbie Chern, and Andy Feng (@afeng76), Yahoo Big ML team Introduction Today, we are pleased to offer TensorFlowOnSpark to the community, our latest open source framework for distributed deep learning on big-data clusters. Deep learning (DL) has evolved significantly in recent years. At Yahoo, we’ve found that in order to gain insight from massive amounts of data, we need to
オープンソースLLMの日本語評価結果 - W&Bローンチで誰でも再現可能に｜Weights & Biases Japan
- 24 users
- note.com/wandb_jp
- テクノロジー
- 2023/07/03
Weights & Biases のnoteをフォローしてください LLMの日本語性能ChatGPTが発表されて半年あまりが経ち、世の中は激変しました。少し冷め始めていたAIへの注目は突然急騰し、この新しい技術の可能性を探究すべく、日本では世界的にも突出した数の方々がその動向に関心を持っているようです。 ChatGPTは幅広い言語で高い性能を示している一方で、モデルは公開されておらず、またAPIの利用においてプライバシーや機密性の高いデータを送信することはできないため、オープンソースのモデルにも注目が集まっています。オープンソースのモデルにもいくつかの系譜があります。 LLaMA：Meta社が公開したアカデミック向けのLLM (商用利用不可) GPT-NeoX：Eleuther AIの開発した完全にオープンソースな技術スタックで開発されたモデル Bloom：BigScienceプロジェク
The Cloud 100
- 24 users
- www.forbes.com
- テクノロジー
- 2017/07/15
Our eighth annual Cloud 100 list of the world’s best private cloud computing companies, produced in partnership with Bessemer Venture Partners and Salesforce Ventures, comes at a time of significant change to tech’s hottest sector. It’s the first ranking to incorporate a full year of the market contraction’s impact on companies that, until about 18 months ago, were growing at breakneck speed in bo
- Forbes
- ビジネス
GitHub - databricks/scala-style-guide: Databricks Scala Coding Style Guide
- 24 users
- github.com/databricks
- テクノロジー
- 2015/03/18
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
- scala
- Java
Value Driven DevOps Team
- 24 users
- speakerdeck.com/kakehashi
- テクノロジー
- 2024/04/17
GitHubを使わずDatabricksだけでお手軽にライブラリ共有やCIができる環境を作ってみた/Creating an Environment for Easy Library Sharing and CI Using Only Databricks Without GitHub
- devops
- ci
- あとで読む
- management
- 環境
- *あとで読む
S3 Select と Glacier Select – オブジェクトのサブセットを取得 | Amazon Web Services
- 24 users
- aws.amazon.com
- テクノロジー
- 2017/11/30
Amazon Web Services ブログ S3 Select と Glacier Select – オブジェクトのサブセットを取得 Amazon Simple Storage Service (S3) は、各業界のマーケットリーダーが使用する数百万のアプリケーションのデータを保存しています。セキュアで耐久性のある非常に低コストのアーカイブストレージとして、これらの多くのお客様は Amazon Glacier も使用しています。S3 では、望むだけの数のオブジェクトを格納することができますし、個々のオブジェクトは最大5テラバイトとすることができます。オブジェクトストレージのデータは、通常１エンティティ全体としてアクセスされます。そのことは、例えば 5GB のオブジェクトに対してなんらかの要求をすれば、5GB 全てのデータ取得を行うことを意味します。これはオブジェクトストレージとしては自
- S3
- api
- AWS
- あとで読む
Databricks、無料で使えるオープンソースの大規模言語モデル『Dolly 2.0』をリリース。自社製データセットにより商用利用が可能に
- 24 users
- gamemakers.jp
- テクノロジー
- 2023/04/14
Databricks、命令追従型LLM『Dolly 2.0』をリリース Dolly 1.0ではできなかった商用利用が可能に商用利用のためにデータセット「databricks-dolly-15k」を作成 Databricksは、大規模言語モデル（以下、LLM）「Dolly」の最新バージョンである『Dolly 2.0』をリリースし、同社ブログにて発表しました。 Meet Dolly 2.0: the first open-source, instruction-following LLM that’s available for commercial use & doesn’t require you to pay for API access or share data with third parties. Now, anyone can create a powerful LLM th
- AI
- あとで読む
「Apache Zeppelin」のインストール方法まとめ - Qiita
- 23 users
- qiita.com/kazk1018
- テクノロジー
- 2015/02/26
次世代データ分析基盤としてApache Sparkが非常に注目されていますが、データ分析の重要な要素としてデータの可視化（Visualization）が挙げられます。 PythonやRではその辺のツールも充実しています。（Matplotlib, ggplot etc...) さらに、インタラクティブ環境下でコード実行したり、グラフを描画することが可能なiPython NotebookやRStudioなどは分析者にとって非常に便利です。 Apache SparkをiPython Notebookのような環境で動作させるソフトウェアとして、現在Databricksが「Databricks Cloud」を開発しています。しかし、現在一部のユーザにしか公開されていないため、誰でも気軽に使える環境にはなっていません。そこで、Databricks Cloudと同じような環境を提供してくれる「Apac
- zeppelin
- spark
- Apache
- データ分析
- IT
Hadoop / Spark Conference Japan 2016に行ってきました | DevelopersIO
- 23 users
- dev.classmethod.jp
- テクノロジー
- 2016/02/10
Hadoop / Spark Conference Japan 2016に行ってきましたので、その内容についてレポートします。最近は機械学習とSparkに興味があるためランチはB会場のライトニングトークを聞き、午後はD会場のセッションに参加しました。なお、スライドは順次Hadoop / Spark Conference Japan 2016（2月8日、東京）の講演・LTのプログラム | 日本Hadoopユーザー会に公開されるそうなので、そちらも合わせてご覧下さい。 Keynote まずは午前中のKeynoteです。他にもKeynoteに関する記事を見つけたのこちらも合わせてご覧下さい。 #hcj2016 Hadoop/Spark Conference Japan 2016 午前キーノートのメモ - #garagekidztweetz Hadoop / Spark Conference Ja
- hadoop
- spark
- あとで読む
- news
TechCrunch
- 23 users
- jp.techcrunch.com
- テクノロジー
- 2017/09/05
Even with some criticisms, most VC think that the state's effort to track diversity data is worth it. Databricks has remained a hot startup at a time when interest from investors has cooled across the ecosystem. Just last month the company raised $500 million at an eye-popping $43 billion valuation. T
TechCrunch
- 23 users
- jp.techcrunch.com
- テクノロジー
- 2017/09/01
Even with some criticisms, most VC think that the state's effort to track diversity data is worth it. Databricks has remained a hot startup at a time when interest from investors has cooled across the ecosystem. Just last month the company raised $500 million at an eye-popping $43 billion valuation. T
TechCrunch
- 22 users
- jp.techcrunch.com
- テクノロジー
- 2017/09/01
Even with some criticisms, most VC think that the state's effort to track diversity data is worth it. Databricks has remained a hot startup at a time when interest from investors has cooled across the ecosystem. Just last month the company raised $500 million at an eye-popping $43 billion valuation. T
Spark SQL: Manipulating Structured Data Using Apache Spark
- 22 users
- www.databricks.com
- テクノロジー
- 2014/03/27
Unified governance for all data, analytics and AI assets
- spark
- shark
- hadoop
- Java
Spark 2.0はフロントエンドAPIの創設と10倍の性能向上を目指す。早くも今年の5月頃登場予定。Hadoop Spark Conference Japan 2016
- 22 users
- www.publickey1.jp
- テクノロジー
- 2016/02/09
Spark 2.0はフロントエンドAPIの創設と10倍の性能向上を目指す。早くも今年の5月頃登場予定。Hadoop Spark Conference Japan 2016 2月8日に都内で開催された、HadoopとSparkをテーマにした国内最大のカンファレンス「Hadoop Spark Conference Japan 2016」の基調講演には、Sparkの開発を進めているDatabricksのReynold Xin氏が登壇。 Xin氏は、現在開発が進んでいるSpark 2.0の概要を紹介しました。セッションの内容をダイジェストで紹介します。 Spark 2.0: What's Next DatabricksのReynold Xin氏（写真左）。
オープンソース大規模言語モデルまとめ、メタのLlama 2が「超重要になる」ワケ
- 22 users
- www.sbbit.jp
- テクノロジー
- 2024/04/16
オープンソースのLLM（大規模言語モデル）がこれまでにないほど大きな注目を集めている。OpenAIのGPTモデルなどクローズドな大規模言語モデルが圧倒的なシェアを有する状況だが、それらに匹敵するオープンソースのLLMの開発が進んでいる。メタの「Llama 2（ラマツー）」を筆頭に、日本でもそれをベースにした日本語LLM「ELYZA-japanese-Llama-2-13b」が公開された。直近ではメタに対抗して、Databricksも「DBRX」をリリース。オープンソースLLMとは何か、クローズドモデルに比べてどのような利点があるのか。オープンソースLLMが注目される理由を探ってみたい。バークリー音大提携校で2年間ジャズ／音楽理論を学ぶ。その後、通訳・翻訳者を経て24歳で大学入学。学部では国際関係、修士では英大学院で経済・政治・哲学を専攻。国内コンサルティング会社、シンガポールの日系通信社
データレイクの新しいカタチ：Open Table Formatの紹介 - 流沙河鎮
- 22 users
- bering.hatenadiary.com
- テクノロジー
- 2023/07/18
はじめに Open Table Formatは次世代のデータレイクの基盤となり得る技術で、徐々に導入事例(末尾に列挙)が増えてきているものの、日本での認知度は発展途上な印象がある。本記事ではOpen Table Format登場の背景を紹介する。執筆にあたって、Apache Iceberg: An Architectural Look Under the CoversとAWSにおける Hudi/Iceberg/Delta Lake の使いどころと違いについてを特に参考にした。 Open Table Formatとは？ Open Table Formatとは、従来のデータレイクの技術的な課題&ユースケースの要請に応える形で登場した、データレイクに最適化されたテーブルフォーマットを指す概念で、上手く活用することでクエリプランニング、実行性能の最適化、効率的なUpdateやDelete、タイム
Apache Sparkとは何か - Qiita
- 22 users
- qiita.com/taka_yayoi
- テクノロジー
- 2023/08/16
使い始めて3年くらい経ちますが、改めて振り返ってみます。こちらの記事を書いたりしていますが復習も大事なわけで。 2024/4/12に翔泳社よりApache Spark徹底入門を出版します！その他のDatabricksコアコンポーネントの記事はこちらです。 Apache Sparkプロジェクトの歴史 SparkはDatabricksの創始者たちがUC Berkeleyにいるときに誕生しました。Sparkプロジェクトは2009年にスタートし、2010年にオープンソース化され、2013年にApacheにコードが寄贈されApache Sparkになりました。Apache Sparkのコードの75%以上がDatabricksの従業員の手によって書かれており、他の企業に比べて10倍以上の貢献をし続けています。Apache Sparkは、多数のマシンにまたがって並列でコードを実行するための、洗練され
A High-Level Grammar of Interactive Graphics
- 22 users
- vega.github.io
- テクノロジー
- 2016/02/26
Vega-Lite is a high-level grammar of interactive graphics. It provides a concise, declarative JSON syntax to create an expressive range of visualizations for data analysis and presentation. Vega-Lite specifications describe visualizations as encoding mappings from data to properties of graphical marks (e.g., points or bars). The Vega-Lite compiler automatically produces visualization components in
- グラフ描画
- json
- visualization
- ツール
- tool
- Vega-Lite
TechCrunch
- 22 users
- jp.techcrunch.com
- テクノロジー
- 2017/09/04
Even with some criticisms, most VC think that the state's effort to track diversity data is worth it. Databricks has remained a hot startup at a time when interest from investors has cooled across the ecosystem. Just last month the company raised $500 million at an eye-popping $43 billion valuation. T
Google Colab で Llama 3 のファインチューニングを試す｜npaka
- 21 users
- note.com/npaka
- テクノロジー
- 2024/04/22
「Google Colab」での「Llama 3」のファインチューニングを試したので、まとめました。【注意】Google Colab Pro/Pro+のA100で動作確認しています。 1. Llama 3「Llama 3」は、Metaが開発したオープンモデルです。 2. 学習Colabでの学習手順は、次のとおりです。 (1) Colabのノートブックを開き、メニュー「編集 → ノートブックの設定」で「GPU」の「A100」を選択。 (2) パッケージのインストール。 # パッケージのインストール !pip install -U transformers accelerate bitsandbytes !pip install trl peft wandb !git clone https://github.com/huggingface/trl %cd trl(3) 環境変数の準備。左
- LLM
- ai
- あとで読む