本文「apache spark github」を検索 - はてなブックマーク

1 - 40 件 / 125件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

apache spark githubの検索結果1 - 40 件 / 125件

Log4jの深刻な脆弱性CVE-2021-44228についてまとめてみた - piyolog
- 829 users
- piyolog.hatenadiary.jp
- テクノロジー
- 2021/12/13
2021年12月10日、Javaベースのログ出力ライブラリ「Apache Log4j」の2.x系バージョン（以降はLog4j2と記載）で確認された深刻な脆弱性を修正したバージョンが公開されました。セキュリティ関係組織では過去話題になったHeartbleedやShellshockと同レベルの脆弱性とも評価しています。ここでは関連する情報をまとめます。１．何が起きたの？ Javaベースのログ出力ライブラリLog4j2で深刻な脆弱性（CVE-2021-44228）を修正したバージョンが公開された。その後も修正が不完全であったことなどを理由に2件の脆弱性が修正された。広く利用されているライブラリであるため影響を受ける対象が多く存在するとみられ、攻撃が容易であることから2014年のHeartbleed、Shellshock以来の危険性があるとみる向きもあり、The Apache Software
- java
- security
- セキュリティ
- log4j
- あとで読む
- apache
- 脆弱性
- vulnerability
- log
- CVE
JP Contents Hub
- 439 users
- aws-samples.github.io
- テクノロジー
- 2022/09/18
AWS 日本語ハンズオン Amazon Web Services(AWS) の日本語ハンズオンやワークショップを、カテゴリごとにまとめています。右側の目次や、ヘッダー部分の検索ボックスから、各コンテンツにたどり着けます。また、Ctrl + F や command + F を使ったページ内検索もご活用いただけます。料金についてハンズオンで作成した AWS リソースは通常の料金が発生します。作成したリソースの削除を忘れずにお願いします。もし忘れてしまうと、想定外の料金が発生する可能性があります。画面の差異についてハンズオンで紹介されている手順と、実際の操作方法に差異がある場合があります。 AWS は随時アップデートされており、タイミングによってはハンズオンコンテンツが追いついていない事もあります。差異がある場合、AWS Document などを活用しながら進めて頂けますと幸い
- aws
- 学習
- あとで読む
- ハンズオン
- amazon
- tutorial
- study
- dynamodb
- ecs
- 教材
Python初学者のためのPolars100本ノック - Qiita
- 337 users
- qiita.com/kunishou
- テクノロジー
- 2023/02/12
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? Information 2024/1/8： pandas , Polars など18を超えるライブラリを統一記法で扱える統合データ処理ライブラリ Ibis の100 本ノックを作成しました。長期目線でとてもメリットのあるライブラリです。こちらも興味があればご覧下さい。 Ibis 100 本ノック https://qiita.com/kunishou/items/e0244aa2194af8a1fee9 はじめにどうもこんにちは、kunishouです。この度、PythonライブラリであるPolarsを効率的に学ぶためのコンテンツとして
- python
- あとで読む
- Polars
- pandas
- Rust
- ライブラリ
- qiita
- コンテンツ
- プログラミング
- データ
データ分析基盤まとめ（随時更新）
- 306 users
- zenn.dev/yuichi_dev
- テクノロジー
- 2024/03/15
はじめにデータ分析基盤の資料を力尽きるまで追記していきます。構成図にあるアイコンや記事の内容から技術要素を調べて記載していますが、不明分は未記載にしています。修正のコメント頂ければ助かります。この記事追加してっていう要望も歓迎いたします。テンプレート 2025年 2024/09/12 : 株式会社朝日新聞社データソース : Google Analytics、Adobe Analytics、Amazon S3、Amazon RDS データ処理 : TROCCO、BigQuery アウトプット :Tableau、Looker Studio 2024/09/12 : 株式会社CARTA MARKETING FIRM データソース : Amazon EC2、Amazon S3 データ処理 : Fivetran、Snowflake、dbt、AWS Step Functions、Element
- データ分析
- あとで読む
- データ
- 分析
- 基盤
- データ基盤
- まとめ
- BigQuery
- 統計
- AWS
データベースと向き合う決意 | フューチャー技術ブログ
- 286 users
- future-architect.github.io
- テクノロジー
- 2022/11/11
秋のブログ週間の9本目のエントリーになります。この企画もこんなに書く人が出てくるように育っていいですね。「中間層を増やして柔軟性を高めるのがソフトウェアの歴史」これは大学時代に2つ上の先輩が言っていた言葉です。例えばマシン語を直接書くのではなく、アセンブラで書けば、変換（コンパイル）の手間はかかりますが、他のCPUへの移植はしやすくなります。高級アセンブラと名高いC言語を使えばさらに移植性は上がります。C言語で書かれたVMを使う言語、例えばJava、Python、Rubyなんかはさらに移植性は上がります。ストレージもそうです。最終的にストレージはビット列を保存するものですが、それにOSのファイルシステムというレイヤーがあり、そこにスキーマで管理されたデータを入れるDBMSが乗っかり、SQLなどの問い合わせ言語でデータ取得できるようにします。DBMSを挟むことで、レプリケーションでバッ
- db
- あとで読む
- データベース
- 設計
- architecture
- 開発
- SQL
- 技術
- database
- programming
分散データシステム入門の決定版『データ指向アプリケーションデザイン』をたった30分で学んでみた #DataEngineeringStudy | DevelopersIO
- 266 users
- dev.classmethod.jp
- テクノロジー
- 2023/02/19
基調講演「30分でわかるデータ指向アプリケーションデザイン」・スピーカー斉藤太郎氏　Twitter：@taroleo / Github：@xerial Principal Software Engineer , Treasure Data 東京大学理学部情報科学科卒。情報理工学 Ph.D。データベース、大規模ゲノムデータ処理の研究に従事。その後、スタートアップであるTreasure Dataに加わり、アメリカ、シリコンバレーを拠点に活動中。日本データベース学会上林奨励賞受賞。OSSを中心にプログラミングやデータ処理を簡単にするためのプロダクトを作成している。「30分でわかるデータ指向アプリケーションデザイン」最新の論文にも触れながら、分散データシステムの世界の魅力を伝えていきます。後半、@tagomoris https://t.co/TQ2TnsFIOT… — Taro L.
- データベース
- あとで読む
- 本
- データ
- 設計
- book
- ソフトウェアデザイン
- DB
- database
- 技術
【2022年】AWS全サービスまとめ | DevelopersIO
- 231 users
- dev.classmethod.jp
- テクノロジー
- 2022/01/05
こんにちは。サービスグループの武田です。このエントリは、2018年から公開しているAWS全サービスまとめの2022年版です。こんにちは。サービスグループの武田です。このエントリは、2018年から毎年公開している AWS全サービスまとめの2022年版です。昨年までのものは次のリンクからたどってください。 AWSにはたくさんのサービスがありますが、「結局このサービスってなんなの？」という疑問を自分なりに理解するためにまとめました。今回もマネジメントコンソールを開き、「サービス」の一覧をもとに一覧化しました。そのため、プレビュー版など一覧に載っていないサービスは含まれていません。また2021年にまとめたもののアップデート版ということで、新しくカテゴリに追加されたサービスには[New]、文章を更新したものには[Update]を付けました。ちなみにサービス数は 223個です。まとめるにあ
- aws
- あとで読む
- サービス
- まとめ
- EC
- データ
- programming
- service
「英語は新しいプログラミング言語であり、生成的AIは新しいコンパイラだ」。英語対応のためのSDK「English SDK for Apache Spark」をデータブリックスが発表
- 226 users
- www.publickey1.jp
- テクノロジー
- 2023/07/04
「英語は新しいプログラミング言語であり、生成的AIは新しいコンパイラだ」。英語対応のためのSDK「English SDK for Apache Spark」をデータブリックスが発表 Apache Sparkなどの開発で知られるデータブリックス社は、同社が主催したイベント「DATA+AI Summit 2023 by Databricks」で、英語をApache Sparkの問い合わせ言語にできるSDK「English SDK for Apache Spark」を発表しました。英語は新しいプログラミング言語である Databricks共同創業者兼チーフアーキテクト Reynold Xin氏。英語は新しいプログラミング言語であり、生成的AIは新しいコンパイラであり、Pythonは新しいバイトコードだ。これが何を意味するのか。多くの方々がChatGPTを使ってSparkの問い合わせコードを
Apache Iceberg とは何か - Bering Note – formerly 流沙河鎮
- 189 users
- bering.hatenadiary.com
- テクノロジー
- 2023/09/24
はじめに概要 Apache Iceberg(アイスバーグ)とは [重要] Icebergの本質はテーブル仕様である Table Spec バージョン Icebergハンズオン Icebergの特徴同時書き込み時の整合性担保読み取り一貫性、Time Travelクエリ、Rollback Schema Evolution Hidden Partitioning Hidden Partitioningの種類時間 truncate[W] bucket[N] Partition Evolution Sort Order Evolution クエリ性能の最適化ユースケース Icebergのアーキテクチャ Iceberg Catalog Iceberg Catalogの選択肢 metadata layer metadata files manifest lists manifest files
- Iceberg
- あとで読む
- DB
- apache
- DWH
- データベース
- data
- database
- データ
サービスメッシュ必読ガイド - 第2版: 次世代のマイクロサービス開発
- 132 users
- www.infoq.com
- テクノロジー
- 2021/10/11
2016年頃「サービスメッシュ」という用語は、マイクロサービス、クラウドコンピューティング、DevOpsの分野に登場しました。楽天的なあるチームは、2016年にこの用語を使用して彼らの製品である Linkerd を説明しました。コンピューティングの多くの概念と同様に、実際には、関連するパターンとテクノロジーの長い歴史があります。サービスメッシュの登場は、主に IT ランドスケープの最悪の状況によるものでした。開発者は、複数言語 (ポリグロット) アプローチを使用して分散システムの構築を開始し、動的なサービスディスカバリーを必要としていました。運用は一時的なインフラストラクチャの使用を開始し、避けられない通信障害を適切に処理し、ネットワークポリシーを適用したいと考えていました。プラットフォームチームは、Kubernetes などのコンテナオーケストレーションシステムの採用を開始し、Envo
達人出版会
- 80 users
- tatsu-zine.com
- テクノロジー
- 2022/07/15
探検! Python Flask Robert Picard, 濱野司(訳) BareMetalで遊ぶ　Raspberry Pi 西永俊文なるほどUnixプロセス ― Rubyで学ぶUnixの基礎 Jesse Storimer, 島田浩二(翻訳), 角谷信太郎(翻訳) 知る、読む、使う！オープンソースライセンス可知豊きつねさんでもわかるLLVM販売終了柏木餅子, 風薬かんたん合格ITパスポート過去問題集令和8年度春期間久保恭子［令和8年度］ITパスポート超効率の教科書＋よく出る問題集 ITすきま教室渡辺さき［令和8年度］基本情報技術者超効率の教科書＋よく出る問題集五十嵐順子ソフトウェア工学の基礎 32 阿萬裕久, 天㟢聡介かんたん合格 ITパスポート教科書＆必須問題令和8年度坂下夕里, ラーニング編集部データビジュアライゼーションのためのデ
- eBook
- あとで読む
- programming
- book
- technology
- event
- 技術
Apache Icebergにおける同時実行制御の仕組みと注意点 - Bering Note – formerly 流沙河鎮
- 78 users
- bering.hatenadiary.com
- テクノロジー
- 2025/01/19
はじめに Icebergテーブルのアーキテクチャ Icebergの同時実行制御のコンセプト Icebergの書き込み処理の流れ同時書き込み時のシナリオパターンデータ競合チェックなぜデータ競合のチェックが必要か？主要なオペレーションで実施されるバリデーション AppendFiles OverwriteFiles (Copy-on-Write 更新/削除) RowDelta (Merge-on-Read 更新/削除) RewriteFiles (REPLACE: コンパクション) バリデーションの種類データパイプライン設計時の注意点まとめと宣伝おまけ(ソースコードベースの流れ）はじめに Apache Icebergテーブルは、テーブル単位、オペレーション単位のトランザクション分離レベルとしてserializableとsnapshotをサポートしています。（デフォルトはseria
- Iceberg
- あとで読む
- architecture
- データ
- DB
- 統計
転置インデックスの圧縮技法
- 73 users
- takuya-a.net
- テクノロジー
- 2022/10/25
転置インデックスは、検索エンジンの実装において、中心的な役割を果たすデータ構造である。転置インデックスのデータ構造とアルゴリズムは、クエリ処理アルゴリズムとともに、検索エンジンの性能に直結する。とくに大規模な検索エンジンにおいては、キャッシュ効率を高めてクエリ処理を高速化するために、転置インデックスの圧縮は必要不可欠となっている。この記事では、転置インデックス、とくにポスティングリストの圧縮について、近年の手法を簡単にまとめる。目次転置インデックスの基本転置インデックスのデータ構造と特性転置インデックスのアクセスパターン近年のインデックス圧縮技法 Variable-Byte Family VByte Varint-GB Varint-G8IU Masked-VByte Stream-VByte Opt-VByte Simple Family Simple9 Simple16
【2024年】AWS全サービスまとめ | DevelopersIO
- 70 users
- dev.classmethod.jp
- テクノロジー
- 2024/01/12
こんにちは。サービス開発室の武田です。このエントリは、2018年から毎年公開しているAWS全サービスまとめの2024年版です。こんにちは。サービス開発室の武田です。このエントリは、2018年から毎年公開している AWS全サービスまとめの2024年版です。昨年までのものは次のリンクからたどってください。 AWSにはたくさんのサービスがありますが、「結局このサービスってなんなの？」という疑問を自分なりに理解するためにまとめました。今回もマネジメントコンソールを開き、「サービス」の一覧をもとに一覧化しました。そのため、プレビュー版など一覧に載っていないサービスは含まれていません。また2023年にまとめたもののアップデート版ということで、新しくカテゴリに追加されたサービスには[New]、文章を更新したものには[Update]を付けました。ちなみにサービス数は 247個です。まとめるにあ
- aws
- まとめ
- あとで読む
- techfeed
- サービス
- システム
- 技術
新刊『実践Apache Iceberg』の紹介と執筆の思い出 - Bering Note – formerly 流沙河鎮
- 68 users
- bering.hatenadiary.com
- テクノロジー
- 2025/08/02
実践Apache Iceberg Icebergの本を書きましたどんな本なの？手を動かして学ぶことを重視紙幅に収まらなかったコンテンツをGithubの付録で提供謝辞わたしがIcebergの本を書くまで Icebergとの出会い技術コミュニティとの出会い技術書の企画社内異動苦難の執筆と感謝実践Apache Iceberg Icebergの本を書きました『実践Apache Iceberg —⁠— 高効率・高生産性を実現するオープンなデータ基盤の構築と運用』という書籍が8月27日に発売されます。 gihyo.jp 本書は、データ基盤の構築や運用、活用に関わるエンジニアの方々に向けて、次世代のデータ基盤を支えるオープンテーブルフォーマットであるApache Icebergを576ページの大ボリュームで体系的に解説する1冊です。著者はわたし、べりんぐこと疋田宗太郎と、AWSの
- 書籍
- あとで読む
- AWS
- 技術
- book
MLOps論文 Machine Learning Operations (MLOps): Overview, Definition, and Architecture の要点まとめ - 肉球でキーボード
- 66 users
- nsakki55.hatenablog.com
- テクノロジー
- 2023/01/23
MLOpsを体系的にまとめた論文「Machine Learning Operations (MLOps): Overview, Definition, and Architecture」を読んだので、要点をまとめました。元論文：https://arxiv.org/abs/2205.02302 TL;DR 「MLOpsって何？」に答えた論文 MLOpsに関わる文献調査・ツール調査・専門家インタビューを行った MLOpsに必要な原理・要素・ロール・アーキテクチャをまとめた MLOpsの言葉の意味を定義した MLOpsの課題をまとめた本文要点 0 Abstract MLOpsは今だに漠然とした言葉であり、研究者と専門家間でMLOpsの定義が曖昧となっている。本論文では文献調査・ツール調査・専門家へのインタビューを行い、MLOpsを調査した。調査から以下の結果を体系的にまとめた MLOps
GitHub - modelcontextprotocol/servers: Model Context Protocol Servers
- 60 users
- github.com/modelcontextprotocol
- テクノロジー
- 2024/11/28
Official integrations are maintained by companies building production ready MCP servers for their platforms. 21st.dev Magic - Create crafted UI components inspired by the best 21st.dev design engineers. 2slides - An MCP server that provides tools to convert content into slides/PPT/presentation or generate slides/PPT/presentation with user intention. ActionKit by Paragon - Connect to 130+ SaaS inte
- MCP
- AI
- LLM
- Anthropic
- server
- protocol
- github
- プログラミング
awesome-scalability
- 52 users
- binhnguyennus.github.io
- テクノロジー
- 2025/10/17
The Patterns of Scalable, Reliable, and Performant Large-Scale Systems View the Project on GitHub View On GitHub An updated and organized reading list for illustrating the patterns of scalable, reliable, and performant large-scale systems. Concepts are explained in the articles of prominent engineers and credible references. Case studies are taken from battle-tested systems that serve millions to
Feature Storeについてふんわり理解する - Re:ゼロから始めるML生活
- 48 users
- www.nogawanogawa.com
- テクノロジー
- 2022/03/21
最近こちらのサイトを参考にfeature storeに関して勉強してみたので、今回はそのメモです。 www.featurestore.org Why：なぜ必要か？機械学習の実運用時の困りごと実験環境と本番環境を揃えたい過去のある時点の状況を再現したい特徴量に関する車輪の再発明をなくしたい歴史的経緯 What：Feature Storeとはなにものか？求められる要件共有性学習系と推論系の一貫性 Feature Engineeringと透明性バージョン管理と再現性ガバナンスとアクセスコントロールバッチとオンライン処理 How：どうやって実現する？標準的なFeature Storeの構成 Serving Storage Transformation Monitoring Registory その他、主なプロダクト群 OSS Feast Hopsworks Rasgo マネ
Pythonから利用できるRust製超高速データ分析ライブラリPolarsの実力
- 41 users
- atmarkit.itmedia.co.jp
- テクノロジー
- 2022/10/31
Pythonから利用できるRust製超高速データ分析ライブラリPolarsの実力：Rustで始めるWebアプリケーション（終） RustでWebアプリケーションを開発する際に基礎となる要素技術からRustの応用まで、Rustに関するあれこれを解説する本連載。第3回は、Rust製の高速データ分析ライブラリであるPolarsの速度を簡易的に検証し、考察する。 paizaでWebエンジニアをやっています藤田と申します。前回の連載では、RustでWebアプリの基礎となるセッション管理と、SNSのAPIサーバを構築するための実装概略、Rustの強力な型システムによるサーバサイドアプリケーションの記述性について示しました。今回は、趣向を変えてRust製の高速データ分析ライブラリである「Polars」を利用し、その速度を簡易的に検証、考察します。今回のプロジェクトもGitHubのサンプルリポジトリを用
- Rust
- HotEntry
- あとで読む
- Python
- 開発
- プログラミング
- language
- 調査
- js
キャディでの Apache Iceberg 活用事例 - CADDi Tech Blog
- 41 users
- caddi.tech
- テクノロジー
- 2025/03/18
こんにちは。Drawer Growth グループの江良です。キャディが「製造業 AI データプラットフォーム」の構想を打ち出してから半年ほどが経ちました。 caddi.com このコンセプトの実現にあたっては、「AI」の部分だけでなく、「データ」の部分を支える仕組みづくりも重要になってきます。今回は、私が携わっているプロジェクトで導入した Apache Iceberg とその使いどころについて紹介したいと思います。製造業におけるデータ活用の難しさ本題に入る前に、まずは背景について少し補足します。（Iceberg の話だけを読みたい人は「採用したアーキテクチャ」のところまでスキップしてください。）モノづくり産業における会社には多種多様なデータが存在する製造業の世界で登場するデータにはさまざまなものがあります。詳しくはキャディ、製造業AIデータプラットフォームとしての、第二章。
Databricks、サーバレスPostgresを提供する「Neon」の買収を発表
- 38 users
- www.publickey1.jp
- テクノロジー
- 2025/05/19
データ分析プラットフォームを提供するDatabricksは、サーバレスのPostgresを提供することで知られるスタートアップ「Neon」の買収を発表しました。 Databricks + Neon 開発者ファーストのサーバーレスPostgres企業『Neon』がDatabricksに参画します！@neondatabase Neonは革新的なデータベースで開発者、そしてAIエージェントにも最適な基盤です。開発者とAIのためのオープンでサーバーレスな基盤をともに目指しますhttps://t.co/hxK3oolUiZ — Databricks Japan | DATA + AI Company (@DatabricksJP) May 14, 2025 DatabricksはApache Sparkの生みの親であり米カリフォルニア大学バークレー校准教授でもあるMatei Zaharia（マテイ・
Databricks ＋ BigQueryでSSOTを実現しようとしている話 - バイセル Tech Blog
- 30 users
- tech.buysell-technologies.com
- テクノロジー
- 2022/10/28
テクノロジー戦略本部データサイエンス部の近藤です。バイセルはリユース事業を営む会社で急激な成長を遂げていますが、どちらかというと今まではテクノロジーにあまり頼ることなく成長してきました。そんな中、テクノロジーをちゃんと導入していけばどこまで成長するのか試してみたく、2022年7月にバイセルに入社しました。バイセルではSSOTの実現のために、RDBのデータをBigQueryにニアリアルタイムで同期する実装を進めていますが、新たにDatabricksの導入を決めました。バイセルにどういう課題があり、なぜDatabricksを導入するのかをお話しします。 SSOTとはバイセルの今の課題と未来どうやって課題を解決するのかなぜApache Sparkなのか Databricksの利点 Databricks導入後の世界データサイエンス部の野望 SSOTとはデータマネジメントでは「S
- データ
- あとで読む
Things we learned about LLMs in 2024
- 28 users
- simonwillison.net
- テクノロジー
- 2025/01/01
31st December 2024 A lot has happened in the world of Large Language Models over the course of 2024. Here’s a review of things we figured out about the field in the past twelve months, plus my attempt at identifying key themes and pivotal moments. This is a sequel to my review of 2023. In this article: The GPT-4 barrier was comprehensively broken Some of those GPT-4 models run on my laptop LLM pri
- LLM
- あとで読む
SynapseML: A simple, multilingual, and massively parallel machine learning library - Microsoft Research
- 24 users
- www.microsoft.com
- テクノロジー
- 2021/11/19
Simplifying distributed ML through a unified API Writing fault-tolerant distributed programs is complex and a process that’s prone to errors. For example, consider the distributed evaluation of a deep network. The first step is to send a multi-GB model to hundreds of worker machines without overwhelming the network. Then, data readers must coordinate to ensure that all data is queued for processin
“超”大規模データを扱うからこそ直面した事象。HDFS Erasure Codingの不具合を解消するまで
- 21 users
- engineering.linecorp.com
- テクノロジー
- 2022/03/24
LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog 2021年11月10日・11日の2日間にわたり、LINEのオンライン技術カンファレンス「LINE DEVELOPER DAY 2021」が開催されました。特別連載企画「DEVDAY2021 アフターインタビュー」では、発表内容をさらに深堀りし、発表では触れられなかった内容や裏話について登壇者たちにインタビューします。今回の対象セッションは「大規模なHDFS Erasure Codingにおける技術的課題」です。 LINEのData Platform室では、LINEのさまざまなサービスのデータをApache HDFS（以下、HDFS）に格納しています。HDFSクラスターに保存されているデータ量は、合計で数百ペタバイトと極めて膨大
Update for Apache Log4j2 Issue (CVE-2021-44228)
- 18 users
- aws.amazon.com
- テクノロジー
- 2021/12/12
AWS is aware of the recently disclosed issues relating to the open-source Apache “Log4j2" utility (CVE-2021-44228 and CVE-2021-45046). Responding to security issues such as this one shows the value of having multiple layers of defensive technologies, which is so important to maintaining the security of our customers’ data and workloads. We've taken this issue very seriously, and our world-class te
- aws
- security
- log4j
- tech
- web
Databricks Container ServiceでTensorRT-LLMを動かしてみた - NTT docomo Business Engineers' Blog
- 16 users
- engineers.ntt.com
- テクノロジー
- 2024/04/26
本記事ではDatabricksのDatabricks Container Serviceを用いてNVIDIA社の推論ライブラリであるTensorRT-LLMを実行可能なNotebook環境を構築する方法を紹介します。目次目次はじめに Databricks Container Service NVIDIA TensorRT-LLM 解決したいこと TensorRT-LLM Container Imageの作成 Databricks Containers ベースイメージの変更 Pytorch バージョンの変更 TensorRT-LLMのインストール動作確認 Databricks環境設定 TensorRT-LLMのインポート Llama2 HF-7b-instruct モデルの変換 TensorRT-LLMの呼び出しまとめ参考文献はじめにこんにちは、NTTコミュニケーションズの露
- あとで読む
氷山を穿つ - Apache Icebergに大量データを投入するTopic - - CADDi Tech Blog
- 15 users
- caddi.tech
- テクノロジー
- 2025/03/31
こんにちは、柴犬がかわいい。Tech本部の前多です。先日、弊社でApache IcebergとTrinoによる活用事例についての記事を上げました。 caddi.tech 記事では、Icebergへのデータ投入について次の記述がありました。ユーザがアップロードしたCSVファイルをパースしてIcebergに保存する図面の解析結果を一定間隔のバッチで受け取りIcebergに保存する実際のところ、ファイルからIcebergへのデータ投入はサイズによっては困難なことがありました。今回はIcebergへのデータ投入に関するTopicをお伝えします。データ投入で発生した課題私たちは、クエリエンジンとしてTrinoを採用しています。データ投入の経路はCSVファイルしかないので、CSVファイルを解析して一行ごとにTrinoのInsert文を発行すれば十分だろうと考えていました。また、Tri
LINE サーバーサイドエンジニア採用説明会（プラットフォーム開発） (2021/07/27 19:00〜)
- 14 users
- line.connpass.com
- テクノロジー
- 2021/07/19
＊予告なく時間配分や内容が変更になる可能性があります。参加される方への事前のお願い・インターネットが良好に繋がる環境にてご視聴ください。・18:50頃から入室が可能です。・質問がある方は、セッション中に「Q&A」機能に入力してください。開発組織と登壇者紹介松野徳大 / Tokuhiro Matsuno 開発4センター Official Account 開発室室長 / 開発4センター Ad Network and Performance 開発室室長入社後、様々なLINE関連サービスの開発を担当し、LINEの広告プラットフォームの開発を経て、2019年からLINE公式アカウント開発担当シニアマネージャー。現在はLINE公式アカウント、LINE DMP などの B2B 関連開発の部署のマネジメントをしている。趣味は万年筆を買うこと。 LINE コンテンツプラットフォーム LINE
- あとで読む
Databricks、“オープン”な汎用LLM「DBRX」リリース　商用利用可
- 14 users
- www.itmedia.co.jp
- テクノロジー
- 2024/03/28
米AI企業のDatabricksは3月27日（現地時間）、“オープンな”汎用LLM「DBRX」を発表した。同社によると、DBRXは標準的なベンチマークで既存のすべてのオープンモデルより優れたパフォーマンスを発揮するという。ただし、マルチモーダルではない。 DBRXは、オープンソースプロジェクトMegaBlocksに基づいて構築されたMoE（Mixture of Experts；混合エキスパート）を採用した。このMoEは、他のMoEと比較してトレーニング速度が2倍以上、計算効率も最大2倍になるという。サイズは1320億パラメータと米MetaのLlama 2のほぼ2倍だが、速度はLlama 2の2倍という。言語理解、プログラミング、数学、ロジックのベンチマークで、Llama 2 70B、仏Mistral AIのMixtral 8x7B、米XのGrok-1、米OpenAIのGPT-3.5を上回
「Databricks とは？何ができるか」新入社員が感じたイケてる機能１０選 - Qiita
- 13 users
- qiita.com/kohei-arai
- テクノロジー
- 2022/08/19
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 目次はじめに背景と目的 Databricksとは何か機能紹介共通データエンジニアリング機械学習 Databricks SQL おわりにはじめにこんにちは。Databricks の新井です。Qiita 初投稿です。 2022年の7月よりソリューションアーキテクトとして働き始めました。お客様に弊社製品を知っていただき、導入いただく際の技術サポートを行う役割です。本記事では Databricks にご興味がある皆様に弊社プラットフォームを理解いただくために、新入社員の目線から便利だと感じた10個の機能をまとめました。今後
会誌「デジタルプラクティスコーナー」
- 11 users
- www.ipsj.or.jp
- テクノロジー
- 2022/01/15
RubyはWebシステムの記述言語として高い生産性を発揮し，Web業界では広く浸透している．一方，分析的データ処理への対応が弱いため，データ処理分野ではほとんど利用されていない．昨今のDX推進などの流れから，Rubyで書かれた既存システムのデータ処理への対応が近い将来必要となるだろう．そのような要求に対応するためには，前もってRubyを分析的データ処理に対応させる必要がある．本稿では，Rubyを分析的データ処理に対応させる手段としてApache Arrowが有効であることを示す．Apache Arrowは，既存のデータ処理コンポーネント間のデータ連携の非効率性を解消するために提案された，データフォーマットとAPIである．RubyをApache Arrowに対応させることで，分析的データ処理に対応できるだけでなく，データ処理分野における先進的な取り組みにRubyからアクセスできるようになる．
- ruby
- red-arrow
- apache-arrow
- OSS
クラスメソッドデータアナリティクス通信(AWSデータ分析編) – 2022年11月号 | DevelopersIO
- 11 users
- dev.classmethod.jp
- テクノロジー
- 2022/11/07
データアナリティクス事業本部のコンサルティングチームの石川です。コンサルティングチームメンバーを中心に、日々AWSのアナリティクス関連サービスのアップデートを追っています。メンバー内で業務に取り入れられそうかを中心に確認しているので、一部取り上げられていないものもあるかもしれませんが、参考になりましたら幸いです。 Amazon Redshift 新機能・アップデート 2022/10/05 - Amazon Redshift Serverless now supports resource tagging Amazon Redshift Serverlessは、ネームスペースやワークグループなどのリソースのタグ付けをサポートするようになりました。タグ付けにより、リソースにキーと値のペアを割り当て、部門、請求グループ、本番/検証/開発環境ごとにリソースを整理することができます。 Amazon
- AWS
- あとで読む
【2023年】AWS全サービスまとめ | DevelopersIO
- 9 users
- dev.classmethod.jp
- テクノロジー
- 2023/01/10
こんにちは。サービス部の武田です。このエントリは、2018年から毎年公開しているAWS全サービスまとめの2023年版です。こんにちは。サービス部の武田です。このエントリは、2018年から毎年公開している AWS全サービスまとめの2023年版です。昨年までのものは次のリンクからたどってください。 AWSにはたくさんのサービスがありますが、「結局このサービスってなんなの？」という疑問を自分なりに理解するためにまとめました。今回もマネジメントコンソールを開き、「サービス」の一覧をもとに一覧化しました。そのため、プレビュー版など一覧に載っていないサービスは含まれていません。また2022年にまとめたもののアップデート版ということで、新しくカテゴリに追加されたサービスには[New]、文章を更新したものには[Update]を付けました。ちなみにサービス数は 234個です。まとめるにあたって、
- あとで読む
【AWS試験】2ヶ月で6つのSpecialty試験に合格できたので、その勉強方法をまとめてみた | DevelopersIO
- 9 users
- dev.classmethod.jp
- テクノロジー
- 2023/06/02
こんにちは！体内の 6 割は水分ではなく、えびだと思うくらいえび好きな kaz です。先日、SAP on AWS - Specialty に合格して、無事 12 冠達成できました！思っていたよりも短い期間で取得できたかなと思ったので、なぜ 12 冠を目指そうと思ったのかや、勉強方法などを振り返ってみようと思います。また、多くの方は AWS 試験を受ける前に外部の情報などを確認したりすることも多いかなと思います。なので、本エントリーはただのリンク集ではなくて、私が各試験で勉強に利用した情報のみを載せるようにしました！これから 12 冠を目指したい！と思っている方や、短期間取得を目指す際の参考になれば幸いです！なぜ12冠を目指そうと思ったのか何よりも AWS を利用した業務や、技術サポートに携わっているからです！その他にも、もう少し理由を並べてみたいと思います。 AWS の知識
- あとで読む
The inside story on Mountpoint for Amazon S3, a high-performance open source file client | Amazon Web Services
- 9 users
- aws.amazon.com
- テクノロジー
- 2023/03/15
AWS Storage Blog The inside story on Mountpoint for Amazon S3, a high-performance open source file client UPDATE (8/9/2023): Mountpoint for Amazon S3 is now generally available. For details, please read the What’s New post. Amazon S3 is the best place to build data lakes because of its durability, availability, scalability, and security. Hundreds of thousands of data lakes are built on S3, storing
- S3
- performance
- aws
Azure Updates (2021.05.26 Build day 1)
- 8 users
- blog.azure.moe
- テクノロジー
- 2021/05/26
というわけでBuild関連のUpdateまとめです。 Microsoft Build 以下適当に。 Build全体 Microsoft Build Book of News … 基本これみたら大丈夫。 Microsoft ❤️ developers: Welcome to Build 2021 – The Official Microsoft Blog … Developer関連。 What’s new for Microsoft Edge at Microsoft Build 2021 … Edge関連。 Build cloud-native applications that run anywhere … App ServiceとかPaaS関連。 Harness the power of data and AI in your applications with Azure … Cos
- Microsoft
GitHub - vortex-data/vortex: An extensible, state of the art columnar file format. Formerly at @spiraldb, now an Incubation Stage project at LFAI&Data, part of the Linux Foundation.
- 8 users
- github.com/vortex-data
- テクノロジー
- 2024/10/15
Vortex is a next-generation columnar file format and toolkit designed for high-performance data processing. It is the fastest and most extensible format for building data systems backed by object storage. It provides: Blazing Fast Performance 100x faster random access reads (vs. modern Apache Parquet) 10-20x faster scans 5x faster writes Similar compression ratios Efficient support for wide tables
- Rust
- reference
Introducing Mistral 3 | Mistral AI
- 8 users
- mistral.ai
- テクノロジー
- 2025/12/03
Today, we announce Mistral 3, the next generation of Mistral models. Mistral 3 includes three state-of-the-art small, dense models (14B, 8B, and 3B) and Mistral Large 3 – our most capable model to date – a sparse mixture-of-experts trained with 41B active and 675B total parameters. All models are released under the Apache 2.0 license. Open-sourcing our models in a variety of compressed formats emp
- 人工知能
- あとで読む