並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 125件

新着順 人気順

apache spark githubの検索結果1 - 40 件 / 125件

  • Log4jの深刻な脆弱性CVE-2021-44228についてまとめてみた - piyolog

    2021年12月10日、Javaベースのログ出力ライブラリ「Apache Log4j」の2.x系バージョン(以降はLog4j2と記載)で確認された深刻な脆弱性を修正したバージョンが公開されました。セキュリティ関係組織では過去話題になったHeartbleedやShellshockと同レベルの脆弱性とも評価しています。ここでは関連する情報をまとめます。 1.何が起きたの? Javaベースのログ出力ライブラリLog4j2で深刻な脆弱性(CVE-2021-44228)を修正したバージョンが公開された。その後も修正が不完全であったことなどを理由に2件の脆弱性が修正された。 広く利用されているライブラリであるため影響を受ける対象が多く存在するとみられ、攻撃が容易であることから2014年のHeartbleed、Shellshock以来の危険性があるとみる向きもあり、The Apache Software

      Log4jの深刻な脆弱性CVE-2021-44228についてまとめてみた - piyolog
    • JP Contents Hub

      AWS 日本語ハンズオン Amazon Web Services(AWS) の 日本語ハンズオンやワークショップを、カテゴリごとにまとめています。 右側の目次や、ヘッダー部分の検索ボックスから、各コンテンツにたどり着けます。 また、Ctrl + F や command + F を使ったページ内検索もご活用いただけます。 料金について ハンズオンで作成した AWS リソースは通常の料金が発生します。作成したリソースの削除を忘れずにお願いします。 もし忘れてしまうと、想定外の料金が発生する可能性があります。 画面の差異について ハンズオンで紹介されている手順と、実際の操作方法に差異がある場合があります。 AWS は随時アップデートされており、タイミングによってはハンズオンコンテンツが追いついていない事もあります。 差異がある場合、AWS Document などを活用しながら進めて頂けますと幸い

        JP Contents Hub
      • Python初学者のためのPolars100本ノック - Qiita

        Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? Information 2024/1/8: pandas , Polars など18を超えるライブラリを統一記法で扱える統合データ処理ライブラリ Ibis の100 本ノックを作成しました。長期目線でとてもメリットのあるライブラリです。こちらも興味があればご覧下さい。 Ibis 100 本ノック https://qiita.com/kunishou/items/e0244aa2194af8a1fee9 はじめに どうもこんにちは、kunishouです。 この度、PythonライブラリであるPolarsを効率的に学ぶためのコンテンツとして

          Python初学者のためのPolars100本ノック - Qiita
        • データ分析基盤まとめ(随時更新)

          はじめに データ分析基盤の資料を力尽きるまで追記していきます。 構成図にあるアイコンや記事の内容から技術要素を調べて記載していますが、不明分は未記載にしています。修正のコメント頂ければ助かります。この記事追加してっていう要望も歓迎いたします。 テンプレート 2025年 2024/09/12 : 株式会社朝日新聞社 データソース : Google Analytics、Adobe Analytics、Amazon S3、Amazon RDS データ処理 : TROCCO、BigQuery アウトプット :Tableau、Looker Studio 2024/09/12 : 株式会社CARTA MARKETING FIRM データソース : Amazon EC2、Amazon S3 データ処理 : Fivetran、Snowflake、dbt、AWS Step Functions、Element

            データ分析基盤まとめ(随時更新)
          • データベースと向き合う決意 | フューチャー技術ブログ

            秋のブログ週間の9本目のエントリーになります。この企画もこんなに書く人が出てくるように育っていいですね。 「中間層を増やして柔軟性を高めるのがソフトウェアの歴史」 これは大学時代に2つ上の先輩が言っていた言葉です。例えばマシン語を直接書くのではなく、アセンブラで書けば、変換(コンパイル)の手間はかかりますが、他のCPUへの移植はしやすくなります。高級アセンブラと名高いC言語を使えばさらに移植性は上がります。C言語で書かれたVMを使う言語、例えばJava、Python、Rubyなんかはさらに移植性は上がります。 ストレージもそうです。最終的にストレージはビット列を保存するものですが、それにOSのファイルシステムというレイヤーがあり、そこにスキーマで管理されたデータを入れるDBMSが乗っかり、SQLなどの問い合わせ言語でデータ取得できるようにします。DBMSを挟むことで、レプリケーションでバッ

              データベースと向き合う決意 | フューチャー技術ブログ
            • 分散データシステム入門の決定版『データ指向アプリケーションデザイン』をたった30分で学んでみた #DataEngineeringStudy | DevelopersIO

              基調講演「30分でわかるデータ指向アプリケーションデザイン」 ・ スピーカー 斉藤 太郎氏  Twitter:@taroleo / Github:@xerial Principal Software Engineer , Treasure Data 東京大学理学部情報科学科卒。情報理工学 Ph.D。データベース、大規模ゲノムデータ処理の研究に従事。その後、スタートアップであるTreasure Dataに加わり、アメリカ、シリコンバレーを拠点に活動中。日本データベース学会上林奨励賞受賞。OSSを中心にプログラミングやデータ処理を簡単にするためのプロダクトを作成している。 「30分でわかるデータ指向アプリケーションデザイン」最新の論文にも触れながら、分散データシステムの世界の魅力を伝えていきます。後半、@tagomoris https://t.co/TQ2TnsFIOT… — Taro L.

                分散データシステム入門の決定版『データ指向アプリケーションデザイン』をたった30分で学んでみた #DataEngineeringStudy | DevelopersIO
              • 【2022年】AWS全サービスまとめ | DevelopersIO

                こんにちは。サービスグループの武田です。このエントリは、2018年から公開しているAWS全サービスまとめの2022年版です。 こんにちは。サービスグループの武田です。 このエントリは、2018年から毎年公開している AWS全サービスまとめの2022年版 です。昨年までのものは次のリンクからたどってください。 AWSにはたくさんのサービスがありますが、「結局このサービスってなんなの?」という疑問を自分なりに理解するためにまとめました。 今回もマネジメントコンソールを開き、「サービス」の一覧をもとに一覧化しました。そのため、プレビュー版など一覧に載っていないサービスは含まれていません。また2021年にまとめたもののアップデート版ということで、新しくカテゴリに追加されたサービスには[New]、文章を更新したものには[Update]を付けました。ちなみにサービス数は 223個 です。 まとめるにあ

                  【2022年】AWS全サービスまとめ | DevelopersIO
                • 「英語は新しいプログラミング言語であり、生成的AIは新しいコンパイラだ」。英語対応のためのSDK「English SDK for Apache Spark」をデータブリックスが発表

                  「英語は新しいプログラミング言語であり、生成的AIは新しいコンパイラだ」。英語対応のためのSDK「English SDK for Apache Spark」をデータブリックスが発表 Apache Sparkなどの開発で知られるデータブリックス社は、同社が主催したイベント「DATA+AI Summit 2023 by Databricks」で、英語をApache Sparkの問い合わせ言語にできるSDK「English SDK for Apache Spark」を発表しました。 英語は新しいプログラミング言語である Databricks共同創業者兼チーフアーキテクト Reynold Xin氏。 英語は新しいプログラミング言語であり、生成的AIは新しいコンパイラであり、Pythonは新しいバイトコードだ。 これが何を意味するのか。多くの方々がChatGPTを使ってSparkの問い合わせコードを

                    「英語は新しいプログラミング言語であり、生成的AIは新しいコンパイラだ」。英語対応のためのSDK「English SDK for Apache Spark」をデータブリックスが発表
                  • Apache Iceberg とは何か - Bering Note – formerly 流沙河鎮

                    はじめに 概要 Apache Iceberg(アイスバーグ)とは [重要] Icebergの本質はテーブル仕様である Table Spec バージョン Icebergハンズオン Icebergの特徴 同時書き込み時の整合性担保 読み取り一貫性、Time Travelクエリ、Rollback Schema Evolution Hidden Partitioning Hidden Partitioningの種類 時間 truncate[W] bucket[N] Partition Evolution Sort Order Evolution クエリ性能の最適化 ユースケース Icebergのアーキテクチャ Iceberg Catalog Iceberg Catalogの選択肢 metadata layer metadata files manifest lists manifest files

                      Apache Iceberg とは何か - Bering Note – formerly 流沙河鎮
                    • サービスメッシュ必読ガイド - 第2版: 次世代のマイクロサービス開発

                      2016年頃「サービスメッシュ」という用語は、マイクロサービス、クラウドコンピューティング、DevOpsの分野に登場しました。楽天的なあるチームは、2016年にこの用語を使用して彼らの製品である Linkerd を説明しました。コンピューティングの多くの概念と同様に、実際には、関連するパターンとテクノロジーの長い歴史があります。 サービスメッシュの登場は、主に IT ランドスケープの最悪の状況によるものでした。開発者は、複数言語 (ポリグロット) アプローチを使用して分散システムの構築を開始し、動的なサービスディスカバリーを必要としていました。運用は一時的なインフラストラクチャの使用を開始し、避けられない通信障害を適切に処理し、ネットワークポリシーを適用したいと考えていました。プラットフォームチームは、Kubernetes などのコンテナオーケストレーションシステムの採用を開始し、Envo

                        サービスメッシュ必読ガイド - 第2版: 次世代のマイクロサービス開発
                      • 達人出版会

                        探検! Python Flask Robert Picard, 濱野 司(訳) BareMetalで遊ぶ Raspberry Pi 西永俊文 なるほどUnixプロセス ― Rubyで学ぶUnixの基礎 Jesse Storimer, 島田浩二(翻訳), 角谷信太郎(翻訳) 知る、読む、使う! オープンソースライセンス 可知豊 きつねさんでもわかるLLVM販売終了 柏木餅子, 風薬 かんたん合格ITパスポート過去問題集 令和8年度春期 間久保 恭子 [令和8年度]ITパスポート 超効率の教科書+よく出る問題集 ITすきま教室 渡辺さき [令和8年度]基本情報技術者 超効率の教科書+よく出る問題集 五十嵐 順子 ソフトウェア工学の基礎 32 阿萬 裕久, 天㟢 聡介 かんたん合格 ITパスポート教科書&必須問題 令和8年度 坂下 夕里, ラーニング編集部 データビジュアライゼーションのためのデ

                          達人出版会
                        • Apache Icebergにおける同時実行制御の仕組みと注意点 - Bering Note – formerly 流沙河鎮

                          はじめに Icebergテーブルのアーキテクチャ Icebergの同時実行制御のコンセプト Icebergの書き込み処理の流れ 同時書き込み時のシナリオパターン データ競合チェック なぜデータ競合のチェックが必要か? 主要なオペレーションで実施されるバリデーション AppendFiles OverwriteFiles (Copy-on-Write 更新/削除) RowDelta (Merge-on-Read 更新/削除) RewriteFiles (REPLACE: コンパクション) バリデーションの種類 データパイプライン設計時の注意点 まとめと宣伝 おまけ(ソースコードベースの流れ) はじめに Apache Icebergテーブルは、テーブル単位、オペレーション単位のトランザクション分離レベルとしてserializableとsnapshotをサポートしています。(デフォルトはseria

                            Apache Icebergにおける同時実行制御の仕組みと注意点 - Bering Note – formerly 流沙河鎮
                          • 転置インデックスの圧縮技法

                            転置インデックスは、検索エンジンの実装において、中心的な役割を果たすデータ構造である。 転置インデックスのデータ構造とアルゴリズムは、クエリ処理アルゴリズムとともに、検索エンジンの性能に直結する。とくに大規模な検索エンジンにおいては、キャッシュ効率を高めてクエリ処理を高速化するために、転置インデックスの圧縮は必要不可欠となっている。 この記事では、転置インデックス、とくにポスティングリストの圧縮について、近年の手法を簡単にまとめる。 目次 転置インデックスの基本 転置インデックスのデータ構造と特性 転置インデックスのアクセスパターン 近年のインデックス圧縮技法 Variable-Byte Family VByte Varint-GB Varint-G8IU Masked-VByte Stream-VByte Opt-VByte Simple Family Simple9 Simple16

                              転置インデックスの圧縮技法
                            • 【2024年】AWS全サービスまとめ | DevelopersIO

                              こんにちは。サービス開発室の武田です。このエントリは、2018年から毎年公開しているAWS全サービスまとめの2024年版です。 こんにちは。サービス開発室の武田です。 このエントリは、2018年から毎年公開している AWS全サービスまとめの2024年版 です。昨年までのものは次のリンクからたどってください。 AWSにはたくさんのサービスがありますが、「結局このサービスってなんなの?」という疑問を自分なりに理解するためにまとめました。 今回もマネジメントコンソールを開き、「サービス」の一覧をもとに一覧化しました。そのため、プレビュー版など一覧に載っていないサービスは含まれていません。また2023年にまとめたもののアップデート版ということで、新しくカテゴリに追加されたサービスには[New]、文章を更新したものには[Update]を付けました。ちなみにサービス数は 247個 です。 まとめるにあ

                                【2024年】AWS全サービスまとめ | DevelopersIO
                              • 新刊『実践Apache Iceberg』の紹介と執筆の思い出 - Bering Note – formerly 流沙河鎮

                                実践Apache Iceberg Icebergの本を書きました どんな本なの? 手を動かして学ぶことを重視 紙幅に収まらなかったコンテンツをGithubの付録で提供 謝辞 わたしがIcebergの本を書くまで Icebergとの出会い 技術コミュニティとの出会い 技術書の企画 社内異動 苦難の執筆と感謝 実践Apache Iceberg Icebergの本を書きました 『実践Apache Iceberg —⁠— 高効率・高生産性を実現するオープンなデータ基盤の構築と運用』という書籍が8月27日に発売されます。 gihyo.jp 本書は、データ基盤の構築や運用、活用に関わるエンジニアの方々に向けて、次世代のデータ基盤を支えるオープンテーブルフォーマットであるApache Icebergを576ページの大ボリュームで体系的に解説する1冊です。 著者はわたし、べりんぐこと疋田宗太郎と、AWSの

                                  新刊『実践Apache Iceberg』の紹介と執筆の思い出 - Bering Note – formerly 流沙河鎮
                                • MLOps論文 Machine Learning Operations (MLOps): Overview, Definition, and Architecture の要点まとめ - 肉球でキーボード

                                  MLOpsを体系的にまとめた論文「Machine Learning Operations (MLOps): Overview, Definition, and Architecture」を読んだので、要点をまとめました。 元論文:https://arxiv.org/abs/2205.02302 TL;DR 「MLOpsって何?」に答えた論文 MLOpsに関わる文献調査・ツール調査・専門家インタビューを行った MLOpsに必要な原理・要素・ロール・アーキテクチャをまとめた MLOpsの言葉の意味を定義した MLOpsの課題をまとめた 本文要点 0 Abstract MLOpsは今だに漠然とした言葉であり、研究者と専門家間でMLOpsの定義が曖昧となっている。 本論文では文献調査・ツール調査・専門家へのインタビューを行い、MLOpsを調査した。 調査から以下の結果を体系的にまとめた MLOps

                                    MLOps論文 Machine Learning Operations (MLOps): Overview, Definition, and Architecture の要点まとめ - 肉球でキーボード
                                  • GitHub - modelcontextprotocol/servers: Model Context Protocol Servers

                                    Official integrations are maintained by companies building production ready MCP servers for their platforms. 21st.dev Magic - Create crafted UI components inspired by the best 21st.dev design engineers. 2slides - An MCP server that provides tools to convert content into slides/PPT/presentation or generate slides/PPT/presentation with user intention. ActionKit by Paragon - Connect to 130+ SaaS inte

                                      GitHub - modelcontextprotocol/servers: Model Context Protocol Servers
                                    • awesome-scalability

                                      The Patterns of Scalable, Reliable, and Performant Large-Scale Systems View the Project on GitHub View On GitHub An updated and organized reading list for illustrating the patterns of scalable, reliable, and performant large-scale systems. Concepts are explained in the articles of prominent engineers and credible references. Case studies are taken from battle-tested systems that serve millions to

                                      • Feature Storeについてふんわり理解する - Re:ゼロから始めるML生活

                                        最近こちらのサイトを参考にfeature storeに関して勉強してみたので、今回はそのメモです。 www.featurestore.org Why:なぜ必要か? 機械学習の実運用時の困りごと 実験環境と本番環境を揃えたい 過去のある時点の状況を再現したい 特徴量に関する車輪の再発明をなくしたい 歴史的経緯 What:Feature Storeとはなにものか? 求められる要件 共有性 学習系と推論系の一貫性 Feature Engineeringと透明性 バージョン管理と再現性 ガバナンスとアクセスコントロール バッチとオンライン処理 How:どうやって実現する? 標準的なFeature Storeの構成 Serving Storage Transformation Monitoring Registory その他、主なプロダクト群 OSS Feast Hopsworks Rasgo マネ

                                          Feature Storeについてふんわり理解する - Re:ゼロから始めるML生活
                                        • Pythonから利用できるRust製超高速データ分析ライブラリPolarsの実力

                                          Pythonから利用できるRust製超高速データ分析ライブラリPolarsの実力:Rustで始めるWebアプリケーション(終) RustでWebアプリケーションを開発する際に基礎となる要素技術からRustの応用まで、Rustに関するあれこれを解説する本連載。第3回は、Rust製の高速データ分析ライブラリであるPolarsの速度を簡易的に検証し、考察する。 paizaでWebエンジニアをやっています藤田と申します。前回の連載では、RustでWebアプリの基礎となるセッション管理と、SNSのAPIサーバを構築するための実装概略、Rustの強力な型システムによるサーバサイドアプリケーションの記述性について示しました。 今回は、趣向を変えてRust製の高速データ分析ライブラリである「Polars」を利用し、その速度を簡易的に検証、考察します。今回のプロジェクトもGitHubのサンプルリポジトリを用

                                            Pythonから利用できるRust製超高速データ分析ライブラリPolarsの実力
                                          • キャディでの Apache Iceberg 活用事例 - CADDi Tech Blog

                                            こんにちは。Drawer Growth グループの江良です。 キャディが「製造業 AI データプラットフォーム」の構想を打ち出してから半年ほどが経ちました。 caddi.com このコンセプトの実現にあたっては、「AI」の部分だけでなく、「データ」の部分を支える仕組みづくりも重要になってきます。今回は、私が携わっているプロジェクトで導入した Apache Iceberg とその使いどころについて紹介したいと思います。 製造業におけるデータ活用の難しさ 本題に入る前に、まずは背景について少し補足します。 (Iceberg の話だけを読みたい人は「採用したアーキテクチャ」のところまでスキップしてください。) モノづくり産業における会社には多種多様なデータが存在する 製造業の世界で登場するデータにはさまざまなものがあります。 詳しくは キャディ、製造業AIデータプラットフォームとしての、第二章。

                                              キャディでの Apache Iceberg 活用事例 - CADDi Tech Blog
                                            • Databricks、サーバレスPostgresを提供する「Neon」の買収を発表

                                              データ分析プラットフォームを提供するDatabricksは、サーバレスのPostgresを提供することで知られるスタートアップ「Neon」の買収を発表しました。 Databricks + Neon 開発者ファーストのサーバーレスPostgres企業『Neon』がDatabricksに参画します!@neondatabase Neonは革新的なデータベースで開発者、そしてAIエージェントにも最適な基盤です。開発者とAIのためのオープンでサーバーレスな基盤をともに目指しますhttps://t.co/hxK3oolUiZ — Databricks Japan | DATA + AI Company (@DatabricksJP) May 14, 2025 DatabricksはApache Sparkの生みの親であり米カリフォルニア大学バークレー校准教授でもあるMatei Zaharia(マテイ・

                                                Databricks、サーバレスPostgresを提供する「Neon」の買収を発表
                                              • Databricks + BigQueryでSSOTを実現しようとしている話 - バイセル Tech Blog

                                                テクノロジー戦略本部データサイエンス部の近藤です。 バイセルはリユース事業を営む会社で急激な成長を遂げていますが、どちらかというと今まではテクノロジーにあまり頼ることなく成長してきました。 そんな中、テクノロジーをちゃんと導入していけばどこまで成長するのか試してみたく、2022年7月にバイセルに入社しました。 バイセルではSSOTの実現のために、RDBのデータをBigQueryにニアリアルタイムで同期する実装を進めていますが、 新たにDatabricksの導入を決めました。 バイセルにどういう課題があり、なぜDatabricksを導入するのかをお話しします。 SSOTとは バイセルの今の課題と未来 どうやって課題を解決するのか なぜApache Sparkなのか Databricksの利点 Databricks導入後の世界 データサイエンス部の野望 SSOTとは データマネジメントでは「S

                                                  Databricks + BigQueryでSSOTを実現しようとしている話 - バイセル Tech Blog
                                                • Things we learned about LLMs in 2024

                                                  31st December 2024 A lot has happened in the world of Large Language Models over the course of 2024. Here’s a review of things we figured out about the field in the past twelve months, plus my attempt at identifying key themes and pivotal moments. This is a sequel to my review of 2023. In this article: The GPT-4 barrier was comprehensively broken Some of those GPT-4 models run on my laptop LLM pri

                                                    Things we learned about LLMs in 2024
                                                  • SynapseML: A simple, multilingual, and massively parallel machine learning library - Microsoft Research

                                                    Simplifying distributed ML through a unified API Writing fault-tolerant distributed programs is complex and a process that’s prone to errors. For example, consider the distributed evaluation of a deep network. The first step is to send a multi-GB model to hundreds of worker machines without overwhelming the network. Then, data readers must coordinate to ensure that all data is queued for processin

                                                      SynapseML: A simple, multilingual, and massively parallel machine learning library - Microsoft Research
                                                    • “超”大規模データを扱うからこそ直面した事象。HDFS Erasure Codingの不具合を解消するまで

                                                      LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog 2021年11月10日・11日の2日間にわたり、LINEのオンライン技術カンファレンス「LINE DEVELOPER DAY 2021」が開催されました。特別連載企画「DEVDAY2021 アフターインタビュー」では、発表内容をさらに深堀りし、発表では触れられなかった内容や裏話について登壇者たちにインタビューします。今回の対象セッションは「大規模なHDFS Erasure Codingにおける技術的課題」です。 LINEのData Platform室では、LINEのさまざまなサービスのデータをApache HDFS(以下、HDFS)に格納しています。HDFSクラスターに保存されているデータ量は、合計で数百ペタバイトと極めて膨大

                                                        “超”大規模データを扱うからこそ直面した事象。HDFS Erasure Codingの不具合を解消するまで
                                                      • Update for Apache Log4j2 Issue (CVE-2021-44228)

                                                        AWS is aware of the recently disclosed issues relating to the open-source Apache “Log4j2" utility (CVE-2021-44228 and CVE-2021-45046). Responding to security issues such as this one shows the value of having multiple layers of defensive technologies, which is so important to maintaining the security of our customers’ data and workloads. We've taken this issue very seriously, and our world-class te

                                                          Update for Apache Log4j2 Issue (CVE-2021-44228)
                                                        • Databricks Container ServiceでTensorRT-LLMを動かしてみた - NTT docomo Business Engineers' Blog

                                                          本記事ではDatabricksのDatabricks Container Serviceを用いてNVIDIA社の推論ライブラリであるTensorRT-LLMを実行可能なNotebook環境を構築する方法を紹介します。 目次 目次 はじめに Databricks Container Service NVIDIA TensorRT-LLM 解決したいこと TensorRT-LLM Container Imageの作成 Databricks Containers ベースイメージの変更 Pytorch バージョンの変更 TensorRT-LLMのインストール 動作確認 Databricks環境設定 TensorRT-LLMのインポート Llama2 HF-7b-instruct モデルの変換 TensorRT-LLMの呼び出し まとめ 参考文献 はじめに こんにちは、NTTコミュニケーションズの露

                                                            Databricks Container ServiceでTensorRT-LLMを動かしてみた - NTT docomo Business Engineers' Blog
                                                          • 氷山を穿つ - Apache Icebergに大量データを投入するTopic - - CADDi Tech Blog

                                                            こんにちは、柴犬がかわいい。Tech本部の前多です。 先日、弊社でApache IcebergとTrinoによる活用事例についての記事を上げました。 caddi.tech 記事では、Icebergへのデータ投入について次の記述がありました。 ユーザがアップロードしたCSVファイルをパースしてIcebergに保存する 図面の解析結果を一定間隔のバッチで受け取りIcebergに保存する 実際のところ、ファイルからIcebergへのデータ投入はサイズによっては困難なことがありました。 今回はIcebergへのデータ投入に関するTopicをお伝えします。 データ投入で発生した課題 私たちは、クエリエンジンとしてTrinoを採用しています。 データ投入の経路はCSVファイルしかないので、CSVファイルを解析して一行ごとにTrinoのInsert文を発行すれば十分だろうと考えていました。 また、Tri

                                                              氷山を穿つ - Apache Icebergに大量データを投入するTopic - - CADDi Tech Blog
                                                            • LINE サーバーサイドエンジニア採用説明会(プラットフォーム開発) (2021/07/27 19:00〜)

                                                              *予告なく時間配分や内容が変更になる可能性があります。 参加される方への事前のお願い ・インターネットが良好に繋がる環境にてご視聴ください。 ・18:50頃から入室が可能です。 ・質問がある方は、セッション中に「Q&A」機能に入力してください。 開発組織と登壇者紹介 松野 徳大 / Tokuhiro Matsuno 開発4センター Official Account 開発室室長 / 開発4センター Ad Network and Performance 開発室室長 入社後、様々なLINE関連サービスの開発を担当し、LINEの広告プラットフォームの開発を経て、2019年からLINE公式アカウント開発担当シニアマネージャー。現在はLINE公式アカウント、LINE DMP などの B2B 関連開発の部署のマネジメントをしている。趣味は万年筆を買うこと。 LINE コンテンツプラットフォーム LINE

                                                                LINE サーバーサイドエンジニア採用説明会(プラットフォーム開発) (2021/07/27 19:00〜)
                                                              • Databricks、“オープン”な汎用LLM「DBRX」リリース 商用利用可

                                                                米AI企業のDatabricksは3月27日(現地時間)、“オープンな”汎用LLM「DBRX」を発表した。同社によると、DBRXは標準的なベンチマークで既存のすべてのオープンモデルより優れたパフォーマンスを発揮するという。ただし、マルチモーダルではない。 DBRXは、オープンソースプロジェクトMegaBlocksに基づいて構築されたMoE(Mixture of Experts;混合エキスパート)を採用した。このMoEは、他のMoEと比較してトレーニング速度が2倍以上、計算効率も最大2倍になるという。 サイズは1320億パラメータと米MetaのLlama 2のほぼ2倍だが、速度はLlama 2の2倍という。言語理解、プログラミング、数学、ロジックのベンチマークで、Llama 2 70B、仏Mistral AIのMixtral 8x7B、米XのGrok-1、米OpenAIのGPT-3.5を上回

                                                                  Databricks、“オープン”な汎用LLM「DBRX」リリース 商用利用可
                                                                • 「Databricks とは?何ができるか」新入社員が感じたイケてる機能10選 - Qiita

                                                                  Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 目次 はじめに 背景と目的 Databricksとは何か 機能紹介 共通 データエンジニアリング 機械学習 Databricks SQL おわりに はじめに こんにちは。Databricks の新井です。Qiita 初投稿です。 2022年の7月よりソリューションアーキテクトとして働き始めました。 お客様に弊社製品を知っていただき、導入いただく際の技術サポートを行う役割です。 本記事では Databricks にご興味がある皆様に弊社プラットフォームを理解いただくために、新入社員の目線から便利だと感じた10個の機能をまとめました。 今後

                                                                    「Databricks とは?何ができるか」新入社員が感じたイケてる機能10選 - Qiita
                                                                  • 会誌「デジタルプラクティスコーナー」

                                                                    RubyはWebシステムの記述言語として高い生産性を発揮し,Web業界では広く浸透している.一方,分析的データ処理への対応が弱いため,データ処理分野ではほとんど利用されていない.昨今のDX推進などの流れから,Rubyで書かれた既存システムのデータ処理への対応が近い将来必要となるだろう.そのような要求に対応するためには,前もってRubyを分析的データ処理に対応させる必要がある.本稿では,Rubyを分析的データ処理に対応させる手段としてApache Arrowが有効であることを示す.Apache Arrowは,既存のデータ処理コンポーネント間のデータ連携の非効率性を解消するために提案された,データフォーマットとAPIである.RubyをApache Arrowに対応させることで,分析的データ処理に対応できるだけでなく,データ処理分野における先進的な取り組みにRubyからアクセスできるようになる.

                                                                      会誌「デジタルプラクティスコーナー」
                                                                    • クラスメソッド データアナリティクス通信(AWSデータ分析編) – 2022年11月号 | DevelopersIO

                                                                      データアナリティクス事業本部のコンサルティングチームの石川です。コンサルティングチームメンバーを中心に、日々AWSのアナリティクス関連サービスのアップデートを追っています。メンバー内で業務に取り入れられそうかを中心に確認しているので、一部取り上げられていないものもあるかもしれませんが、参考になりましたら幸いです。 Amazon Redshift 新機能・アップデート 2022/10/05 - Amazon Redshift Serverless now supports resource tagging Amazon Redshift Serverlessは、ネームスペースやワークグループなどのリソースのタグ付けをサポートするようになりました。タグ付けにより、リソースにキーと値のペアを割り当て、部門、請求グループ、本番/検証/開発環境ごとにリソースを整理することができます。 Amazon

                                                                        クラスメソッド データアナリティクス通信(AWSデータ分析編) – 2022年11月号 | DevelopersIO
                                                                      • 【2023年】AWS全サービスまとめ | DevelopersIO

                                                                        こんにちは。サービス部の武田です。このエントリは、2018年から毎年公開しているAWS全サービスまとめの2023年版です。 こんにちは。サービス部の武田です。 このエントリは、2018年から毎年公開している AWS全サービスまとめの2023年版 です。昨年までのものは次のリンクからたどってください。 AWSにはたくさんのサービスがありますが、「結局このサービスってなんなの?」という疑問を自分なりに理解するためにまとめました。 今回もマネジメントコンソールを開き、「サービス」の一覧をもとに一覧化しました。そのため、プレビュー版など一覧に載っていないサービスは含まれていません。また2022年にまとめたもののアップデート版ということで、新しくカテゴリに追加されたサービスには[New]、文章を更新したものには[Update]を付けました。ちなみにサービス数は 234個 です。 まとめるにあたって、

                                                                          【2023年】AWS全サービスまとめ | DevelopersIO
                                                                        • 【AWS試験】2ヶ月で6つのSpecialty試験に合格できたので、その勉強方法をまとめてみた | DevelopersIO

                                                                          こんにちは!体内の 6 割は水分ではなく、えびだと思うくらいえび好きな kaz です。 先日、SAP on AWS - Specialty に合格して、無事 12 冠達成できました! 思っていたよりも短い期間で取得できたかなと思ったので、なぜ 12 冠を目指そうと思ったのかや、勉強方法などを振り返ってみようと思います。 また、多くの方は AWS 試験を受ける前に外部の情報などを確認したりすることも多いかなと思います。 なので、本エントリーはただのリンク集ではなくて、私が各試験で勉強に利用した情報のみを載せるようにしました! これから 12 冠を目指したい!と思っている方や、短期間取得を目指す際の参考になれば幸いです! なぜ12冠を目指そうと思ったのか 何よりも AWS を利用した業務や、技術サポートに携わっているからです! その他にも、もう少し理由を並べてみたいと思います。 AWS の知識

                                                                            【AWS試験】2ヶ月で6つのSpecialty試験に合格できたので、その勉強方法をまとめてみた | DevelopersIO
                                                                          • The inside story on Mountpoint for Amazon S3, a high-performance open source file client | Amazon Web Services

                                                                            AWS Storage Blog The inside story on Mountpoint for Amazon S3, a high-performance open source file client UPDATE (8/9/2023): Mountpoint for Amazon S3 is now generally available. For details, please read the What’s New post. Amazon S3 is the best place to build data lakes because of its durability, availability, scalability, and security. Hundreds of thousands of data lakes are built on S3, storing

                                                                              The inside story on Mountpoint for Amazon S3, a high-performance open source file client | Amazon Web Services
                                                                            • Azure Updates (2021.05.26 Build day 1)

                                                                              というわけでBuild関連のUpdateまとめです。 Microsoft Build 以下適当に。 Build全体 Microsoft Build Book of News … 基本これみたら大丈夫。 Microsoft ❤️ developers: Welcome to Build 2021 – The Official Microsoft Blog … Developer関連。 What’s new for Microsoft Edge at Microsoft Build 2021 … Edge関連。 Build cloud-native applications that run anywhere … App ServiceとかPaaS関連。 Harness the power of data and AI in your applications with Azure … Cos

                                                                                Azure Updates (2021.05.26 Build day 1)
                                                                              • GitHub - vortex-data/vortex: An extensible, state of the art columnar file format. Formerly at @spiraldb, now an Incubation Stage project at LFAI&Data, part of the Linux Foundation.

                                                                                Vortex is a next-generation columnar file format and toolkit designed for high-performance data processing. It is the fastest and most extensible format for building data systems backed by object storage. It provides: Blazing Fast Performance 100x faster random access reads (vs. modern Apache Parquet) 10-20x faster scans 5x faster writes Similar compression ratios Efficient support for wide tables

                                                                                  GitHub - vortex-data/vortex: An extensible, state of the art columnar file format. Formerly at @spiraldb, now an Incubation Stage project at LFAI&Data, part of the Linux Foundation.
                                                                                • Introducing Mistral 3 | Mistral AI

                                                                                  Today, we announce Mistral 3, the next generation of Mistral models. Mistral 3 includes three state-of-the-art small, dense models (14B, 8B, and 3B) and Mistral Large 3 – our most capable model to date – a sparse mixture-of-experts trained with 41B active and 675B total parameters. All models are released under the Apache 2.0 license. Open-sourcing our models in a variety of compressed formats emp

                                                                                    Introducing Mistral 3 | Mistral AI