並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 25 件 / 25件

新着順 人気順

"Apache Arrow"の検索結果1 - 25 件 / 25件

タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。

"Apache Arrow"に関するエントリは25件あります。 performanceデータsoftware などが関連タグです。 人気エントリには 『Apache Arrowの最新情報(2019年9月版) - 2019-09-30 - ククログ』などがあります。
  • Apache Arrowの最新情報(2019年9月版) - 2019-09-30 - ククログ

    Apache ArrowのPMC(Project Management Commitee、プロジェクト管理チームみたいな感じ)のメンバーの須藤です。 みなさんはApache Arrowを知っていますか?Apache Arrowは数年後にはデータ処理界隈で重要なコンポーネントになっているだろうプロジェクトです。データ処理界隈に興味がある人は知っておくと役に立つはずなので1年ほど前にApache Arrowの最新情報(2018年9月版)をまとめました。この1年ですごくよくなったので2019年9月現在の最新情報を紹介します。 私は、PMCの中では唯一の日本人1で、コミット数は2番目に多い2ので、日本ではApache Arrowのことをだいぶ知っている方なはずです。Apache Arrowの情報は日本語ではあまりないので日本語で紹介します。 ちなみに、英語ではいろいろ情報があります。有用な情報源は

      Apache Arrowの最新情報(2019年9月版) - 2019-09-30 - ククログ
    • インメモリの高速データ処理基盤「Apache Arrow」がバージョン1.0に到達

      The Apache Foundationは、オープンソースで開発している高速なデータ処理基盤「Apache Arrow 1.0.0」のリリースを発表しました。 We just released @ApacheArrow 1.0.0, the first formally "stable columnar format" release with a move to SemVer for the libraries. We have a much improved website, too. Read more about what's newhttps://t.co/j24VdxqFTL — ApacheArrow (@ApacheArrow) July 27, 2020 Apache Arrowはメモリ上にカラムナフォーマットでデータを保持し、プロセッサのSIMD命令やGPUなどにも対

        インメモリの高速データ処理基盤「Apache Arrow」がバージョン1.0に到達
      • Apache Arrowの最新情報(2020年7月版) - 2020-07-31 - ククログ

        Apache ArrowのPMC(Project Management Commitee、プロジェクト管理チームみたいな感じ)のメンバーの須藤です。 みなさんはApache Arrowを知っていますか?最近、ついに1.0.0がリリースされたんですよ。私がApache Arrowの最新情報をまとめた2018年9月から毎年「今年中に1.0.0がでるぞ!」と言っていた1.0.0がついにリリースされたんです! 1.0.0を機に安心して使えるようになります。(どう安心なのかは後で説明します。) Apache Arrowはすでにデータ処理界隈で重要なコンポーネントになりつつありますが、数年後にはもっと重要になっているだろうプロジェクトです。データ処理界隈に興味がある人は知っておくと役に立つはずなので毎年Apache Arrowの最新情報をまとめています。1.0.0がリリースされたので2020年7月現在

          Apache Arrowの最新情報(2020年7月版) - 2020-07-31 - ククログ
        • Apache ArrowとJava: ライトニングスピードのビッグデータ転送

          Spring BootによるAPIバックエンド構築実践ガイド 第2版 何千人もの開発者が、InfoQのミニブック「Practical Guide to Building an API Back End with Spring Boot」から、Spring Bootを使ったREST API構築の基礎を学んだ。この本では、出版時に新しくリリースされたバージョンである Spring Boot 2 を使用している。しかし、Spring Boot3が最近リリースされ、重要な変...

            Apache ArrowとJava: ライトニングスピードのビッグデータ転送
          • そろそろRユーザーもApache ArrowでParquetを使ってみませんか? - Technically, technophobic.

            先日、Apache Arrow東京ミートアップ2019で「RとApache Arrow」というタイトルで発表してきました。あと、Japan.RでもApache ArrowについてLTしました。 話したこととしては、 arrowパッケージを使うとParquetファイル(後述)の読み書きができる sparklyrパッケージが内部でApache Arrowを使うようになって、R↔Spark間のデータのやり取りが高速になった Arrow Flightがもっと一般的になれば、JDBCやODBCを使わなくてもデータベースからデータを取ってこれるようになる という感じで、個人的にいま強調したいのは1.です。とりあえずParquetファイルの読み書きというのがRユーザーにとって一番わかりやすいメリットなので、そこをきっかけにみんなApache Arrowにズブズブになって、もっと世の中のシステムがApac

              そろそろRユーザーもApache ArrowでParquetを使ってみませんか? - Technically, technophobic.
            • Rubyコミッターの村田賢太がApache Arrowのコミッターに就任

              株式会社Speee開発部R&Dグループ所属のRubyコミッター、村田賢太/mrkn がApache Arrowのコミッターに就任いたしました。 https://arrow.apache.org/committers/ Apache Arrowとは、オンラインメモリのデータ表現、データ処理を効率化するプロジェクトです。 村田は弊社のデータ利活用を推進するR&D領域に対して指導的な役割を担っておりますが、今回のApache Arrowコミッター就任によって、さらに先進的な挑戦ができるものと期待しております。 プログラミング言語Rubyの開発者であり、弊社技術顧問のまつもとゆきひろ氏は、以下のようにコメントしています。 Apache Arrowを使えば、異なる言語間でも効率よくデータを共有できるので、「適材適所」のシステムを構築できます。 これはPythonやJava(Spark)などを追いかけ

                Rubyコミッターの村田賢太がApache Arrowのコミッターに就任
              • Apache Arrow 1.0.0 Release

                Published 24 Jul 2020 By The Apache Arrow PMC (pmc) The Apache Arrow team is pleased to announce the 1.0.0 release. This covers over 3 months of development work and includes 810 resolved issues from 100 distinct contributors. See the Install Page to learn how to get the libraries for your platform. Despite a “1.0.0” version, this is the 18th major release of Apache Arrow and marks a transition to

                  Apache Arrow 1.0.0 Release
                • Fluentd向けApache Arrowプラグインについて - KaiGaiの俺メモ

                  構想は半年ほど前?ここ一ヶ月ほど集中して開発に取り組んでいた、Fluentd向けApache Arrowプラグインがようやく動くようになったので、今回はこちらのモジュールについてご紹介します。 そもそもPG-Stromは、IoT/M2M領域で大量に発生するデータを高速に処理できますというのがセールスポイントで、GPU-Direct SQLはじめ、各種の機能によってそれを実現しているワケですが、実際に運用する際には、発生したデータを『どうやってSQLで処理できるようDBにインポートするか?』という問題があります。 例えば、PostgreSQLに一行ずつINSERTするというのも一つの解です。ただし、単純なI/Oに比べると、DBへの書き込みはどうしても処理ボトルネックになりがちです。 そこで、大量に収集するログデータを、少ない時間ロスで(つまり一時ファイルに保存したデータを再度DBにインポート

                    Fluentd向けApache Arrowプラグインについて - KaiGaiの俺メモ
                  • 事前情報:RubyKaigi Takeout 2021 - Red Arrow - Ruby and Apache Arrow - チケットプレゼントもあるよ #rubykaigi - 2021-08-23 - ククログ

                    RubyKaigi Takeout 2021でRed Arrow - Ruby and Apache ArrowというApache ArrowのオフィシャルRubyライブラリーの話をする須藤です。RubyKaigi Takeout 2021での私の話をより理解できるようになるために内容を紹介します。 なお、クリアコードはゴールドスポンサーとしてRubyKaigi Takeout 2021を応援しています。ゴールドスポンサーになるとチケットをもらえるのですが社内では使い切れないので欲しい人にあげます。2名分あります。応募方法はこの記事の最後を参照してください。 関連リンク: 動画(YouTube) スライド(Rabbit Slide Show) スライド(SlideShare) リポジトリー 背景 私はRubyが好きなのでデータ処理をするときもできるだけRubyを使いたいです。が!残念ながら

                      事前情報:RubyKaigi Takeout 2021 - Red Arrow - Ruby and Apache Arrow - チケットプレゼントもあるよ #rubykaigi - 2021-08-23 - ククログ
                    • RubyKaigi 2022 - Fast data processing with Ruby and Apache Arrow #rubykaigi - 2022-09-13 - ククログ

                      株式会社クリアコード > ククログ > RubyKaigi 2022 - Fast data processing with Ruby and Apache Arrow #rubykaigi 関連リンク: スライド(Rabbit Slide Show) スライド(SlideShare) リポジトリー 内容 RubyKaigi Takeout 2021のRed ArrowのトークではRed Arrowを中心にできることをたくさん紹介しました。その発展形として今年は実際に使えそうな感じになっていることを紹介したかったので、高速データ処理機能にフォーカスすることにしました。が、採択されて資料を作り始めてみると「実際に使えそう」というには各機能の実装にもう少しブラッシュアップが必要なことがわかりました。なんと。。。 ということで、Apache Arrowを使って高速にデータ処理できる各種方法につい

                        RubyKaigi 2022 - Fast data processing with Ruby and Apache Arrow #rubykaigi - 2022-09-13 - ククログ
                      • Announcing Ballista - Distributed Compute with Rust, Apache Arrow, and Kubernetes

                        Andy Grove Apache Arrow PMC. Creator of DataFusion and Ballista Query Engines. GPU-Accelerating Apache Spark @ NVIDIA. Eighteen months ago, I started the DataFusion project with the goal of building a distributed compute platform in Rust that could (eventually) rival Apache Spark. Unsurprisingly, this turned out to be an overly ambitious goal at the time and I fell short of achieving that. However

                        • Apache Arrow Flightの紹介:高速データトランスポートフレームワーク

                          Published 13 Oct 2019 By Wes McKinney (wesm) Translations 原文(English) この1.5年、Apache ArrowコミュニティーはFlightの設計と実装を進めてきました。Flightは高速なデータトランスポートを実現するための新しいクライアント・サーバー型のフレームワークです。Flightを使うとネットワーク越しに大きなデータセットを送る処理を簡単に実現できます。Flightは特定用途向けに設計されたものではないため、幅広い用途で利用できます。 Flightの実装は、まず、gRPCを使ったArrow列指向フォーマット(つまり「Arrowレコードバッチ」)のトランスポートの最適化に注力しました。gRPCはGoogleが開発しているHTTP/2ベースのRPCライブラリー・フレームワークで、広く利用されています。gRPCも特定用途

                            Apache Arrow Flightの紹介:高速データトランスポートフレームワーク
                          • 代表取締役の須藤がApache ArrowのPMC chairに就任 - 2022-01-27 - ククログ

                            Apache Arrowの開発に参加している代表取締役の須藤です。 2016年からかれこれ6年くらい開発に参加しているApache Arrowプロジェクトなんですが、このたび私がPMC chairになりました!すごくない? アナウンスメール:[ANNOUNCE] New Arrow PMC chair: Kouhei Sutou PMC chair Apache Software Foundation傘下のプロジェクトのことを知らない人からすれば「PMC chairってなに?」だと思うので、まずそのへんを説明します。 Apache Software Foundation傘下の各プロジェクトはそれぞれProject Management Committee(プロジェクト管理委員会)が管理することになっています。PMCがすることはコードを書くこと、ではありません!健全なコミュニティーを維持する

                              代表取締役の須藤がApache ArrowのPMC chairに就任 - 2022-01-27 - ククログ
                            • Apache Arrowの統計情報を使ったログ検索の爆速化 - KaiGaiの俺メモ

                              PostgreSQLにはBRINインデックス(Block Range Index)という機能があり、ログデータに付属するタイムスタンプ値など、近しい値を持ったデータが物理的に近接するという特徴を持っているとき、検索範囲を効率的に絞り込むために使用する事ができる。 この機能はPG-Stromでも対応しており、その詳細は以前のエントリでも解説している。 kaigai.hatenablog.com かいつまんで説明すると、時系列のログデータのように大半が追記(Insert-Only)であり、かつタイムスタンプ値のように近しい値同士が近接している場合、1MBのブロック((pages_per_rangeがデフォルトの128の場合、8kB * 128 = 1MB))ごとにその最小値/最大値を記録しておくことで『明らかに検索条件にマッチしない範囲』を読み飛ばす事ができる。 例えば以下の例であれば、WHE

                                Apache Arrowの統計情報を使ったログ検索の爆速化 - KaiGaiの俺メモ
                              • 「Apache Arrow 3.0.0」リリース、高性能アプリケーション開発プラットフォームの最新版

                                Apache Arrowは、分析アルゴリズムのパフォーマンスと、あるシステムまたはプログラミング言語から別のシステムまたはプログラミング言語へのデータ移動の効率を向上させるよう設計されている。インメモリ列形式を採用しており、計算ルーチンと実行エンジンはデータの大きなチャンクをスキャンして反復する際に、効率を最大化できる。 最新版となる「Apache Arrow 3.0.0」では、Arrow列形式ですでにサポートされていた、Decimal256形式のデータ型が、C++およびJavaで実装されるようになった。 また、FlightについてはC++/Java/Pythonでの認証を見直し、より柔軟な認証方式と標準ヘッダの使用が可能になっており、Cookieのサポートも追加されている。なお、C++/Javaにおける実装は、他のFlight実装との相互運用性を高めるべく、メッセージ解析をより寛容にした

                                  「Apache Arrow 3.0.0」リリース、高性能アプリケーション開発プラットフォームの最新版
                                • Introducing Apache Arrow Flight: A Framework for Fast Data Transport

                                  Introducing Apache Arrow Flight: A Framework for Fast Data Transport Published 13 Oct 2019 By Wes McKinney (wesm) Translations 日本語 Over the last 18 months, the Apache Arrow community has been busy designing and implementing Flight, a new general-purpose client-server framework to simplify high performance transport of large datasets over network interfaces. Flight initially is focused on optimized

                                    Introducing Apache Arrow Flight: A Framework for Fast Data Transport
                                  • Introducing Apache Arrow Flight SQL: Accelerating Database Access

                                    Introducing Apache Arrow Flight SQL: Accelerating Database Access Published 16 Feb 2022 By José Almeida, James Duong, Vinicius Fraga, Juscelino Junior, David Li, Kyle Porter, Rafael Telles We would like to introduce Flight SQL, a new client-server protocol developed by the Apache Arrow community for interacting with SQL databases that makes use of the Arrow in-memory columnar format and the Flight

                                      Introducing Apache Arrow Flight SQL: Accelerating Database Access
                                    • GitHub - ballista-compute/ballista: Distributed compute platform implemented in Rust, and powered by Apache Arrow.

                                      You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                        GitHub - ballista-compute/ballista: Distributed compute platform implemented in Rust, and powered by Apache Arrow.
                                      • Announcing google-cloud-bigquery Version 1.17.0: Query Results to DataFrame 31x Faster with Apache Arrow

                                        Announcing google-cloud-bigquery Version 1.17.0: Query Results to DataFrame 31x Faster with Apache Arrow Tim Swast on July 29, 2019; updated September 25, 2019 Upgrade to the latest google-cloud-bigquery and google-cloud-bigquery-storage packages to download query results to a DataFrame 4.5 times faster compared to the same method with version 1.16.0. If you aren't using the BigQuery Storage API y

                                        • Fast data processing with Ruby and Apache Arrow - Kouhei Sutou - Rabbit Slide Show

                                          Description I introduced Ruby and Apache Arrow integration including the "super fast large data interchange and processing" Apache Arrow feature at RubyKaigi Takeout 2021. This talk introduces how we can use the "super fast large data interchange and processing" Apache Arrow feature in Ruby. Here are some use cases: * Fast data retrieval (fast (({pluck}))) from DB such as MySQL and PostgreSQL for

                                            Fast data processing with Ruby and Apache Arrow - Kouhei Sutou - Rabbit Slide Show
                                          • Apache Arrowフォーマットはなぜ速いのか - Kouhei Sutou - Rabbit Slide Show

                                            Description 2020年代、ビッグデータをどう扱えばよいか。今は各プロダクト毎に効率的な扱い方を実装していますが、2020年代はそんな時代ではありません!ビッグデータの扱いでも、共通で必要なものはプロダクトを超えて協力して開発して共有する、そんな時代です!ビッグデータのための共通基盤、それがオープンソースのApache Arrowです。AmazonもGoogleもNVIDIAも開発に参加しています。 このセッションではApache Arrow開発チームの主要メンバーがApache Arrowフォーマットがなぜ速いのかを説明します。 Page: 1 Apache Arrowフォーマットは なぜ速いのか 須藤功平 株式会社クリアコード db tech showcase ONLINE 2020 2020-12-08 Apache Arrowフォーマットはなぜ速いのか Powered b

                                              Apache Arrowフォーマットはなぜ速いのか - Kouhei Sutou - Rabbit Slide Show
                                            • Apache Arrow Flight – ビッグデータ用高速データ転送フレームワーク - Kouhei Sutou - Rabbit Slide Show

                                              Description ビッグデータは現実的な時間で処理できてこそ活きます。処理時間はデータ処理アルゴリズムの計算量だけで決まり…ません!適切なノードにデータを配置しないとそもそもデータ処理できませんが、大量ノードが協調するビッグデータ処理ではデータ移動コストを無視できません。Apache Arrow Flightを使えばネットワーク帯域限界まで高速にデータ転送できます。 このセッションではApache Arrow Flightの仕組みおよび利用例として分散計算プラットフォームApache Arrow Ballistaを紹介します。 Page: 1 Apache Arrow Flight ビッグデータ用高速データ転送フレームワーク 須藤功平 株式会社クリアコード db tech showcase 2021 2021-11-17 Apache Arrow Flight - ビッグデータ用高速

                                                Apache Arrow Flight – ビッグデータ用高速データ転送フレームワーク - Kouhei Sutou - Rabbit Slide Show
                                              • 【R】Apache Arrowとduckdbを試してみる - Qiita

                                                これはR Advent Calendar 2021の24日目の記事です(ということにさっきしました)(遅刻)。 https://qiita.com/advent-calendar/2021/rlang Apache ArrowとDuckDB arrowパッケージ Rのarrowパッケージ(バージョン6.0.0)に遂にjoin系の機能やdplyr::group_by()への対応が入りいよいよ日常的に使っていきたいと思ったのでどのくらい早いのか計ってみようと思います。 私はApache Arrowを最近知り、凄いプロジェクトがあるものだと衝撃を受けたクチです。 https://github.com/apache/arrow Apache Arrowについてはクリアコード社のサイトにて積極的に日本語の情報発信されているのでまずそちらをご覧いただくのも良いと思います。 Apache Arrowのご

                                                  【R】Apache Arrowとduckdbを試してみる - Qiita
                                                • Apache Arrow and Java: Lightning Speed Big Data Transfer

                                                  How to Use Multiple GitHub Accounts Git is a popular tool for version control in software development. It is not uncommon to use multiple Git accounts. Correctly configuring and switching Git accounts is challenging. In this article, we show what Git provides for account configuration, its limitations, and the solution to switch accounts automatically based on a project parent directory location.

                                                    Apache Arrow and Java: Lightning Speed Big Data Transfer
                                                  • GitHub - cloudquery/cloudquery: The open source high performance ELT framework powered by Apache Arrow

                                                    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                      GitHub - cloudquery/cloudquery: The open source high performance ELT framework powered by Apache Arrow
                                                    1

                                                    新着記事