タグ

algorithmとapache arrowに関するusadamasaのブックマーク (2)

  • Apache Arrow東京ミートアップ2018 - Apache Arrow #ArrowTokyo - 2018-12-10 - ククログ

    Apache Arrow東京ミートアップ2018を主催したした須藤です。会場提供・飲物提供などSpeeeさんにいろいろ協力してもらいました。ありがとうございます。 私はApache Arrow体のことを網羅的に紹介しました。データの配置のことなど日OSS推進フォーラム アプリケーション部会 第10回勉強会では触れなかった技術的な詳細についても紹介しています。 関連リンク: スライド(Rabbit Slide Show) スライド(SlideShare) リポジトリー 集まりの目的 この集まりは勉強会ではありません。勉強をする集まりではなく開発者を増やす集まりです。開発対象のプロダクトはApache Arrowだけでなく、Apache Arrow以外でもデータ処理に関わるプロダクトであればなんでもOKです。 そのため参加枠は次の2つにしました。 開発に参加したい気持ちがある枠 開発に参

    Apache Arrow東京ミートアップ2018 - Apache Arrow #ArrowTokyo - 2018-12-10 - ククログ
  • Dive into Apache Arrow(その1) - KaiGaiの俺メモ

    Arrow_Fdwを作るモチベーション 昨年、かなり頑張ってマルチGPUや拡張I/Oボックスを使用してシングルノードのクエリ処理性能10GB/sを達成できた。ただ一方で、PG-StromがPostgreSQLのデータ構造をそのまま使えるという事は、トランザクショナルに蓄積されたデータをそのまま使えるという手軽さの一方で、どうしても行指向データに伴う非効率なI/Oが処理速度全体を律速してしまうという事になる。 昨年の10月頃から直接お会いした人にはお話していたが、現在、PG-StromでApache Arrow形式のファイルを扱うようにするための機能強化に取り組んでいる。目標としては、3月末には動かせる状態にしたいと思っているが。 Apache Arrow形式とは、Sparkの人がよく使っているデータ形式で、大量の構造化データを列指向で保持する事ができる。特定の行を更新したり削除したりといっ

    Dive into Apache Arrow(その1) - KaiGaiの俺メモ
  • 1