タグ

bigdataと*eventに関するsh19910711のブックマーク (8)

  • 『Hadoopソースコードリーディング 第16回』で Apache Spark の勉強をしてきました #hadoopreading - べにやまぶろぐ

    今熱い視線を向けつつもそれだけで終わってしまっている Apache Spark の勉強会があるということで Hadoopソースコードリーディング 第16回 Tickets, Thu, May 29, 2014 at 7:00 PM | Eventbrite に参加してきました。Hadoop じゃなかった気もするけど奇しくも初の Hadoop ソースコードリーディング参加で非常に濃密な時間を過ごすことができました。 スライドもかなり濃密で前の方に早く来て座ってて良かったーと思ってたんですが素晴らしいことに全部 Slideshare で公開されました。何度も反芻しないと理解しきれない感じしていたので大変ありがたいです。 ということでやや勘違いしているところもありそうですがメモを残しておきます。 Apache Spark のご紹介 前半 (土橋昌さん / NTT データ) Apache Spar

    『Hadoopソースコードリーディング 第16回』で Apache Spark の勉強をしてきました #hadoopreading - べにやまぶろぐ
    sh19910711
    sh19910711 2024/05/24
    "Shark が SparkSQL に変わった / StorageLevel: useDisk, useMemory, useOffHeap, deserialized, replication などポリシーを設定できる / ASM4 というライブラリを使ってバイトコードの中をトラバース" 2014
  • Hadoop Conference Japan 2011 Fallに行ってきた - seikoudoku2000のブログ

    Hadoop Conference Japan 2011 Fallに行ってきた。 eventbrite http://hadoop-conference-japan-2011-fall.eventbrite.com/ リクルートのMIT作成のQAやら講演資料のサイト (現状、一部の資料がアップされているのみ。) http://mit.recruit.co.jp/hadoop/conference2011fall/info/archive.html 午前中のセッションに関しては、ITProのニュースになってたり、他のブログでも書かれていたり、技術的にはこれといった話が無かったりだったので略。 午後はずっとCommyunity Trackのセッションを聞いていたので、そのまとめ。 Elastic MapReduce: Amazon Web Serviceが提供するhadoopサービス  @sh

    Hadoop Conference Japan 2011 Fallに行ってきた - seikoudoku2000のブログ
    sh19910711
    sh19910711 2024/04/24
    "Pregelにインスパイアされたプロジェクトたち: Hama + GoldenOrb + Giraph / webは元々Graphだしということで、IT業界はどこを見てもGraphに到達する / LSH: 効率はいいが、精度に問題がある + 関数が肝 + likelikeではMinHashを利用" 2011
  • Dataworks Summit 2017 SanJose StreamProcessing - Hadoop Source Code Reading #23 #hadoopreading

    sh19910711
    sh19910711 2024/03/09
    "Hadoop Summit → DataWorks Summitに名称を変更 / Apache Beam: バッチ処理とストリーム処理を任意のエンジンで実行できる + 2017/05/17 First stable release / Apache Storm: 2011年にTwitter社が公開 + Storm2.0からJavaコードに置き換え" 2017
  • ざっくりSpark+AI Summit 2020 - 1日目 - - Qiita

    自分用にメモ。英語聞くのしんどい・・・。 1: Wednesday morning keynote Al Ghodsi(Databricks) データ分析はチームスポーツ。複数のチーム間のデータ連携が重要になってきた 祝Spark10周年 Matei Zaharia(Databricks) PySpark利用が全体の7割 Spark3.0出たよ 3,400くらいパッチをあてた。約半分がSparkSQL Adaptive Query Execution(AQE)追加した。動的にreducer/join最適化。TPC-DS 1TBで最大8倍ほど速くなった Dynamic partition pruning追加した。TPC-DS 1TBで2〜18倍速くなった。TPC-DS 30TBでざっくり倍速くなった Apache Arrowを呼ぶようにした。SparkRは40倍早くなる。PySparkは若干

    ざっくりSpark+AI Summit 2020 - 1日目 - - Qiita
    sh19910711
    sh19910711 2023/03/04
    2020 / "Spark3.0: 3,400くらいパッチをあてた。約半分がSparkSQL / Project Zen: PySparkのエラー出力簡素化 / データが多くなるほど議論の余地、解釈の余地が大きくなる + そこに「見たいものを見たい」という認知バイアスが入る"
  • Strata + Hadoop World参加記録 その2 - 元データ分析の会社で働いていた人の四方山話

    Strata + Hadoop World参加記録 その1 2daysのチケットしか持っていませんので、日はexpo hallをうろうろしました。 けっこう広い!あと、日のイベントと違って会場内でアルコールが飲める!(その分参加費が異常に高い!!) http://strataconf.com/big-data-conference-ca-2015/public/content/sponsors 英語は拙いながら、我らが(?)TreasureDataさんのブースもあったりして中々楽しく回らせてもらいました。 個人的にimpressiveだった事 「Strata + Hadoop conference」だけどほとんどSpark一色だった 時代の移り変わりなのでしょうか? みんなSparkとかストリーミングとか言ってる感じです。 インメモリでガンガン行こうぜ的な インメモリでガンガン行こうぜ

    Strata + Hadoop World参加記録 その2 - 元データ分析の会社で働いていた人の四方山話
    sh19910711
    sh19910711 2023/02/27
    2015 / "「Strata + Hadoop conference」だけどほとんどSpark一色だった / みんなSparkとかストリーミングとか言ってる / インメモリでガンガン行こうぜ!という感じのモノがけっこうあった"
  • 忘れてしまうから書いておこう -- Hadoop Conference Japan 2011 fall - Guutaraの日記

    覚え書き。もはや、忘備録。 内容に関しては、資料をみてね。 いずれ、スライドも全部(?)公開されるはず。 というか、公開できる内容しか、開示してないカンファレンスだと思う。 資料 Googleに聞くのが、早いか? http://www.google.co.jp/search?source=ig&hl=ja&rlz=1G1GGLQ_JAJP342&q=Hadoop+Conference+Japan+2011+FALL&btnG=Google+%E6%A4%9C%E7%B4%A2#pq=hadoop+conference+japan+2011+fall&hl=ja&sugexp=pfwc&cp=29&gs_id=m&xhr=t&q=Hadoop+Conference+Japan+2011+fall&pf=p&sclient=psy-ab&rlz=1G1GGLQ_JAJP342&source=h

    忘れてしまうから書いておこう -- Hadoop Conference Japan 2011 fall - Guutaraの日記
    sh19910711
    sh19910711 2022/04/08
    2011 / "MapReduceなどの計算モデルとその実行環境へいくのか、HDFSのファイルシステムへいくのかの、二つがある事も、はっきりわかったし。どちらが、自分にとって、今、好ましいのかも確認できた"
  • Data Engineering and Data Analysis Workshop #8 を開催しました! | CyberAgent Developers Blog

    Data Engineering and Data Analysis Workshop #8 を開催しました! こんにちは、株式会社サイバーエージェント 秋葉原ラボの白井徳仁です。 今回は2019年6月28日に開催された「Data Engineering and Data Analysis Workshop #8」をレポートしたいと思います。 秋葉原ラボは「分散システム・検索・機械学習・データマイニングなどを扱う研究開発組織」です。「Data Engineering and Data Analysis Workshop」は秋葉原ラボの所属メンバーが中心となって開催する勉強会でサイバーエージェントデータ分析基盤とデータ活用、及びそれらのための技術をテーマにしています。 前回の第7回は RecSys2018 ならびに AWS re:Invent 2018 の参加レポートについてお話頂きました

    Data Engineering and Data Analysis Workshop #8 を開催しました! | CyberAgent Developers Blog
  • Spark+AI Summit 2019参加レポート at San Francisco — Spark3.0/Koalas/MLflow/Delta Lake

    こんにちは,NTTの山室です. 今回の記事は4/23–25にサンフランシスコで開催されたSpark+AI Summitの参加レポートになります.興味のある情報への良い足がかりになることを目的に,個人的にチェックした内容を浅く広めに取り上げます. 以下の公式サイトに大半の発表資料と動画が公開されていますので,興味がある方はそちらも併せて参照してください. Spark+AI Summit 2019 Agenda Summitの翌日に訪問した会場近くのDatabricks社Spark+AI Summitは現在年に2回アメリカ西海岸とヨーロッパで開催されているDatabricks(Sparkの作者が在籍する企業)主催のイベントです.特に毎年サンフランシスコで開催されるSummitは規模が大きく,今回世界中から5,000人を超える参加者が集まったそうです. この記事では個人的に興味を持った以下の内容

    Spark+AI Summit 2019参加レポート at San Francisco — Spark3.0/Koalas/MLflow/Delta Lake
    sh19910711
    sh19910711 2019/05/30
    "Spark Graphは宣言的な問い合わせ言語(Cypher)を実装したグラフ処理ライブラリ" / "Cypherは元々Neo4j向けに開発された問い合わせ言語ですが,その後に仕様が標準化されています"
  • 1