The Optimized Row Columnar (ORC) file format provides a highly efficient way to store Hive data. It was designed to overcome limitations of the other Hive file formats. Using ORC files improves performance when Hive is reading, writing, and processing data. Compared with RCFile format, for example, ORC file format has many advantages such as: a single file as the output of each task, which reduces
This document discusses improvements to ORC support in Apache Spark 2.3. It describes previous issues with ORC performance and compatibility in Spark. The current approach in Spark 2.3 introduces a new native ORC file format that provides significantly better performance compared to the previous Hive ORC implementation. It allows configuring the ORC implementation and reader type. The document als
2018年5月22日、トレジャーデータ株式会社が主催するイベント「PLAZMA Data Platform Day: TD Tech Talk」が開催されました。2日間に渡って、TreasureDataを活用する各企業が、運用上の知見やヒントを共有する本イベント。1日目のData Platform Dayでは、分散処理システムの構築やエコシステム開発、運用に対する取り組みや技術について、各社が知見を語ります。プレゼンテーション「2020年代に向けたDeNAの分析基盤」に登場したのは、株式会社ディー・エヌ・エー、システム本部の松木秀憲氏。講演資料はこちら。 DeNAにおける、データ活用の重要性 松木秀憲氏(以下、松木):よろしくお願いします。「2020年代に向けたDeNAの分析基盤」というタイトルでお話をさせていただきます。松木と申します。株式会社ディー・エヌ・エーのAIシステム部でAIと分
4月に閉鎖した大手海賊版サイト「漫画村」については、その収益化方法として画面に表示される広告(ディスプレイ広告)のほかに、Coinhiveを利用した仮想通貨マイニング、そして閲覧者の見えない部分で広告を表示させる「広告詐欺(アドフラウド)」も含まれていました。 今回漫画村で行われていたのは「隠し広告」とよばれるの広告詐欺の手法の一つで、閲覧者が漫画村のサイトを表示すると、プログラムが「まとめサイト」などを装ったサイトを見えない形で開き、このサイトに掲載されている広告が表示されます。これによってサイト運営者は不正に広告収益を獲得することができます。 この広告詐欺行為のために用意されたサイトの運営者と漫画村の関係についてはおそらく直接的な関係はそれほどなく、その間を取り持っているのは広告代理店とみられます。彼らが中心となって漫画村における広告詐欺を主導し、漫画村の運営者とも金銭的なやりとりなど
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く