並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 148件

新着順 人気順

Hadoopの検索結果1 - 40 件 / 148件

Hadoopに関するエントリは148件あります。 hadoopデータ機械学習 などが関連タグです。 人気エントリには 『MongoDBの様なNoSQLに勢いがあるのは何故ですか?SQLと比べてどんな利点や欠点がありますか? - Quora』などがあります。
  • MongoDBの様なNoSQLに勢いがあるのは何故ですか?SQLと比べてどんな利点や欠点がありますか? - Quora

    回答 (3件中の1件目) とにかくデータが大量になったせいです。高度で複雑な機能を持つRDBMSでは負荷が高すぎることから、機能を端折ってでも大量データを高速に処理したいということです。

      MongoDBの様なNoSQLに勢いがあるのは何故ですか?SQLと比べてどんな利点や欠点がありますか? - Quora
    • 日本人CTOがシリコンバレーで25歳で起業し、660億円で買収されるまでの道のり

      大学時代に日本屈指の技術系スタートアップCTOを経験。25歳で日本から飛び出して、シリコンバレーで起業した ――まず太田さんがシリコンバレーで起業するまでの経緯を聞かせてください。 高校生の時に初めて携帯電話を買ってもらいました。その携帯がiアプリといって、Javaのプログラムが動作する端末でした。そこで近くの書店でプログラミングの本を買って、簡単なシューティングゲームを作りました。 すると、それが40万件以上ダウンロードされたんです。塾の帰りなど、隣にいる人が自分の作ったゲームをプレイしているのを見て驚きました。それが最初のコンピュータ、インターネットの原体験で、そこからプログラミングにのめり込んでいきました。 太田 一樹(Treasure Data 共同創業者 取締役) 1985年生まれ。東京大学大学院情報理工学研究科修士課程修了。学部課程在学中の2006年、自然言語処理と検索エンジン

        日本人CTOがシリコンバレーで25歳で起業し、660億円で買収されるまでの道のり
      • 「まさに逆転の発想だ!」福岡県宇美町が新型コロナウイルスワクチン接種会場で動きの遅い高齢者のために導入した方法が画期的で全国で広まって欲しい!

        知念実希人 小説家・医師 @MIKITO_777 やはり、1日100万回の接種を何とか達成しないといけませんね。 現在は30万回強。 まだまだ、大規模接種会場やかかりつけ医での接種が十分に始まっていない状態なので、目標は十分に達成可能だと思います。 頑張りましょう! a.msn.com/01/ja-jp/BB1gM… 2021-05-16 20:22:01

          「まさに逆転の発想だ!」福岡県宇美町が新型コロナウイルスワクチン接種会場で動きの遅い高齢者のために導入した方法が画期的で全国で広まって欲しい!
        • リアルタイムログ分析基盤のAWS-_GCP移行話

          受託開発受注のためのちょっとしたコツ 〜「何でもかんでもやります」じゃなく、まずはデモ〜 / demonstation first

            リアルタイムログ分析基盤のAWS-_GCP移行話
          • 『仕事ではじめる機械学習』&『前処理大全』著者対談(Part 1)

            今回より4回を予定して、書籍『仕事ではじめる機械学習』著者の有賀康顕さん、『前処理大全』著者の本橋智光さんの対談をお届けいたします。ひょんなことから実現した今回の対談、今話題の機械学習を中心に、さまざまな角度からのお話しが飛び出します。まずはお二人の著書の話題から… 書籍の評判と執筆の苦労 (名刺交換をするお二人…) 有賀: そうか、CTOですもんね。 本橋: CTOと言ってもエンジニアは僕入れて4人ですけどねw 有賀: よくあるスタートアップのCTOって最初のエンジニアで、みたいな感じで。だから4人いるんだったら、ハイアリングがもうできるようになったという。 本橋: でも、いまAndroidエンジニアがいないから僕Androidアプリ書いてますよw もう少しすると入社する予定ですけれど。 有賀: スタートアップのCTOはできることは何でもやるということで。いやあ。ご活躍されていて。 本橋

            • BigQuery と Snowflake を徹底比較

              最初にBigQueryとSnowflakeの概要と、登場の背景を説明します。 その後、ユーザにとっての使い勝手と、管理者にとっての使い勝手を、ベンダーフリーな立場でそれぞれします。 最後に、BigQueryとSnowflakeどっちが速いのか?といった疑問に対して、アーキテクチャをもとに考察します。

                BigQuery と Snowflake を徹底比較
              • データ基盤の3分類と進化的データモデリング - 下町柚子黄昏記 by @yuzutas0

                この記事は、下書き供養 Advent Calendar 2018 - Adventarの2日目の記事です。 めっちゃ専門的な内容になってしまいました。ごめんなさい。 某Slackでの議論内容をブログに書こうとしたのですが、下書きのまま放置していました。 Wednesday, August 15th と書いてあるので、約半年前の内容となります。 もくじ もくじ はじめに 「データ基盤の3分類」と「(一般的な)技術要素」 1.データレイク(Data Lake) 2.データウェアハウス(Data Warehouse) 3.データマート(Data Mart) 私が考えるデータ基盤の定義 私が考える「あるべき構成」 技術要素を分けるのはアンチパターン 進化的データモデリングを容易にしよう チームとアーキテクチャを選ぶ まとめ 参考 余談 追記 はじめに データ基盤と世間一般で言われるシステムには分類

                  データ基盤の3分類と進化的データモデリング - 下町柚子黄昏記 by @yuzutas0
                • Delta Lake とは何か - connecting the dots

                  はじめに 環境情報 Delta Lake (デルタレイク) とは Delta Lake の実体 Delta Lake の構造 Parquet と Delta の相違点 Parquetとは何か Parquetの構造 Parquet と Delta の違い Delta Lake が生まれた経緯: データレイクと Delta Lake の違い データレイクのメリット データレイクの課題 *Parquetで構築した場合 Delta Lake の特徴 ACIDトランザクションの担保 スケーラブルなメタデータ管理 バッチとストリーミングワークロードの統合 タイムトラベル (バージョン管理) CONSTRAINT句のサポート DML (データ操作言語) のフルサポート UPDATE DELETE MERGE 柔軟なスキーマ管理 1. スキーマ エンフォースメント 2. スキーマ エボリューション ストレ

                    Delta Lake とは何か - connecting the dots
                  • 高性能分散SQLエンジン「Trino」最速ガイド - NTT Communications Engineers' Blog

                    こんにちは。なんの因果かNTTコミュニケーションズのエバンジェリストをやっている西塚です。 この記事は、NTT Communications Advent Calendar 2021 22日目の記事です。 5分でわかる「Trino」 「Trino」は、異なるデータソースに対しても高速でインタラクティブに分析ができる高性能分散SQLエンジンです。 以下の特徴を持っており、ビッグデータ分析を支える重要なOSS(オープンソースソフトウェア)の1つです。 SQL-on-Anything: Hadoopだけでなく従来のRDBMS(リレーショナルデータベース)やNoSQLまで、標準SQL(ANSI SQL)に準拠したアクセスをワンストップに提供 並列処理でビッグデータに対して容易にスケールアップ しかも高速(hiveの数十倍) Netflix, LinkedIn, Salesforce, Shopif

                      高性能分散SQLエンジン「Trino」最速ガイド - NTT Communications Engineers' Blog
                    • Twitter、数万台のHadoopクラスタとコールドストレージをGoogle Cloud Platformへ移行すると発表 - Publickey

                      Twitter、数万台のHadoopクラスタとコールドストレージをGoogle Cloud Platformへ移行すると発表 Twitterは、自社で運営している大規模なHadoopクラスタをGoogle Cloud Platformへ移行すると発表しました。 A new collaboration with Google Cloud - Twitter Twitterは基本的に自社でデータセンターを保有し運用してきました。2017年1月にTwitterのブログに投稿された記事「The Infrastructure Behind Twitter: Scale」によると、Twitterのデータセンターは5つの大陸にあり、合わせて数十万台のサーバが運用されています。 同社が運用しているHadoopクラスタは世界最大級の規模として、以下のように説明されています。 Hadoop: We have

                        Twitter、数万台のHadoopクラスタとコールドストレージをGoogle Cloud Platformへ移行すると発表 - Publickey
                      • ビッグデータ処理データベースの全体像と使い分け
2018年version

                        PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント

                          ビッグデータ処理データベースの全体像と使い分け
2018年version
                        • モンスターストライクを支えるデータ分析基盤と準リアルタイム集計

                          Transcript ���������� ���������� � ������� �� ���� �� #�"� • �\ �� �Z-/7 6.<[ @ojima-h • ����QCF? SWGL���* &�DTYP • KYH�� �5+�X)�=�� • [email protected]>MAG325 �FGJR • VD5 ;(8.:,'X %�715KYHOVY • BIIYT5!� • �$EYNG4�0<�� �5�� �� �� � 4,500�� � XFLAG STUDIO • ���$�%�&� % %��� • !%��&��" � • � �#&� • !%��&��" � ��� � • !%�� � • ��&��� • ������ � � • FC�� • " �����#�%��� • XFLAG PARK • XFLAG STORE SHIB

                            モンスターストライクを支えるデータ分析基盤と準リアルタイム集計
                          • Amazon S3 Update – Strong Read-After-Write Consistency | Amazon Web Services

                            AWS News Blog Amazon S3 Update – Strong Read-After-Write Consistency When we launched S3 back in 2006, I discussed its virtually unlimited capacity (“…easily store any number of blocks…”), the fact that it was designed to provide 99.99% availability, and that it offered durable storage, with data transparently stored in multiple locations. Since that launch, our customers have used S3 in an amazin

                              Amazon S3 Update – Strong Read-After-Write Consistency | Amazon Web Services
                            • 分散型システム徹底入門 – Part 2. | POSTD

                              Cassandra 先ほど触れたCassandraは分散型のNoSQLデータベースで、CAP定理のAとP(可用性と分断耐性)の特性を基準に最終的な一貫性が確保されています。ただ、このように言ってしまうと少し誤解を招くかもしれません。というのも、実際のところCassandraの設定は非常に柔軟性が高く、可用性を犠牲にして強い一貫性を提供することもできるからです。ですが、そうした使用ケースは一般的ではありません。 Cassandraでは、 コンシステントハッシュ法 を使って、渡そうとするデータをクラスタのどのノードが管理するのかを決めています。そしてその際は、データを複製するノード数を示す レプリケーションファクタ を設定します。 注釈: レプリケーションファクタ=3 挿入(キー、値) Cassandraのノード(コーディネータ) Cassandraのノード ハッシュ(キー)=2 ノード#2

                                分散型システム徹底入門 – Part 2. | POSTD
                              • データ指向アプリケーションデザイン

                                監訳者まえがき はじめに 第I部データシステムの基礎 1章 信頼性、スケーラビリティ、メンテナンス性に優れたアプリケーション 1.1 データシステムに関する考察 1.2 信頼性 1.2.1 ハードウェアの障害 1.2.2 ソフトウェアのエラー 1.2.3 ヒューマンエラー 1.2.4 信頼性の重要度 1.3 スケーラビリティ 1.3.1 負荷の表現 1.3.2 パフォーマンスの表現 1.3.3 負荷への対処のアプローチ 1.4 メンテナンス性 1.4.1 運用性:運用担当者への配慮 1.4.2 単純さ:複雑さの管理 1.4.3 進化性:変更への配慮 まとめ 2章 データモデルとクエリ言語 2.1 リレーショナルモデルとドキュメントモデル 2.1.1 NoSQLの誕生 2.1.2 オブジェクトとリレーショナルのミスマッチ 2.1.3 多対一と多対多の関係 2.1.4 ドキュメントデータベース

                                  データ指向アプリケーションデザイン
                                • [速報]Microsoft SQL Server 2019発表。SparkとHDFSを製品に統合、データ仮想化を搭載。Microsoft Ignite 2018

                                  マイクロソフトは米フロリダで開催中のイベント「Microsoft Iginte 2018」で、同社のリレーショナルデータベースの次期バージョン「Microsoft SQL Server 2019」を正式に発表しました。 SQL Server 2019ではビッグデータの処理や機械学習への対応などが重視され、Apache SparkとHDFS(Hadoop Distributed File System)が製品に統合されます。 それぞれのノードにはSparkとHDFS、SQL Serverのエンジンが含まれており、ユーザーは使いやすいT-SQLを用いてビッグデータ処理を記述可能。 コンテナ環境への対応も強化され、上記の図のSparkとHDFS、SQL Serverが統合された複数のノードからなるビッグデータクラスタはKubernetes環境へのデプロイが可能になります。 Oracle Data

                                    [速報]Microsoft SQL Server 2019発表。SparkとHDFSを製品に統合、データ仮想化を搭載。Microsoft Ignite 2018
                                  • Clouderaを退職しました - 科学と非科学の迷宮

                                    2018年11月30日(金)は、Cloudera株式会社への最終出社日でした。2011年4月1日に入社したので、勤続日数は2800日でした。 Clouderaオフィス2011年 Cloudera Japan オフィス 2012年 日本にオフィスも同僚もいない状態からのスタートでしたが、今日、多くの同僚たちに見送られる形で会社を出ることができました。 退職するときは、最後の一人として会社を去るか、自分がいなくても会社が回るようになったときか、そのどちらかにしよう、と決めていました。皆が退職することを惜しんでくれましたが、私がいなくても会社は問題なく続いていくでしょう。私が理想とする結末にたどり着くことができて、本当に嬉しいです。 7年前、ごく一部の人しか知らなかったHadoopは、今や多くの人が知るソフトとなり、Hadoopに限らず、様々なデータ基盤を活用することが当たり前の時代となりました

                                      Clouderaを退職しました - 科学と非科学の迷宮
                                    • データサイエンティストにおいて、最も需要のあるスキルとは | POSTD

                                      雇用者は何を求めているのか? データサイエンティストは、多くのことを知っていると期待されます。例えば機械学習、コンピュータ科学、統計、数学、データの可視化、コミュニケーション、そしてディープラーニングといったものです。これらの分野の中には、データサイエンティストが学んでいる可能性のある何十もの言語やフレームワーク、テクノロジが含まれています。雇用者側から求められたいデータサイエンティストは、限られた学びの時間をどのように割り当てるべきでしょうか。 私はデータサイエンティストにどのようなスキルが求められているのかを探るため、Web上の求人情報サイトを見て回りました。一般的なデータサイエンスのスキルと、特殊な言語やツールは分けて考えています。検索した日は2018年10月10日、サイトは LinkedIn と Indeed 、 SimplyHired 、 Monster 、それに[AngelLi

                                        データサイエンティストにおいて、最も需要のあるスキルとは | POSTD
                                      • LINEの大規模なData PlatformにData Lineageを導入した話

                                        Shinji Shimamura2022-05-18LINE Data Platform室IU DevチームでData Catalog(IU Web)の開発をしています。 はじめに こんにちは、Data Platform室IU Devチームの島村です。 Data Platform室では、約400ペタバイトのデータ分析基盤を運用しております。このData Platformは、「Information Universe」(以下、IU) と呼ばれており、LINEの様々なアプリケーションから生成されるデータをLINE社員が活用できるように、データの収集、処理、分析、可視化を提供しています。私が所属するIU Devチームでは、「IU Web」を開発しています IU Webは、IUのデータを安全にかつ効率的に活用できるようにするData Catalog機能を提供しており、LINEグループのあらゆるサー

                                        • DeNAのデータ分析基盤 あらゆるサービスのログを蓄積・分析するインフラの仕組み

                                          2018年5月22日、トレジャーデータ株式会社が主催するイベント「PLAZMA Data Platform Day: TD Tech Talk」が開催されました。2日間に渡って、TreasureDataを活用する各企業が、運用上の知見やヒントを共有する本イベント。1日目のData Platform Dayでは、分散処理システムの構築やエコシステム開発、運用に対する取り組みや技術について、各社が知見を語ります。プレゼンテーション「2020年代に向けたDeNAの分析基盤」に登場したのは、株式会社ディー・エヌ・エー、システム本部の松木秀憲氏。講演資料はこちら。 DeNAにおける、データ活用の重要性 松木秀憲氏(以下、松木):よろしくお願いします。「2020年代に向けたDeNAの分析基盤」というタイトルでお話をさせていただきます。松木と申します。株式会社ディー・エヌ・エーのAIシステム部でAIと分

                                            DeNAのデータ分析基盤 あらゆるサービスのログを蓄積・分析するインフラの仕組み
                                          • 大規模データ活用向けストレージレイヤソフトのこれまでとこれから(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/0…

                                            大規模データ活用向けストレージレイヤソフトのこれまでとこれから(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)

                                              大規模データ活用向けストレージレイヤソフトのこれまでとこれから(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/0…
                                            • LINEの多様なサービスを支える機械学習のプラットフォームと開発事例

                                              2020年6月24日に、LINEの「Data Labs」のオンライン採用説明会が開催されました。Data Labsは、データ分析や機械学習の活用によって、LINEのすべてのサービスの価値向上を目指す、データの分析・研究を行う専門の開発組織です。説明会の後半は、Machine Learning1チーム/マネージャーの菊地悠氏とフェローの並川淳氏が登壇し、機械学習エンジニアチームの仕事内容や事例を紹介しました。1記事目はこちら Machine Learningチームのミッション 菊地悠氏:Machine Learning1チームの菊地と申します。よろしくお願いします。今日の内容は以下のような順で話をしていきたいと思います。 まず最初にミッションです。多種多様なサービスがあるので、機械学習を適用する領域はいろいろあります。そういう中で、我々のチームは各事業組織から独立しています。LINEのさまざ

                                                LINEの多様なサービスを支える機械学習のプラットフォームと開発事例
                                              • A new collaboration with Google Cloud

                                                Every day, people come to Twitter to find out what’s happening in the world and talk about it. With hundreds of millions of Tweets sent every day, it is critical that our infrastructure and data platforms are able to scale. As we have previously discussed, the Hadoop compute system is the core of our data platform, and Twitter runs multiple large Hadoop clusters that are among the biggest in the w

                                                  A new collaboration with Google Cloud
                                                • ナビタイムジャパンに集まる移動ビッグデータの分析基盤

                                                  2019/04/25に開催された『データ分析基盤Developers Night〜3社3様分析基盤の変遷〜』の講演資料です。

                                                    ナビタイムジャパンに集まる移動ビッグデータの分析基盤
                                                  • LINEとサイバーエージェントは「データ基盤の設計・マネジメント、データエンジニアリング」をどうサービス発展につなげているか? - TECH PLAY Magazine

                                                    TOP マガジン インタビュー LINEとサイバーエージェントは「データ基盤の設計・マネジメント、データエンジニアリング」をどうサービス発展につなげているか? ユーザーの増加やサービスの多角化に伴い、各サービスの膨大なデータを収集・蓄積し、分析を行うことは、さらにサービスを発展させるために必要不可欠です。 そこで今回は、サイバーエージェント秋葉原ラボ・研究室長の福田一郎氏と、LINE Data Labsのデータエンジニアである吉田啓二氏に、「データ基盤の設計・マネジメント、データエンジニアリング」をテーマに、サービスを発展させる上で社内部署とどのように協力すればいいのかについて語っていただきました。 対談者プロフィール 株式会社サイバーエージェント 秋葉原ラボ研究室長 福田 一郎氏 2008年、サイバーエージェントに入社。2011年、秋葉原ラボを設立し、メディア事業全体の大規模データ処理基

                                                      LINEとサイバーエージェントは「データ基盤の設計・マネジメント、データエンジニアリング」をどうサービス発展につなげているか? - TECH PLAY Magazine
                                                    • 楽天グループが数ペタバイト級の会員分析DBを刷新、Google BigQueryを選んだわけ

                                                      アンケート 新たな課題を探る「働き方改革に関する動向・意識調査」Amazon券プレゼント 楽天グループは2022年4月19日、ユーザーの属性情報や行動情報などを分析するデータベース(DB)である「楽天スーパーDB」の稼働環境に、米Google(グーグル)のクラウドサービス「BigQuery」を採用したと発表した。これまでオンプレミス環境のデータウエアハウス(DWH)で管理していた数ペタバイト級のデータを、クラウド上のDWHサービスであるBigQueryに移行する。 楽天スーパーDBとは、同社が世界中で展開する70以上のサービスを使うユーザーの情報を分析する巨大なDBだ。グループ共通IDである「楽天ID」のアカウント数は、日本国内で1億を超える。蓄積した情報は、サービスのパーソナライズ機能やレコメンデーション機能、行動ターゲティング広告機能などに使用している。 日経クロステックの取材に応じた

                                                        楽天グループが数ペタバイト級の会員分析DBを刷新、Google BigQueryを選んだわけ
                                                      • DeNAがデータプラットフォームで直面した課題と克服の取り組み. はじめに | by Ryoji Hasegawa | DeNAデータ分析ブログ | Medium

                                                        はじめにこんにちは。この記事はDeNAの小口(Rikiya Oguchi)と長谷川(Ryoji Hasegawa)がお届けします。 小口はゲーム事業部の分析部データエンジニアリンググループの所属で、長谷川は全社共通部門である分析推進部の所属です。ゲーム事業部と全社部門で所属は違いますが、近しいミッションのもと、普段から密に連携して仕事をしています。 DeNAでは現在、データプラットフォームの刷新を進めています。この記事では、そのプロジェクトについて、以下の流れでご紹介します。 現行データプラットフォームの背景と概要データプラットフォーム構築後の環境変化現行データプラットフォームが抱える課題現行組織が抱える課題データプラットフォームの刷新刷新後のシステム構成組織体制の刷新我々と同じようにデータプラットフォームの構築・運用に携わっている方々や、データプラットフォームを利用されている方々、特に、

                                                          DeNAがデータプラットフォームで直面した課題と克服の取り組み. はじめに | by Ryoji Hasegawa | DeNAデータ分析ブログ | Medium
                                                        • Amazon Elastic MapReduce (EMR) ではじめる Presto/Trino 入門

                                                          Presto/Trino 1は日本語の入門書がなく、「Presto/Trino を運用することになったけど何から勉強すれば良いかわからない><」という人も多いのではないかと思います。そこで、Presto/Trino を運用する時にこの辺の内容を知っていれば、よりスムーズにキャッチアップできたかなぁと思うことをまとめてみました。 Hive connector を使いたいので、Hive と Presto の環境構築をサクッと行える Amazon Elastic MapReduce (以降 EMR) で実際に手を動かせればと思います。 以降 Presto/Trino ではなく Presto と表記しますが、Trino は元々同じソフトウェアであるため、Trino でも当てはまる内容がほとんどのはずです。 なお、Presto のバージョンは 2019-03-13 時点で最新の EMR 5.21.0

                                                            Amazon Elastic MapReduce (EMR) ではじめる Presto/Trino 入門
                                                          • データ基盤の3分類と進化的データモデリング #DPCT / 20190213

                                                            Data Pipeline Casual Talk (データパイプラインに関する知見をカジュアルに語る会) の発表資料です。 https://dpct.connpass.com/event/114040/ データ基盤の3分類と進化的データモデリング - 下町柚子黄昏記 http://yuzutas0.hatenablog.com/entry/2018/12/02/180000

                                                              データ基盤の3分類と進化的データモデリング #DPCT / 20190213
                                                            • ぐるなびデータ基盤の運用について - ぐるなびをちょっと良くするエンジニアブログ

                                                              はじめまして。データマネジメントグループ DMPチームの瀧澤と申します。趣味は映画鑑賞と自宅のスマートホーム化です。 ぐるなびではデータ基盤の構築・運用を担当しています。 今回は私が運用しているデータ基盤環境の概要や導入経緯、運用のTipsをご紹介させていただこうと思います。 ぐるなびでの導入経緯 過去環境からの変遷 現データ基盤環境の概要 Hadoopのエコシステムを利用 他システムとの連携 気軽に分析・集計ができる検証環境 構築作業説明 エコシステムバージョンアップ 注意した点〜入念にテストを実施 マスターノード移行 注意した点 構築作業でハマった箇所 Hiveのバージョンアップに伴うバッチ動作確認 Hiveの認証方式廃止問題 権限付与 なりすまし機能 コマンド 日々の運用 クラスタの運用について 自作のコンフィグ自動更新ツールによってファイル展開を容易にする 今後の展開 今後の環境

                                                                ぐるなびデータ基盤の運用について - ぐるなびをちょっと良くするエンジニアブログ
                                                              • Preferred Networks におけるHadoop - Preferred Networks Research & Development

                                                                Preferred Networks (以下PFN)では、「現実世界を計算可能にする」「全てのひとにロボットを」という目標のもと、機械学習を始めとしたあらゆる計算技術を用いて研究開発に日々取り組んでいます。その過程では必ずといっていいほど、データの保存や読み出しが必要になります。ここでは、我々がどのようにデータ管理をしているか、また、その過程でどのようにHadoopを利用しているかについて紹介したいと思います。 写真: PFNカラーリングのストレージサーバー Hadoop導入の経緯 Hadoopが多く利用されているようなログ分析や、エンタープライズ向けのETL処理やデータサイエンスに比べると、深層学習の分野でよく利用されているような規模のデータは比較的小さいです。よく画像認識のベンチマークとされるImageNetの2012年のコンペで利用されたデータセットは200GB程度です。これはそもそ

                                                                  Preferred Networks におけるHadoop - Preferred Networks Research & Development
                                                                • Hadoop is Dead. Long live Hadoop の所感

                                                                  数年前から「Hadoopは終わった」と言われることがあります。 厳密なHadoopの定義は Apache Hadoop プロジェクトを指しますが、現在では異なる意味で使われていることも多いです。では、Hadoopは時代と共に消えたソフトウェアなのでしょうか? @shiumachiの「Hadoopの時代は終わった」を正しく理解するの記事は、Hadoopを取り巻く環境の変化について書かれています。データ基盤の歴史に始まり、時代とともに変化し、現代におけるデータ基盤になっているという考察があり必見です。 Hadoop is Dead. Long live Hadoop. Arun C Murthy (Hortonworksの創業者であり、現在ClouderaのCPO)が本日公開したブログ、「Hadoop is Dead. Long live Hadoop」では、Hadoopは哲学(”Hadoop

                                                                    Hadoop is Dead. Long live Hadoop の所感
                                                                  • AWS Outpostsで実現するオンプレデータレイク - NTT Communications Engineers' Blog

                                                                    はじめに こんにちは、イノベーションセンターの鈴ヶ嶺です。普段はクラウドサービスをオンプレ環境でも同様のUI/UXで使用を可能とするハイブリッドクラウド製品の技術検証をしています。 NTT Comでは以下の過去の記事のように、AWSのハイブリッドクラウドソリューションAWS Outposts ラックの導入や技術検証を進めています。 engineers.ntt.com engineers.ntt.com engineers.ntt.com 本記事では、AWS Outpostsで実現するオンプレ環境におけるデータレイクのユースケースについて紹介します。 データレイクとは構造化データ、非構造化データに関わらず全てのデータを一元的に保存可能なストレージを意味しています。 このユースケースにより、低遅延性が求められる、もしくは秘匿性の高い大規模なデータをオンプレ環境で一元的に取り扱うことが可能となり

                                                                      AWS Outpostsで実現するオンプレデータレイク - NTT Communications Engineers' Blog
                                                                    • Java11へのマイグレーションガイド ~Apache Hadoopの事例~

                                                                      BigtopでHadoopをビルドする(Open Source Conference 2021 Online/Spring 発表資料)

                                                                        Java11へのマイグレーションガイド ~Apache Hadoopの事例~
                                                                      • データエンジニアリング関連ソフトウェアの障害対応事例 - LINE ENGINEERING

                                                                        上記の通り、フェイルオーバー発生直前には RegistryAdminService という名前の thread が、全 thread 数のほとんど (97.6 %) を占めていたことがわかりました。 1-8. RegistryAdminService Thread 今度は、「この RegistryAdminService thread はどのようなものであるのか」を確認することにしました。この名前の thread は RMRegistryService クラスにおいて、以下のいずれかのイベントハンドリング処理で生成されることがわかりました。 RMStateStore への Application 情報の登録時( eventType = RMStateStoreEventType.STORE_APP のイベント発生時)に、 RegistryAdminService thread を生成して、

                                                                          データエンジニアリング関連ソフトウェアの障害対応事例 - LINE ENGINEERING
                                                                        • データドリブンなサービスを支えるネットワークの作り方〜 ヤフーのデータセンターネットワーク紹介

                                                                          ヤフーのプロダクションネットワークの設計・構築・運用を担当している津秦です。 ヤフーではオンプレミスで大量に物理サーバーを導入し、社内向けプライベートクラウドや、データ分析基盤などに利用しております。もちろんそのサーバーを接続するためのネットワークも、自分たちで設計・構築・運用を行っております。 今回はデータセンター内ネットワークの中でも、最近取り入れているClosネットワークというものに着目して、ヤフーのデータセンターネットワークをご紹介したいと思います。 なお、大量に物理サーバーを導入する点では、昨年末に同じくインフラを担当する藤見から、サーバーの調達に関する取り組みを紹介しました。合わせて参照いただければ、ヤフーのインフラ部門の取り組みに、より触れていただけるのではないかと思います。 大規模オンプレミスなヤフーのサーバーインフラの裏側 〜 サーバー調達や運用の流れを紹介します 「No

                                                                            データドリブンなサービスを支えるネットワークの作り方〜 ヤフーのデータセンターネットワーク紹介
                                                                          • Apache Ozoneをやっていた一年 - Preferred Networks Research & Development

                                                                            Why Apache Ozone? これまでPFNでは増え続けるデータやユースケースに対応するために、スケールアウト可能なストレージシステムをずっと模索し続けてきました。シミュレーションを基軸とした戦略を採用した[1]ことによりデータ量はさらに増加し、データ保管システムの重要性は高まっています。 Preferred Networks におけるHadoop – Preferred Networks Research で解説した基本的な要件は今でも変わっていませんが[2]、現在メインのシステムとして運用している Hadoop (HDFS) にはいくつかのシステム運用上の課題があります。たとえば、一番大きなHadoopクラスタは現時点で物理的に10PB近くのディスク容量を持っていますが、Ubuntu 16.04で動作しています。OSのバージョンアップを伴うクラスタのIn-placeなアップグレー

                                                                              Apache Ozoneをやっていた一年 - Preferred Networks Research & Development
                                                                            • HadoopからDocker、そしてKubernetesの登場 分散システムの歴史を紐解く - ログミーTech

                                                                              2018年3月23日から24日にかけて、レバレジーズ株式会社が主催する国内最大級のエンジニア向け技術イベント「MANABIYA -teratail Developer Days-」が開催されました。同社が運営するITエンジニア向けのQ&Aフォーラム「teratail」の中で解決できない問題を解くため、一流エンジニアたちが一同に会して、プレゼンテーションやパネルディスカッションを行いました。トークセッション「分散処理とコンテナ化インフラの面白い関係」では、Treasure Dataの田籠聡氏が登場。HadoopからDocker、Kubernetesの登場まで、コンテナや分散処理が用いられるモダンシステムの潮流と、その問題点を語ります。 2006年、Hadoop黎明期とその衝撃 ここからはちょっと歴史の話です。タイムラインとしてはおおむねこんな感じです。 2003年から2018年、つまり今日ま

                                                                                HadoopからDocker、そしてKubernetesの登場 分散システムの歴史を紐解く - ログミーTech
                                                                              • JVM Profiler: An Open Source Tool for Tracing Distributed JVM Applications at Scale

                                                                                JVM Profiler: An Open Source Tool for Tracing Distributed JVM Applications at Scale Computing frameworks like Apache Spark have been widely adopted to build large-scale data applications. For Uber, data is at the heart of strategic decision-making and product development. To help us better leverage this data, we manage massive deployments of Spark across our global engineering offices. While Spark

                                                                                  JVM Profiler: An Open Source Tool for Tracing Distributed JVM Applications at Scale
                                                                                • Hadoop環境のクラウド移行 | BLOG - DeNA Engineering

                                                                                  IT基盤部の nodoka です。 私の業務はWebサービスの運用が中心でしたが、数年前からHadoopを中心とした分散基盤環境のインフラも見るようになりました。 当初は巨大なHadoop環境の管理を体系化して引き継ぐことと、運用における属人性を排除することが喫緊の課題でした。 それが落ち着くと、ご多分に漏れずクラウド化を検討・推進するようになったので、その流れをまとめてみようと思います。 DeNAのHadoop環境と改善策 Hadoopが抱える課題 GCPへの移行 embulk利用におけるTips DeNAのHadoop環境と改善策 DeNAにおけるHadoop環境の歴史は古く、DeNAのほとんどのサービスが利用しています。 各サービスでは分析したいログやDBのスナップショットをHadoopのファイルシステムであるHDFSに一旦置きます。 そのHDFSに置かれたファイル群をHadoopを

                                                                                    Hadoop環境のクラウド移行 | BLOG - DeNA Engineering

                                                                                  新着記事