タグ

関連タグで絞り込む (242)

タグの絞り込みを解除

hadoopに関するwasaiのブックマーク (273)

  • 「Hadoopの時代は終わった」の意味を正しく理解する - 科学と非科学の迷宮

    Hadoopの時代は終わった、という言説をたまに見かけるようになりました。 もちろん終わってなどいません。しかし、Hadoopとその取り巻く環境が変化したのは事実です。 記事では、この変化が何なのかを明らかにし、その上で、なぜHadoopの時代は終わったという主張が実態を正しく表していないのかを説明していきます。 DISCLAIMER 私はHadoopを中心としたデータ基盤を取り扱うベンダー、Clouderaの社員です。 中立的に書くよう努めますが、所属組織によって発生するバイアスの完全な排除を保証することはできません。 以上をご了承の上、読み進めてください。 要約 データ基盤は、Hadoopの登場により非常に安価となり、今まででは不可能だった大量のデータを取り扱えるようになりました。 Hadoopは、NoSQLブームの中、処理エンジンであるMapReduceとストレージであるHDFSが

    「Hadoopの時代は終わった」の意味を正しく理解する - 科学と非科学の迷宮
  • (日本語)Hadoopは失敗した、という分析

    Datanami社によるデータベース専門家とのインタビューの結果によると、Hadoopを採用したい企業の多くは、失敗プロジェクトに終わっている、と指摘している。 Snowflake Computing社CEO, Bob Muglia氏によると、今までHadoopを採用してい幸せになった企業はみた事が無いし、今後も出てくるような気配が無い、と言い切っている。 すでに、Hadoopは多くの企業で使われ...

    (日本語)Hadoopは失敗した、という分析
    wasai
    wasai 2017/03/29
  • リクルート全社検索基盤のアーキテクチャ、採用技術、開発体制はどうなっているのか

    リクルート全社検索基盤のアーキテクチャ、採用技術、開発体制はどうなっているのか:Elasticsearch+Hadoopベースの大規模検索基盤大解剖(1)(1/2 ページ) リクルートの事例を基に、大規模BtoCサービスに求められる検索基盤はどう構築されるものなのか、どんな技術が採用されているのか、運用はどうなっているのかなどについて解説する連載。初回は全体的なアーキテクチャ、採用技術、開発体制について。 連載目次 大規模BtoCサービスで求められる検索基盤は、どうあるべきなのか カスタマー(消費者)が求めるものが日々変わっていく現在において、BtoCの検索基盤はどうあるべきなのでしょうか。 例えば、リクルートで使われている検索基盤の「Qass(Query analyze search system)」は単に全文検索機能を提供するのではなく、以下を軸としています。 サービスごとに最適化され

    リクルート全社検索基盤のアーキテクチャ、採用技術、開発体制はどうなっているのか
  • 第1回 なぜ、Hadoopはどのように動くのか、を学ぶのか | gihyo.jp

    はじめに ビッグデータ解析のためのシステム基盤として、Hadoopをはじめとするオープンソースのデータ処理ソフトウェア(データ処理系)が広く利用されつつありますが、当該データ処理系をすでに利用している、もしくは利用の検討をしている読者の方々の中には、たとえば以下のような問題を抱えている方が少なからずいらっしゃるのではないでしょうか。 データ処理系の使い方はなんとなくわかるが、その内部をあまり理解できていない。または、内部の動作原理がよくわからないので、格的に使う気にならない。 同様の目的を達成する複数のデータ処理系において、どれを使って良いかがよくわからない。または、適切に使い分けられていない気がする。たとえば、どのような場合にHadoopを用いて、どのような場合に同類のデータ処理系であるImpalaやSparkを用いれば良いかが“⁠明確に⁠”わからない。 このような問題を解決するには、

    第1回 なぜ、Hadoopはどのように動くのか、を学ぶのか | gihyo.jp
  • NTT、NTTデータの技術者3名がHadoopコミッタに就任 ─日本企業からは初 | gihyo.jp

    電信電話(⁠株⁠)(⁠NTT)および(⁠株⁠)NTTデータは12月18日、並列分散処理を実現するオープンソースソフトウェアApache Hadoopおよびその関連のプロジェクトのコミッタに同社所属の3名のエンジニアが就任したことを発表した。 このほどHadoopのコミッタに就任したのは、NTTソフトウェアイノベーションセンタの小沢健史氏、およびNTTデータ 基盤システム事業部の鯵坂明氏、岩崎正剛氏の3人。鯵坂氏、小沢氏はHadoop体の、岩崎氏はHadoopのプロファイリングツールであるHTraceのコミッタとなる。 コミッタとは、Hadoopの開発やメンテナンスにおいて、プログラムを書き換える権限(コミット権)を持つ主要開発者のことで、現在、Hadoopの開発者として全世界で活躍する約3,000人(コントリビュータ)のうち、コミッタは約100人(2014年12月現在⁠)⁠。Had

    NTT、NTTデータの技術者3名がHadoopコミッタに就任 ─日本企業からは初 | gihyo.jp
  • Strata + Hadoop World 2014 in NYC に参加してきた。 - 双六工場日誌

    2014/10/15-17の日程で開催された「Strata + Hadoop World 2014」に参加してきたので、見たセッションとざっくりとした感想をメモ。 発表者の録画ビデオやスライドはこちらにあるので、詳細が知りたい方はこちらへ。現時点では、スライドやビデオがないセッションも結構ありますが。 Speaker Slides & Video: Strata + Hadoop World 2014 - O'Reilly Conferences, October 15 - 17, 2014, New York, NY 今回Strata + Hadoop Worldのセッションは、以下のテーマにわかれていました。 Business & Industry Data Science Data-Driven Business Day Design & Interfaces Hadoop & Be

    Strata + Hadoop World 2014 in NYC に参加してきた。 - 双六工場日誌
  • Hadoop Conference Japan 2014に参加してきました | DevelopersIO

    7/8(火)に開催されたHadoop Conference Japan 2014に参加してきました。 【キーノート】 濱野 賢一朗 (日Hadoopユーザー会, NTTデータ) 実際には私用で10:30ぐらいから参加したので聞いていないのですが、ハッシュタグ#hcj2014をたどる限り今回は参加者が1296名で、初参加が65%だったそうです。新規に参加される方が半分以上というのは裾野が広がったということなんでしょうか? Doug Cutting (Hadoop生みの親, Apache Software Foundation, Clouderar 『The Future of Data』 途中から聞いたのですが、恐らくThe Future of Data | Cloudera VISIONに書かれている内容を話していたようです。 オープンソースの勝利という部分は相当熱く語っていたようで、T

    Hadoop Conference Japan 2014に参加してきました | DevelopersIO
    wasai
    wasai 2014/07/10
  • 日本よ、これが2014年のHadoopだ!─「Hadoop Conference Japan 2014」基調講演レポート | gihyo.jp

    よ、これが2014年のHadoopだ!─「Hadoop Conference Japan 2014」基調講演レポート 7月8日、東京・ベルサール汐留において「Hadoop Conference Japan 2014(主催: 日Hadoopユーザ会⁠)⁠」が開催されました。2009年の初開催以来、今回で5回目となる同カンファレンスですが、今回の参加登録者数約1,300名のうち、65%(約840名)が初参加とのこと。「⁠Hadoopの裾野の拡がりを確実に感じる」(⁠NTTデータ 濱野賢一朗氏)との言葉通り、HadoopもHadoopユーザもこの5年で大きく変化を遂げていることを示したカンファレンスとなりました。 基調講演会場の模様。今回のテーマは「和風⁠」⁠、来場者には扇子が配られ、登壇者は障子をバックにはっぴ姿で講演を行いました 稿では基調講演の内容をもとに、最初に公開されてから10

    日本よ、これが2014年のHadoopだ!─「Hadoop Conference Japan 2014」基調講演レポート | gihyo.jp
    wasai
    wasai 2014/07/09
  • http://blog.yoslab.com/entry/2014/07/08/135917

    http://blog.yoslab.com/entry/2014/07/08/135917
    wasai
    wasai 2014/07/08
  • データセンター技術への投資としては「過去最大」:米インテルがクラウデラに出資、Hadoopディストリビューション「CDH」へ統合 - @IT

    米インテルがクラウデラに出資、Hadoopディストリビューション「CDH」へ統合:データセンター技術への投資としては「過去最大」 米インテルは2014年3月27日、Apache Hadoopディストリビューションプロバイダーの米クラウデラ(Cloudera)への出資を発表した。インテルのHadoopディストリビューションは、クラウデラの「Cloudera's Distribution including Apache Hadoop」(CDH)に統合する予定だ。 米インテルは2014年3月27日、Apache Hadoopディストリビューションプロバイダーの米クラウデラ(Cloudera)への出資と、広範な戦略提携を発表した。インテルは同社の筆頭戦略株主となり、取締役に就任する。 クラウデラへの出資は、インテルがデータセンター技術に行う投資としては過去最大級。Hadoopをベースとするクラウ

    データセンター技術への投資としては「過去最大」:米インテルがクラウデラに出資、Hadoopディストリビューション「CDH」へ統合 - @IT
  • TechCrunch | Startup and Technology News

    Generative AI improvements are increasingly being made through data curation and collection — not architectural — improvements. Big Tech has an advantage.

    TechCrunch | Startup and Technology News
  • SQL感覚でHiveQLを書くと痛い目にあう例 - still deeper

    Hadoop Advent Calendar 2013 4日目の記事です tl;dr explainとjob historyを読め 1 reducerは悪 data skewは悪 前書き みんな大好きSQLでHadoop上での処理を実行できるHiveにはみなさん普段からお世話になっていることでしょう。ちょっと調べ物でググる度に目に入る愛らいしいマスコットが、荒んだ心に清涼な風をはこんでくれます。 ですがHiveのクエリ言語はSQLではなくHiveQLですし、実行エンジンもRDBのそれとは全く異なるMapReduceです。SQLのつもりでHiveQLを書いていると地雷を踏んでしまうことがまれによくあります。エントリでは陥りがちなHiveQLの落とし穴を2つ紹介します。 例1 SELECT count(DISTINCT user_id) FROM access_log SQLに慣れた方であれ

  • Windows Azure上のHadoopサービス「HDInsight」が正式公開。Excelからも利用可能

    Windows Azure上のHadoopサービス「HDInsight」が正式公開。Excelからも利用可能 3月からパブリックプレビューが続いていた、Windows AzureのクラウドでHadoopクラスタが利用可能なサービス「Windows Azure HD Insight」が正式公開されました。 HDInsightは、Hadoopの有力なディストリビューションベンダの1つであるHortonworkの「HDP for Windows」をWindows Azureで展開したサービス。Hive、Pig、Sqoop、Oozieなどの機能も含まれています。 通常のMapReduceアプリケーションを利用してHDInsightを使うだけでなく、ExcelとHDInsightを接続して利用することも可能。「Hive ODBC Driver for HDInsight」を用いてODBCドライバ経由

    Windows Azure上のHadoopサービス「HDInsight」が正式公開。Excelからも利用可能
  • TechCrunch | Startup and Technology News

    Welcome back to TechCrunch’s Week in Review — TechCrunch’s newsletter recapping the week’s biggest news. Want it in your inbox every Saturday? Sign up here. Over the past eight years,…

    TechCrunch | Startup and Technology News
  • ログ解析環境についてなんとなく書いてみる - wyukawa's diary

    ふとログ解析環境についてなんとなく書いてみたくなったので書いてみる。 データサイエンティストブームなるものがあると思いますが、データサイエンティストって言ったときに、Hadoop/Hiveあたりを使ってデータをきれいに整理して分析しやすいように加工するデータエンジニア(某氏が命名)と加工されたデータを使って分析するアナリストの2種類いると思うんですよね。両方できればもちろん良いんですけどさすがにそれは難しいので分業が必要です。ただアナリストもHadoopの運用ができる必要性は低いと思いますがSQLは書けた方が良いとは思います。 ちなみに僕は仕事でログ解析周りを担当しており現状はアナリストではなくデータエンジニアですね。 KPIというか統計値は毎日レポーティングする仕組みは既にあるのですが新しい統計値を知りたいという要望もちょいちょいあります。 最近は自社サービスも安定して運用されているので

    ログ解析環境についてなんとなく書いてみる - wyukawa's diary
  • 『HBaseCon2013参加レポート(後編)』

    General Sessionの中で出てきたHBaseエコシステムに触れると、今年のHBaseConのセッションのいくつかを紹介できるのでまずHBaseエコシステムについて書きます。 Hadoopエコシステムの1つとしてHBaseがあるわけですが、そのHBase自身のエコシステムも発展してきています。まず、SQLライクなクエリでHBaseにアクセスできるオープンソースプロダクトとして、ClouderaのImpala、SalesForceのPhoenix、Apache Drillといったものがあります。今回それぞれカンファレンスでセッションがありました。 Impala はデータサイエンティストがHadoop上のデータをインタラクティブに解析できることを目指したクエリエンジンで、HBase・HDFSの両方をサポートしています。高速に動作するようC++で開発されており、クエリがHiveQLがベ

    『HBaseCon2013参加レポート(後編)』
  • 『HBaseCon2013参加レポート(前編)』

    2013年6月13日に開催されたHBaseCon2013に参加してきましたのでレポートさせていただきます。HBaseConは、Apache HBaseの貢献者、開発者、管理者およびユーザのためのコミュニティイベントで、年1回開催されています。 今回はサンフランシスコのマリオット・マーキースホテルが会場で、講演は4トラック構成になっており、参加者は興味のあるものを選択して聴講していきます。 それでは、早速セッションの紹介に移りたいと思います。私は、Facebook、Yahooの中の人のセッションを紹介します。長文ではありますが、とても興味深い内容だと思いますので、是非最後までご覧ください。 HBase use cases at Facebook Liyin Tang, Software Engineer, Facebook & HBase PMC Member Facebookは、大規模なデ

    『HBaseCon2013参加レポート(前編)』
  • MongoDBがHadoopとの統合強化。HiveでMongoDBデータへSQL問い合わせ可能、BSONをHDFS上に保存など

    Integration of Hadoop and MongoDB, Big Data’s Two Most Popular Technologies, Gets Significant Upgrade | 10gen, the MongoDB company MongoDB Connector for Hadoopは、Hadoopへの入出力データとしてMongoDBを使えるようにするソフトウェアで、新バージョンでは主に以下の機能が追加されています。 Apache HiveからMongoDBのデータへSQLライクな問い合わせ インクリメンタルなMapReduceジョブのサポートによる、アドホックな分析を容易に実現 MongoDB BSONファイルをHadoop Distributed File System(HDFS)上に保存することで、データの移動を削減 これにより以下のようなメリットが

    MongoDBがHadoopとの統合強化。HiveでMongoDBデータへSQL問い合わせ可能、BSONをHDFS上に保存など
  • Hadoop 第3版

    の名前で親しまれる『Hadoop』の第3版の登場です。今回の改訂では、Hadoop 0.22系、2.x系の記述を大幅加筆。次世代Hadoopの特徴であるYARN(Hadoop 2.x系におけるジョブ実行フレームワーク)やMapReduce 2について詳述しました。Hadoop1.x(旧0.20)の情報もカバーしているので、これまでのバージョンを使う新旧のユーザに対応しています。第3版の日語版付録として、Clouderaの小林大輔氏による「最新の高可用性HDFSの紹介」を掲載。Hadoopの基礎から応用までを網羅し、最新の情報をカバーした書は、Hadoopに関心のあるすべての開発者必携の一冊です。 序 文 訳者まえがき はじめに 1章 Hadoop事始め 1.1 データ! 1.2 データの保管と分析 1.3 他のシステムとの比較 1.3.1 リレーショナルデータベース管理システム 1

    Hadoop 第3版
  • “シリコンバレーの技術者集団”ではトレジャーデータを見誤る (1/5)

    シリコンバレーの日人ベンチャーとして注目度の高いトレジャーデータのCTOである太田一樹氏とのインタビューが実現した。CEO芳川裕誠氏の家のベランダと熱海の温泉で始まった会社の起業物語やサービスのポイントなどを聞いた1時間のインタビューをほぼ加工なしで掲載する。 Hadoopのポテンシャルを感じ始めたときに声をかけてもらった TECH.ASCII.jp 大谷(以下、TECH 大谷):太田さんというと、Hadoopの人というイメージがありますが、そもそものバックグラウンドを教えてください。 トレジャーデータ 太田氏(以下、TD 太田):はい。もともと私のバックグラウンドはHPC(High Performance Computing)のエリアで、19歳くらいからあまり学校にも行かず(笑)、プリファードインフラストラクチャという会社のCTOをやらせていただきました。あと、米オレゴンの国立研究所で

    “シリコンバレーの技術者集団”ではトレジャーデータを見誤る (1/5)