タグ

hadoopに関するterurouのブックマーク (80)

  • 「Hadoopの時代は終わった」の意味を正しく理解する - 科学と非科学の迷宮

    Hadoopの時代は終わった、という言説をたまに見かけるようになりました。 もちろん終わってなどいません。しかし、Hadoopとその取り巻く環境が変化したのは事実です。 記事では、この変化が何なのかを明らかにし、その上で、なぜHadoopの時代は終わったという主張が実態を正しく表していないのかを説明していきます。 DISCLAIMER 私はHadoopを中心としたデータ基盤を取り扱うベンダー、Clouderaの社員です。 中立的に書くよう努めますが、所属組織によって発生するバイアスの完全な排除を保証することはできません。 以上をご了承の上、読み進めてください。 要約 データ基盤は、Hadoopの登場により非常に安価となり、今まででは不可能だった大量のデータを取り扱えるようになりました。 Hadoopは、NoSQLブームの中、処理エンジンであるMapReduceとストレージであるHDFSが

    「Hadoopの時代は終わった」の意味を正しく理解する - 科学と非科学の迷宮
  • 分散システム処理モデルに関する動向について(MapReduceからBorgまで)

    詳細については後述しますが、MapReduceの処理モデルは、上記の通り各区分ごとにそれぞれ単純化(限定)されたモデルであったと言えます。 また、MapReduceの関数プログラミングおよびグラフ的な特徴も合わせて以下に整理してみます。 関数プログラミング的な特徴 MapおよびReduceフェーズは、それぞれ関数型プログラミングのMapおよびReduce処理をモデル化したものです。MapReduceは、参照透過性がある純粋な関数処理と言えます。参照透過性とは入力により出力が一意に決まる性質のことです。言い換えればMapReduceの処理は、大域などの処理に影響する外部の環境は持たず、内部的にも静的な一時変数などの状態も持たないことを意味します。 純粋な関数処理は複数の処理が同時に実行されても他の並列に動作している処理の状態には左右されないため、この参照透過性は並列化に向いている性質がありま

    分散システム処理モデルに関する動向について(MapReduceからBorgまで)
  • Hadoop Operations #cwt2013

    #cwt2013 Clouderaの小林 @d1ce_ によるHadoop構築・運用のポイントについてのスライドを公開しました。2013年度版ハードウェア選定、HA構成の考え方から、実際にサポートで直面した事例についても紹介していますRead less

    Hadoop Operations #cwt2013
    terurou
    terurou 2014/10/20
    HDFSに単一障害点は無くなっている話
  • Cloudera

    Cloudera makes bold bet on strategic acquisition of Verta’s Operational AI Platform Read the blog

    Cloudera
  • Facebook、分散SQLエンジン「Presto」公開。大規模データをMapReduce/Hiveの10倍効率よく処理すると

    Facebookは、数ペタバイト級の大規模データに対しても、対話的にアドホックな問い合わせを可能にする分散SQLエンジン「Presto」を、オープンソースで公開しました。 PrestoはFacebook社内で大規模データの分析のために開発され、すでに同社社内使われているもの。 FacebookはPrestoを開発した背景として、大量のデータをHadoop/HDFSベースで保存したものの、バッチ指向のMapReduceではなく、リアルタイム性に優れた処理が必要になったためだと、次のように説明しています。 Facebook’s warehouse data is stored in a few large Hadoop/HDFS-based clusters. Hadoop MapReduce [2] and Hive are designed for large-scale, reliabl

    Facebook、分散SQLエンジン「Presto」公開。大規模データをMapReduce/Hiveの10倍効率よく処理すると
  • 「オンプレミス・システムの終わり」の始まり〜AWSでのミッションクリティカルシステムの稼働 - 急がば回れ、選ぶなら近道

    個人的には割と大変だったので、その辺をまとめておきます。 ニュースリリースはこちら。 http://www.nautilus-technologies.com/topics/20130409.html 要するに部系バックエンド基幹システムの「一式」のクラウド移行です。完全なミッションクリティカルシステムで、止まった段階で業務に確実に影響が出ます。 システムの機能概要 1.売上の確定処理と債権管理 POSデータの直結です。売上確定処理を行います。同時に債権管理も行い、F/Bからの入金データをそのままつなぎ込み、入金処理・債権の消し込み処理を実行します。マッチングは自動処理できるものは処理を行い、ヒューリスティックなものはユーザー判断に従います。 2.仕入・費用の計上と確定処理、および支払いデータの作成 費用・在庫の計上確定処理です。当時に支払データの確定処理を行います。EDI(BMS)との

    「オンプレミス・システムの終わり」の始まり〜AWSでのミッションクリティカルシステムの稼働 - 急がば回れ、選ぶなら近道
    terurou
    terurou 2013/04/14
    「フロント画面はJavaScript。バッチ系はかなりサクッといったのですが、画面系は大苦戦でした。jsはもう少しなんかとしないと、まじでこの世から消えてほしいと関係各者全員が思ったと思います。」
  • 世界初! Hadoopとの連携を実現したCOBOL「NetCOBOL V10.5」を販売開始 : 富士通

    PRESS RELEASE 2012年12月5日 富士通株式会社 世界初! Hadoopとの連携を実現したCOBOLNetCOBOL V10.5」を販売開始 並列分散処理により、バッチ処理時間を従来の約18分の1に短縮 当社は、COBOLバッチアプリケーションをApache Hadoop(注1)で並列分散処理し、バッチ処理時間を大幅に短縮する機能を追加したCOBOL開発・運用ソフトウェア「NetCOBOL V10.5」を、日より販売します。 製品は、Hadoopとの連携を実現した世界初(注2)のCOBOL開発・運用ソフトウェアです。「NetCOBOL」で開発したバッチアプリケーションや他社のCOBOLで開発されたバッチアプリケーションを、再コンパイルによりHadoopで並列分散処理できるため、お客様は既存のCOBOLデータやアプリケーションに手を加えることなく、バッチ処理時間を大幅に

    世界初! Hadoopとの連携を実現したCOBOL「NetCOBOL V10.5」を販売開始 : 富士通
    terurou
    terurou 2012/12/05
    ほんとに書いてある通りに動いてくれるならすごい
  • Cloudera Impala発表資料 | 外道父の匠

    11/26 の『Hadoopソースコードリーディング 第13回』でCloudera Impalaの発表をしてきました。 きっかけはTwitter上で、ビールの化身 も◯す の外道父を呼べば?から始まって、1分かからず依頼ツィートが飛んできて引き受けた感じで、Twitterで数分で全てが完結する非常にフットワークの軽い業界になります。 それでは、発表資料や補足などを書いていきます。 リンク Eventbrite : Hadoopソースコードリーディング 第13回 Twitter #hadoopreading togetter : Hadoopソースコードリーディング 第13回 まとめ Inside Impala Coordinator at HSCR 13th – Go ahead! by @repeatedly Inside Impala -Query Exec Engine- by @o

    Cloudera Impala発表資料 | 外道父の匠
  • Microsoft – クラウド、コンピューター、アプリ & ゲーム

    すべての Microsoft 製品 Global Microsoft 365 Teams Copilot Windows Surface Xbox セール 法人向け サポート ソフトウェア Windows アプリ AI OneDrive Outlook Skype OneNote Microsoft Teams PC とデバイス Xbox を購入する アクセサリ VR & 複合現実 エンタメ Xbox Game Pass Ultimate Xbox とゲーム PC ゲーム Windows ゲーム 映画テレビ番組 法人向け Microsoft Cloud Microsoft Security Azure Dynamics 365 一般法人向け Microsoft 365 Microsoft Industry Microsoft Power Platform Windows 365 開発者

    terurou
    terurou 2012/10/25
    .NETでHadoop。デーモン側はJVMからCLR呼ぶ実装になってんのかな?
  • 業務系処理の分散処理の実行基盤について(Asakusa0.2.6) - 急がば回れ、選ぶなら近道

    Asakusa supports for the multi-clusterというお話で、多分解説がいるので書いておく。公式に書くものではない、という意見も強いので、ここで書く。先日のSIGMOD日支部のMtgでも発表した内容ともかぶりますが。 具体的にはここで http://asakusafw.s3.amazonaws.com/documents/0.2/release/ja/html/yaess/multi-dispatch.html いろいろ細かい内容は以下を参照で。 「AsakusaFW0.2.6の見どころ」 http://blog.goo.ne.jp/hishidama/e/2ba82d5ad404000de52d1a4029eb7346 まず、前提として現在のAsakusaは業務処理のバッチ処理、特に非同期処理を対象している。その上で実際に使われているし、SIも行われている。

    業務系処理の分散処理の実行基盤について(Asakusa0.2.6) - 急がば回れ、選ぶなら近道
    terurou
    terurou 2012/06/11
    「分散環境が普通に使われるようになってくると、ある程度「透過的に」分散環境と単独環境を意識せずに利用することが必要になってくる」
  • ノーチラス、Hadoopディストリビューションの商用サポートを開始

    ノーチラス・テクノロジーズは2011年12月13日、同社が開発する「Hadoop」向けのアプリケーションフレームワーク「Asakusa Framework」の顧客に対して、Hadoopの商用サポートを提供するというサービス「Asakusaサポート・プラス」を開始した。ディストリビューションには、米クラウデラの「Cloudera’s Distribution including Apache Hadoop(CDH)」を使用する。 Asakusaは、基幹系のバッチ処理をHadoopを使って実現するためのオープンソースのアプリケーションフレームワーク(関連記事:Hadoop向け基幹バッチ分散処理ソフト「Asakusa」の全貌)。ノーチラス・テクノロジーズは2011年10月からAsakusaの商用サポート「Asakusa Enterprise Support」などを始めている。「顧客から、Asak

    ノーチラス、Hadoopディストリビューションの商用サポートを開始
  • Twitter、分散リアルタイム処理システム「Storm」公開 | gihyo.jp

    2011年9月18日、Twitterは分散リアルタイム処理システム「Storm」をオープンソースで公開しました。より正確に言うと、2011年7月に買収されたBackTypeのメンバーが買収以前より開発を進めていたものです。BackTypeはTwitterのつぶやきを解析するシステムを開発していたスタートアップ企業でHadoopのヘビーユーザでもありましたが、リアルタイム性の問題点を解消すべくStormの開発に至ったようです。ちなみに同じオープンソースの分散リアルタイム処理システムとして米Yahoo! が「S4」を公開していますが、Stormはデータを処理する信頼性の高さやAPIのシンプルさに違いがあります。 StormのアーキテクチャはHadoopと似通っており、クラスタはMaster-Workerパターンに基づいています。Masterノードには「Nimbus⁠」⁠、Workerノードには

    Twitter、分散リアルタイム処理システム「Storm」公開 | gihyo.jp
  • Mapreduce2.0 - 急がば回れ、選ぶなら近道

    次世代Hadoopの開発が進んでいる。現状の推移では、少なくとも分散クラウドでの「OSSインフラ」としてはHadoopが最有力候補であることは間違いない。クラウド上での分散処理基盤での技術競争ではGoogleAmazonが相当抜きんでいる現在、それに対抗しうる可能性があるOSSはHadoopの潮流の延長線上にしか考えられない。その形としてHadoop-MapReduce2.0があるように見える。現在の状態で自分なりの次世代Hadoopの理解をまとめておく。基的に全部は見切れていないので、そのあたりはあしからず。基的に次世代Hadoopの仕組みは大きく二つの要素からなる 現在のところの柱はHDFSとMapreduce2.0の二つだ。 まずMapReduce。これは従来の「MapReduce」というものからはほど遠い。むしろ「任意」の分散処理実行フレームワークにたいして、適切なリソースを

    Mapreduce2.0 - 急がば回れ、選ぶなら近道
  • Asakusa Framework

    Asakusa Frameworkとは、Hadoop上で大規模な基幹バッチ処理を行うためのフレームワークです。 大容量データを多数のサーバーに分散し、並列処理させることで高速なデータ処理を実現しています。 基幹バッチシステムに必要な開発環境・実行環境・運用環境を実装しているため、Asakusa Frameworkを使えば、 複雑な業務処理もHadoopを意識せずに開発可能です。 2019年12月18日 Asakusa Framework 0.10.4 リリース Asakusa Framework 0.10.4 リリース リリースの概要は以下のとおりです。 Asaksua Gradle Pluginが追加するMavenリポジトリのプロトコル変更 Asaksua Gradle Pluginがプロジェクトに対して追加するMavenリポジトリのURLプロトコルを http: から https:

  • SNA Projects Blog : Tech Talk: Michael Deerkoski (Flickr) — “Continuous Deployment at Flickr”

    Hire the best. At 10x the speed.Hire the best. At 10x the speed.Screen and interview candidates 10x faster with MOPID AI Recruiter that saves upto 80% of your time and resources. Hiring 100+ positions? Try⚡Blitzhiring⚡for a change!Hiring 100+ positions?Try ⚡Blitzhiring⚡ for a changeWe get it. Large scale hiring costs a lot. What if you could hire the perfect talent AND save up to 80% resources? We

    SNA Projects Blog : Tech Talk: Michael Deerkoski (Flickr) — “Continuous Deployment at Flickr”
    terurou
    terurou 2011/09/26
    "Azkaban is simple batch scheduler for constructing and running Hadoop jobs or other offline processes." LinkedIn製らしい。
  • 富士通がビッグデータ分析・活用向けのPaaSサービス

    富士通は2011年8月30日、企業が大量のデータを分析・活用するための基盤サービス「コンバージェンスサービス・プラットフォーム(CSPF、仮称)」を発表した。PaaS(Platform as a Service)の形態で提供する。 故障感知や利用状況分析、「誰も考えつかなかった用途」も CSPFは大きく次の3つの機能群で構成する。1つ目が、センサー技術などを使って企業活動や社会活動、環境の動きをデータ化し蓄積する「センシング」機能群。2つ目が、取得したデータを分析して企業や社会にとって有意義なルールや将来予測を引き出す「コンテキスト抽出」機能群。3つ目が、ルールや将来予測に基づいて機器やサービスを自動制御したり、人間に推薦情報(レコメンド)を出したりする「ナビゲーション」機能群、である。企業はこれらの機能群を使いながら、CSPF上にアプリケーションを開発する。 富士通は記者向け発表会で、製

    富士通がビッグデータ分析・活用向けのPaaSサービス
  • 1台のマシンの性能劣化への対策(HBase)

    メールアドレスがこのグループでは匿名化されているか、メンバーのメールアドレスを表示する権限がないため、元のメッセージを表示できません 落合と申します。 HBaseを使っていた際に、 1台のマシンの性能劣化で書き込み速度が大幅に劣化する問題が起こりました。 このような問題が設定で回避可能か、 ご教示いただけますでしょうか。 構成: ZooKeeper用サーバ(ZooKeeper) 1台 Masterサーバ(NameNode, JobTracker, HBaseMaster) 1台 Slaveサーバ(DataNode, TaskTracker, HRegionServer) 6台 1台のSlaveサーバに発生した問題: Slaveのうち1台だけ、 Masterからのpingの応答が、0.45ms ほどかかっていることを確認しました。 他のSlaveへのpingの応答は、0.15ms で、約3倍

    terurou
    terurou 2011/07/19
    1台のサーバのトラブルで全体のスループットが落ちる。現状はサーバを監視して手動で殺してあげるしか方法がなさげ
  • ヤーウエ、いと高き神からの 日本へのメッセージ

  • Hadoopが好きだ

    メールアドレスがこのグループでは匿名化されているか、メンバーのメールアドレスを表示する権限がないため、元のメッセージを表示できません 諸君、私はHadoopが好きだ 諸君、私はHadoopが好きだ 諸君、私はHadoopが大好きだ MapReduceが好きだ HDFSが好きだ Pigが好きだ ZooKeeperが好きだ Mahoutが好きだ HadoopClusterで クラウド環境で 基幹系システムで BIツールで 基幹バッチで この地上に存在するありとあらゆるHadoopが大好きだ 大量のバッチ処理を捌ききる様が好きだ 重い基幹バッチが、もの凄いスピードで完了するなど心がおどる 処理の増加に伴い完璧にスケールことが好きだ いままでのIOボトルネックがCPUボトルネックに簡単に変わるなど胸がすくような気持ちだった 巨大なデータを、完璧にMapに分解する様が好きだ あれほど苦労した多重度が

  • CDH ってどうなの?を知るために「Hadoopエンタープライズソリューションセミナー」に行ってきた - #garagekidztweetz

    ツイートCloudera’sDistribution including Apache Hadoop Cloudera’sDistribution including Apache HadoopThe most popular way to adopt Apache Hadoop in the enterprise. Hear from Doug Cutting on Cloudera’s Distribution including Apache Hadoop An open system… …simplified for use in trial or production …proven at scale in the enterprise …designed to work with your preexisting investments 今日は、 CDH (上述)に関する理解を

    CDH ってどうなの?を知るために「Hadoopエンタープライズソリューションセミナー」に行ってきた - #garagekidztweetz