タグ

hadoopに関するrgfxのブックマーク (50)

  • 第三回Asakusaソースコードリーディングの感想 - ひしだまの変更履歴

    ひしだまHPの更新履歴。 主にTRPGリプレイの元ネタ集、プログラミング技術メモと自作ソフト、好きなゲーム音楽です。 AsakusaSCR第参回に参加してきました。今回はMonkey Magic(ジョブの運用監視ツール)について。 Togetter: 20110727_AsakusaSCR第参回(#AsakusaReading) 現在のMonkeyMagicのバージョンは0.9で、2.0で大改修すると共に名前を「Tengine」に変えてOSS化するとのこと。「T」と「engine」をくっつけて「てんじん」。 (あと、特許もとったらしい) MonkeyMagicは2年くらい前から作り始めたそうで、元々はクラウド基盤(のリソース最適化)をターゲットにしていたらしい。その他に(値段の高い)商用製品の代わりとか、Hadoop(AsakusaFW)向けとかがターゲットになっている。 まぁ、Asak

    第三回Asakusaソースコードリーディングの感想 - ひしだまの変更履歴
  • Hadoopモデリング座談会(第5回)へ行ってきました - 虎塚

    第5回とのことですが、自分は初めて参加しました。 そもそもHadoopとタイトルにつくイベントへ行ったのは、初めてでした。これまで遠巻きに見ていましたが、何か、色々あって参加することに。 zusaar.com -&nbspzusaar リソースおよび情報 2011/06/29_Hadoopを中心とした分散環境での開発方法論・モデリング・設計手法等についての座談会(第5回) #hadoopmodeling - Togetter せっかくなのでノートを上げておきます。 1. 「鉄道システムへの誘い」 [twitter:@ayasehiro]さん 発表の目的は、「学生の方に鉄道システムに興味を持ってもらうこと!」とのこと。 鉄道システムの開発のお話 システムは一度作ったら長く使う 耐用年数10年以上 開発のスパンも長い 長いときで5年くらい 製造に時間をかけられない 半分が開発、半分が試験 開発

    Hadoopモデリング座談会(第5回)へ行ってきました - 虎塚
    rgfx
    rgfx 2011/06/30
    鉄道とな。九州電力とな。
  • 第2回Asakusaソースコードリーディングに参加してきました - AOEの日記

    AsakusaSCR第弐回に参加してきましたので、そのメモをまとめました。ほとんど自分向けの内容ですが折角なので表に置いておくにします。立て続けに勉強会参加レポートのエントリになっちゃいました。 今回はAsakusaにおいて外部とのデータのやり取りを引き受けているThunderGateのお話でした。 講師はThunderGateのアーキテクチャを設計したウルシステムズの埋金さんです。UMLaut/J-XMLの開発も担当されたそうで、昔はテレメータの開発をされてたとか。あと懇親会で聞いたのですが、かつてはWebLogicの鬼だったそうな。 なぜThunderGateを作ったのか? Hadoopはデータ配るところが弱いので、そこを補うのがThunderGate データをどこに置く? HDFS 信頼性?SPOFあるね バックアップリカバリのノウハウがない (復旧できる技術者いる?少なくともデータ

    第2回Asakusaソースコードリーディングに参加してきました - AOEの日記
  • 第2回Asakusaソースコードリーディングのメモ - ひしだまの変更履歴

    ひしだまHPの更新履歴。 主にTRPGリプレイの元ネタ集、プログラミング技術メモと自作ソフト、好きなゲーム音楽です。 Asakusaソースコードリーディング(第二回)、ThunderGate編のメモです。 資料: ThunderGate Togetter:Asakusaソースコードリーディング(第二回) ThunderGateはHDFSと外部のRDB(今のところはMySQL)とのデータ転送を行う部分。Asakusaフレームワークが「トランザクションをサポート」と言っているのは、ThunderGateにかかっている。 やはりHadoopを使う上ではHDFSと外部とのデータ配信がひとつのポイントになるので、重要。 説明してくださったのは、ThunderGateのアーキテクチャー設計者の埋金さん。 テレメータ(社会インフラ)の開発だとか、RDBでHAクラスターを組んだりとか、UMLaut/J-

    第2回Asakusaソースコードリーディングのメモ - ひしだまの変更履歴
  • MapReduceのもう一つの使い方 - 急がば回れ、選ぶなら近道

    MapReduceというと集計に使うモノという人が多いと思う。 なんとなれば、MapReduce=Hadoop=ワードカウントの図式になっているからだ。 実際、Hadoopを触ってみようという人のほとんどはexampleとしてワードカウントを使うはず。その辺に落ちてるシェークスピアのログでHadoopのexampleを動かした人もおおいはず。 ところが実際に業務バッチ的な処理を行うときに、MapReduceの効果的な使い方は別にもある。個人的は、「当のMapReduceの使いかた」はこっちだと思う。なんということはなくて「組み合わせ計算を高速に行う」だ。ある種の計算では、順序処理でギブアップしてしまうケースの一つに組み合わせの計算がある Node{ List<Node> nodeList value(){ hasNodeList() ? nodeList.traverse(value()

    MapReduceのもう一つの使い方 - 急がば回れ、選ぶなら近道
  • 会社を作りました。 - 急がば回れ、選ぶなら近道

    さて、会社を作った。 (元)EC-ONEの最首さんと一緒につくった。 EC-ONE側は、SI事業をウルシステムズへ統合して、分社化する。 僕らのチームがそのままEC-ONEに移動し、そして新しい会社を作る。 分散をやっているEC-ONEの福岡のチームと合流して、 分散技術や次世代の技術を業務に活かすということを いろいろでやっていく会社(というか入れ物だ)を作る。 分散技術にウェイトを置いて起きつつ、ソリューションにしていくための入れ物ですね。 「ノーチラス・テクノロジーズ」 NAUTILUS Hadoopや分散技術をエンタープライズに活かしていくことを 目的にした日では最初の会社になると思う。 1.まず手始めにHadoopを中心の道具立てにしていく 幸いAsakusaもチームの頑張りで晴れてOSSになったし、 実際に動いている 開発効率の高さは自分でもびっくりしているぐらいだ。 分散技

    会社を作りました。 - 急がば回れ、選ぶなら近道
  • ウルシステムズとイーシー・ワンが経営統合、Hadoop専業会社を立ち上げ

    ウルシステムズとイーシー・ワン(EC-One)は2011年5月25日、10月3日付けで経営統合すると発表した。EC-Oneの主力事業であるシステムインテグレーション(SI)事業を、ウルシステムズに統合する。併せて、ウルシステムズの「Hadoop」関連部門をEC-Oneに移す。EC-OneはHadoop専業会社となり、社名を「ノーチラス・テクノロジーズ」に変更する。 ウルシステムズは、オープンソースソフトウエア(OSS)の分散バッチ処理ソフトであるHadoopを使ったシステム構築を行っており、2011年3月には自社で開発した基幹バッチ用Hadoopフレームワーク「Asakusa Framework(Asakusa)」をOSSとして公開した。EC-Oneは、分散システム管理ソフト「Monkey Magic」のHadoop対応を進めている。 Asakusaの開発チームとMonkey Magicの

    ウルシステムズとイーシー・ワンが経営統合、Hadoop専業会社を立ち上げ
  • # hbaseworkshop HBase勉強会(第一回)

    Tatsuya Kawano @tatsuya6502 HBase勉強会(ワークショップ)は、日5/20 18:30スタートです。もし参加できなくなってしまった場合は、補欠者のために、参加取り消しのボタンを押してください。 http://t.co/O3zG2Ve #hbase workshop Tatsuya Kawano @tatsuya6502 RT @tatsuya6502:【HBase勉強会ご参加のみなさまへ】HBaseドキュメントの日語訳が、あしたの研サイトにて公開されました。勉強会の前にぜひ読んでおいてください。 http://t.co/rvIF6jI (勉強会の情報: http://t.co/O5V0EZe

    # hbaseworkshop HBase勉強会(第一回)
  • Pig, Hiveなど8種類のMapReduce言語についての比較 - nokunoの日記

    以下の記事ではPig, Hiveなど8種類の言語でMapReduceの一番単純な例、WordCountを記述した場合のスクリプトの比較を行っています。とても興味深かったので紹介したいと思います。Pigs, Bees, and Elephants: A Comparison of Eight MapReduce Languages « Dataspora なお、今回はRSS購読しているDataSporaのブログから発見しましたが、エントリを寄稿したエンジニアの個人ブログも大変興味深いのでオススメです。 はじめにMapReduceを美しく効率的に書くために、私は様々な言語を比較しました。果たしてその勝者は!?私の個人ブログでは統計やグラフのアルゴリズムをMapReduceで記述する方法を紹介し、擬似コードによる実装を示しました。擬似コードには2つの問題点があります:誰もがその命令を理解できると

    rgfx
    rgfx 2011/04/28
  • Hadoop Kills Zombies Too! Is There Anything It Can’t Solve? – Old GigaOm

    Using Hadoop to analyze big data for delivering better ad metrics or to personalize web sites is pretty familiar, but an Atlanta-based company called ipTrust is using it to target botnets. The service uses Hadoop’s ability to process trillions of log files per minute to identify IP addresses that might be doing a botnet’s bidding. Internet botnets wreak much of their havoc because of the sheer num

  • Home

    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

    Home
  • 第3回 業務の境界や並列性を見極め処理を分割

    第3回と第4回では、Asakusaを使ったバッチ処理アプリケーションの設計方法について解説する。Asakusaでは、Batch DSLで記述する「バッチ」、Flow DSLで記述する「ジョブフロー」と「フロー部品」、Operator DSLで記述する「演算子」という三つの階層で、アプリケーションを構成する。 なお今回解説する設計技法は、Hadoopへの依存度を極力なくすことを意図している。Hadoopへの依存度が高いと、設計者がHadoopをマスターする必要があり、開発規模を拡大する足かせになるからである。以降は「クラウド時代の非同期処理設計の一般技法」と捉えてもらっても差し支えない。 有向非循環グラフ「DAG」を使って開発する Asakusaでの設計では、DAG(Directed Acyclic Graph)を用いる。DAGは、図1に示したような有向非循環グラフのことである。処理を表す頂

    第3回 業務の境界や並列性を見極め処理を分割
    rgfx
    rgfx 2011/03/30
    「その作業は分担して人海戦術を取った場合に人数分だけ早く終わりますか」という質問を投げる、と。
  • テクノロジー : 日経電子版

    米フェイスブックの利用者データ流出問題は、「データ資主義」時代が直面する課題を我々に突きつけた。あらゆる個人データをサービスの改善につなげてイノベーションをけん引する一方で、「守…続き FB流出 急成長のジレンマ、バグ増え攻撃の狙い目に [有料会員限定] GAFAが今欲しがる、「炎上」防ぐための人材

    テクノロジー : 日経電子版
    rgfx
    rgfx 2011/03/20
    バッチ処理が終わらない?なら、Asakusaフレームワークに、相談だ。
  • Asakusa Scala DSL デザインレビューの勉強会のまとめ

    浅海智晴 @asami224 Asakusa Scala DSL デザインレビューの勉強会 http://goo.gl/ctB3o でレビューするAsakusa Scala DSLのサンプルです。 http://goo.gl/jtDmz #asakusa #scala #hadoop 2011-03-09 06:47:24 浅海智晴 @asami224 Scalaの文法のアレの名前が思い出せなくて調べたらgeneralized type constraintsだった。context bound/view boundとかtype constructor parameterとか、型パラメータまわりは色々技があるね。 2011-03-09 14:03:54

    Asakusa Scala DSL デザインレビューの勉強会のまとめ
  • Asakusa Enterprise Batch Processing Framework for Hadoop

    Asakusa Enterprise Batch Processing Framework for Hadoop Hadoop Japan Conference 2011-2-22Read less

    Asakusa Enterprise Batch Processing Framework for Hadoop
  • #ashigel Ashigelコンパイラの勉強会

    豊月 @yutuki_r Asakusaの次期VerのコードネームはやはりTawarachoなのだろうか。Ueno、Nihonbashi、Toranomonなどを経て最後はShibuyaになるんだろうか・・・ 2011-02-25 01:00:42

    #ashigel Ashigelコンパイラの勉強会
  • 『モバゲーの大規模データマイニング基盤におけるHadoop活用』-Hadoop Conference Japan 2011- #hcj2011

    『モバゲーの大規模データマイニング基盤におけるHadoop活用』-Hadoop Conference Japan 2011- #hcj2011 2011/02/22 [登壇後エントリ] :" 「モバゲーの大規模データマイニング基盤におけるHadoop活用」-Hadoop Conference Japan 2011 #hcj2011 で登壇してきました " http://d.hatena.ne.jp/hamadakoichi/20110222/p1Read less

    『モバゲーの大規模データマイニング基盤におけるHadoop活用』-Hadoop Conference Japan 2011- #hcj2011
  • Hadoop専用機「リンダ」を解剖

    NTTデータの「Lindacloud(リンダクラウド)」は、「Hadoop」に最適化したハードウエアを同社が自ら設計・製造したアプライアンスサーバーだ。機能をそぎ落として、低コストと低消費電力を追求したハードウエアは、大手クラウド事業者が使うサーバーによく似ている。Lindacloudが象徴する、サーバーの新潮流を探った。 Lindacloudが搭載するHadoopは、分散バッチ処理プログラムを開発するためのミドルウエアだ。複数のサーバーにデータを分散保存してバッチ処理を実行し、結果を集約するという機能を備える。 Lindacloudは、高さ42Uのラックに搭載した35台の専用サーバーユニットで構成する。合計で32個のプロセッサと、256Gバイトのメモリー、128T(テラ)バイトのハードディスクを搭載して、価格は800万円(図1)。インテグレーション費用も含まれていることを考えると、安価と

    Hadoop専用機「リンダ」を解剖
    rgfx
    rgfx 2011/02/22
  • 次世代Hadoopは10,000台にスケールアウトし、MapReduce以外のフレームワークをもサポートする - nokunoの日記

    Yahoo!のブログにHadoopに関する興味深い記事が上がっていたので紹介したいと思います。かなりボリュームのある記事で翻訳するのは骨が折れました。The Next Generation of Apache Hadoop MapReduce · Yahoo! Hadoop Blog原題はシンプルに「次世代のApache Hadoop MapReduce」です。 概要大規模データを扱うビジネスでは、少数の大規模なクラスタのほうが多数の小規模なクラスタよりも安価になります。大規模クラスタは多くのデータセットを処理し、多くのジョブと多くのユーザをサポートする必要があります。ApacheのHadoop MapReduceフレームワークはだいたい4,000台程度でスケーラビリティの限界が来ます。私たちは次世代のApache Hadoop MapReduceを開発しており、そこではフレームワークを汎

    rgfx
    rgfx 2011/02/16
  • Hadoopの可用性について(私訳) - developer’s delight

    この記事はClouderaのBlogの記事”Hadoop Availability | Apache Hadoop for the Enterprise | Cloudera”の私的翻訳です。Hadoopの可用性については興味のある方も多いと思いますので、読むついでに訳してみました。勢いで訳したので質に関しては責任を持てませんのでよろしくお願いします。間違いなどがありましたらご指摘いただければ助かります。(id:kkawamura)Apache Hadoopのメーリングリストでよくある質問は、可用性を保つためにどうするか?というものです。この記事では、Hadoopのコンテキストでの可用性について見ていき、進行中の開発の方向性を示します。背景Hadoopの可用性を議論するとき、人はよくNameNodeがHDFSにおいて単一故障点であるため、NameNodeから話をはじめます。そしてHadoo

    rgfx
    rgfx 2011/02/13