タグ

hadoopに関するmasa0x80のブックマーク (30)

  • Hadoop 2.7.0がリリースされました - Qiita

    全般 Hadoop 2.7.0のリリースにおいて、合計で923件のissueが解決されました Common: 259 HDFS: 350 YARN: 253 MapReduce: 61 Release Note 注意事項 リリースより、JDK6はサポートされなくなりました リリースを商用で利用するのは推奨されません。2.7.1以降のリリースを待つことを推奨します。 MLによると、2015/5末あたりに2.7.1-RC0が出る予定。 新機能 Common HADOOP-9629 Windows Azure Storageのサポート スキーマにwasb://, もしくはwasbs://を指定することで、Windows Azure FileSystemに対してアクセス可能です。 HADOOP-7984 hadoopコマンドに --loglevelオプションが追加されました。 従来は、logl

    Hadoop 2.7.0がリリースされました - Qiita
  • 日本から初めて3人がHadoopコミッタに就任。NTTとNTTデータから。業務としてのコミッタは人事評価も有利になる?

    NTTNTTデータは、オープンソースで開発されているHadoopのプログラムを書き換える権限を持つコミッタに、同社の社員3名が就任したと発表しました。 Hadoopのコミッタに就任した3人。左から、NTTデータ 基盤システム事業部 鯵坂明氏、NTT ソフトウェアイノベーショ ンセンタ 小沢健史氏、NTTデータ 基盤システム事業部 岩崎正剛氏 Hadoopのコミッタに日企業の従業員が就任するのは初めて。NTTデータは2008年からHadoopに取り組みを開始しておりオープンソースへの貢献にも積極的で、Hadoopへの貢献度をコードの行数で集計すると、2014年の上半期はHortonworks、Cloudera、Yahoo!に次いで4位とのこと。 こうした貢献が評価され、Hadoopのオープンソースコミュニティを運営するThe Hadoop Project Management Com

    日本から初めて3人がHadoopコミッタに就任。NTTとNTTデータから。業務としてのコミッタは人事評価も有利になる?
  • 大規模サイトを支えるビッグデータプラットフォーム技術

    Investment in Yahoo! JAPAN's dataplatform and business growth by big data

    大規模サイトを支えるビッグデータプラットフォーム技術
  • MongoDBがHadoopとの統合強化。HiveでMongoDBデータへSQL問い合わせ可能、BSONをHDFS上に保存など

    Integration of Hadoop and MongoDB, Big Data’s Two Most Popular Technologies, Gets Significant Upgrade | 10gen, the MongoDB company MongoDB Connector for Hadoopは、Hadoopへの入出力データとしてMongoDBを使えるようにするソフトウェアで、新バージョンでは主に以下の機能が追加されています。 Apache HiveからMongoDBのデータへSQLライクな問い合わせ インクリメンタルなMapReduceジョブのサポートによる、アドホックな分析を容易に実現 MongoDB BSONファイルをHadoop Distributed File System(HDFS)上に保存することで、データの移動を削減 これにより以下のようなメリットが

    MongoDBがHadoopとの統合強化。HiveでMongoDBデータへSQL問い合わせ可能、BSONをHDFS上に保存など
  • 米Netflix、Amazonクラウド上でのHadoopの運用管理サービス「Genie」を公開 | OSDN Magazine

    Netflixは6月21日、Amazon Web Service(AWS)クラウド上に構築された「Apache Hadoop」を管理するソフトウェア「Genie」をオープンソースで公開した。Hadoopや「Apache Hive」、「Apache Pig」のジョブを実行したりHadoopリソースの管理を行うためのRESTful APIを提供するもので、動的なリソース管理が可能になるという。 Netflixはビデオストリーミングサービスなどを提供する企業。同社はサービスの運用に「Amazon S3」などAWSのクラウドサービスを多用、クラウド上に多数のHadoopを構築しており、それらを管理するために自社で開発したツールをオープンソースで公開している。今回公開されたGenieは「HadoopベースのPaaS」との位置付けで、Netflixがすでに公開している「Karyon」(ブートストラッ

    米Netflix、Amazonクラウド上でのHadoopの運用管理サービス「Genie」を公開 | OSDN Magazine
  • Hadoopはビッグデータの汎用プラットフォームであり、行く先はグーグルが示している

    Hadoopはビッグデータ処理の汎用プラットフォームであり、SQLやジョインやトランザクションなどが使えるようになる。Hadoopの生みの親であるダグ・カッティング氏は、都内で開催された日Hadoopユーザー会主催のイベント「Hadoop Conference Japan 2013 Winter」にビデオメッセージで参加。Hadoopの現在、そして将来像について語りました。 カッティング氏が語ったHadoopの将来とはどんなものなのか。ポイントを紹介しましょう。 バッチ処理を超え続くApache Hadoopの進化 Apache Software FoundationのChairmanでありClouderaのChief Architect、Doug Cutting氏。 今日はみなさんと一緒に参加したかったのですが残念ながらかなわず、このビデオをお送りすることになりました。 MapRedu

    Hadoopはビッグデータの汎用プラットフォームであり、行く先はグーグルが示している
  • 世界初! Hadoopとの連携を実現したCOBOL「NetCOBOL V10.5」を販売開始 : 富士通

    PRESS RELEASE 2012年12月5日 富士通株式会社 世界初! Hadoopとの連携を実現したCOBOLNetCOBOL V10.5」を販売開始 並列分散処理により、バッチ処理時間を従来の約18分の1に短縮 当社は、COBOLバッチアプリケーションをApache Hadoop(注1)で並列分散処理し、バッチ処理時間を大幅に短縮する機能を追加したCOBOL開発・運用ソフトウェア「NetCOBOL V10.5」を、日より販売します。 製品は、Hadoopとの連携を実現した世界初(注2)のCOBOL開発・運用ソフトウェアです。「NetCOBOL」で開発したバッチアプリケーションや他社のCOBOLで開発されたバッチアプリケーションを、再コンパイルによりHadoopで並列分散処理できるため、お客様は既存のCOBOLデータやアプリケーションに手を加えることなく、バッチ処理時間を大幅に

    世界初! Hadoopとの連携を実現したCOBOL「NetCOBOL V10.5」を販売開始 : 富士通
    masa0x80
    masa0x80 2012/12/31
    便利!
  • 「カジュアル」な規模のデータクラスター上でのデータ解析処理 « NAVER Engineers' Blog

    今年はさだまさしさんのデビュー40周年ということで、記念コンサート「さだまつり」も絶賛開催中の折も折、残暑も厳しい中皆様いかがお過ごしでしょうか。大平です。 さだまさし氏は経験の豊富な方ですので彼の歌や発言から学ぶことは大変多いのですが、個人的に非常に感銘を受けているのは「歌はコンサートで成長する」という言葉です。歌い手として、「歌」という作品を作って公開・販売するだけが仕事ではなく、実際にコンサートなどでお客さんに届け、お客さんの反応を参考にしたり日々の演奏活動の中で試行錯誤を繰り返して、内容をブラッシュアップし洗練させていく過程を指して先の言葉があるのだと思います。実際にさだまさし氏の曲はCDに収録されているものと実際にライブで演奏されるものとでアレンジが大きく異なり、かつ作品としても質が向上しているものが少なからず存在します。 …あまりさだまさしの話を続けると当に上長に叱られますの

  • fluent と hoop を使って HDFS にリアルタイムにログを流す - tester7のブログ

    概要 複数台のWebサーバのログを fluent と hoop を使ってリアルタイムにHDFSに追記していくテスト。 より頻度の高い行動解析を行うことができるようになる? 参考にしたブログ: tagomorisのメモ置き場 テスト構成 # 初めてテキストで図書いた。 # 線を交差させる所で面倒くさくなって適当に... web01 server fluent master +---------+ +---------+ | Fluentd |--+--->| Fluentd |--+ +---------+ |+-->+---------+ | Proxy || +-->+--------+ +--------+ || | hoop |-->| HDFS | web02 server || fluent slave +-->+--------+ +--------+ +---------+

    fluent と hoop を使って HDFS にリアルタイムにログを流す - tester7のブログ
  • Hadoopがバージョン1.0へ。2.0、3.0の議論も進む

    大規模分散処理フレームワークのHadoopの最新安定版「Hadoop 1.0.0」が、昨年12月27日に公開されました。これは、これまで安定版として開発されていた「Hadoop 0.20」ブランチの最新バージョンを1.0.0としたものです。 Hadoopは、前身となるNutchが2002年にDoug Cutting氏によって開発され、(このビデオの10分頃のCutting氏の発言によると)2008年にNutchからHadoopプロジェクトが分離。約4年を経てバージョン1.0へと到達したことになります。 今回バージョン1.0.0となった旧0.20ブランチのほかに、Hadoopには0.22、0.23など複数のブランチで開発が進んでおり、Hadoopに対する新しい機能、例えば従来のMapReduceを完全に書き換えたMapReduce 2などはこれら新しいブランチに対して実装が行われています。

    Hadoopがバージョン1.0へ。2.0、3.0の議論も進む
  • AWSと国内DCサービス - 急がば回れ、選ぶなら近道

    自分的な話題なので書いておきたい。 まず立場的はっきりさせて置く。AWSを基的にはエンタープライズ・ユースで考えています。もっと直裁にいえば、Asakusaの実行基盤として、すなわちEnterpise Hadoopの実行基盤として見ています。クラウドの利用は単社ではできないことをできるのが特長であり、それは現時点では分散処理です。多数のノードを利用する分散処理は、単社で持つにはコスト的にペイしません。ので、一種のハードの共同利用としてクラウドを利用すべきです。単純にレンタル・サーバーの延長上で見るのであれば、クラウドのメリットはないでしょう。分散処理を一定の計算資源を利用して行うことがクラウドでできるかどうかがポイントと考えています。AWSは十二分にこの目的には合致しています。特にパブリックではないVPCの存在は非常に大きい。 (分散処理としてHadoopMapReduceが最適か?とい

    AWSと国内DCサービス - 急がば回れ、選ぶなら近道
  • Hadoop MapReduce デザインパターン - 急がば回れ、選ぶなら近道

    Amazon CAPTCHA Hadoop MapReduce デザインパターン の監修という事をさせたもらったので その内容とかについてですね。 まず、元のはこれです。 http://www.amazon.co.jp/Data-Intensive-Processing-MapReduce-Synthesis-Technologies/dp/1608453421/ref=sr_1_1?s=english-books&ie=UTF8&qid=1316817977&sr=1-1 著者のJimmy Linは 現在Clouderaに所属と聞いています。 (が、割と所属不明な感じみたいです。) 現実にClouderaのトレーニングの内容は 特にアプリサイドの、かなりの部分を このの内容に準拠していました。 なので、Hadoopを利用する際には ほぼ必須の書籍と見ていいと思います。 このの特長と

    Hadoop MapReduce デザインパターン - 急がば回れ、選ぶなら近道
  • NTTデータのHadoop報告書を読んでみた - wyukawa's diary

    NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮 これで話題になっていたのは知っていたけど仕事と関係無かったこともあり今まで読んでなかったんですが、1か月ほど前からHadoop仕事を始めたこともあり読んでみました。 ま、現状はNTTデータから仕事もらっている立場だし提灯記事でも書こうかとw 目次はこんな感じになってます。 で、全部で375ページもあるわけですが、アプリ開発者がとりあえず読むなら2章です。もうちょっと突っ込むなら関連する8章もプラスして読むといいでしょう。どうでもいいけど印刷して読んだほうがいいかも。僕はiPadで読みましたが2章は割とページをいったりきたりしたので。 2章では渋滞解析アプリケーションを事例としてMapReduceアプリをどのように設計して、実装するのかが記述されていてとても参考になります。というかこれだけまとまった情報は象にもHadoo

    NTTデータのHadoop報告書を読んでみた - wyukawa's diary
  • MapReduceのもう一つの使い方 - 急がば回れ、選ぶなら近道

    MapReduceというと集計に使うモノという人が多いと思う。 なんとなれば、MapReduce=Hadoop=ワードカウントの図式になっているからだ。 実際、Hadoopを触ってみようという人のほとんどはexampleとしてワードカウントを使うはず。その辺に落ちてるシェークスピアのログでHadoopのexampleを動かした人もおおいはず。 ところが実際に業務バッチ的な処理を行うときに、MapReduceの効果的な使い方は別にもある。個人的は、「当のMapReduceの使いかた」はこっちだと思う。なんということはなくて「組み合わせ計算を高速に行う」だ。ある種の計算では、順序処理でギブアップしてしまうケースの一つに組み合わせの計算がある Node{ List<Node> nodeList value(){ hasNodeList() ? nodeList.traverse(value()

    MapReduceのもう一つの使い方 - 急がば回れ、選ぶなら近道
  • クラウド時代の並列分散処理技術

    福岡県Ruby・コンテンツ産業振興センター開所記念Rubyビジネスセミナー http://www.f-ruby.com/news/event/13Read less

    クラウド時代の並列分散処理技術
  • Hadoopを用いた大規模ログ解析

    JCBの Payment as a Service 実現にむけたゼロベースの組織変革とテクニカル・イネーブラー(NTTデータ テクノロジーカンファレンス ...NTT DATA Technology & Innovation

    Hadoopを用いた大規模ログ解析
    masa0x80
    masa0x80 2011/04/17
    何を集計するかを考えるのが重要
  • 「次世代Hadoopの開発に着手する」Yahoo!が宣言、数万台以上のクラスタをサポートへ

    Yahoo!が大規模分散処理のフレームワーク「Hadoop」の次世代版を開発することを、ブログYahoo! Developers Networkにポストしたエントリ「The Next Generation of Apache Hadoop MapReduce」で明らかにしました。 Yahoo!によると、現在のHadoopの実装では1クラスタあたり4000台程度でスケーラビリティの限界にあたるため、アーキテクチャを見直して信頼性や可用性を高めると同時に、1万台から2万台を超えるクラスタのスケーラビリティを実現したうえで、従来のHadoopとアプリケーションの互換性を保つ予定とのこと。さらに、マルチテナント対応、多言語プログラミングのサポートなども実現する予定のようです。 Apache Hadoopコミュニティと協力して開発を進める Yahoo!はブログで次のように書いています。 The c

    「次世代Hadoopの開発に着手する」Yahoo!が宣言、数万台以上のクラスタをサポートへ
  • Hadoop MapReduceプログラムを解剖する

    オープンソース・ソフトウェア「Hadoop」のMapReduceジョブは、標準ではJavaで記述します(その他には、Pig、Hive、JAQLといったものがあります)。しかし、意外と初心者には分かりにくいと筆者は感じます。記事では、MapReduceジョブのサンプルコードを使って、できる限り正しくコードの意味を理解し、MapReduceへの入り口を示したいと思います。 HadoopでMapReduceを記述するときに使うAPIが、0.19から0.20に変わるところで新しくなっています。実は、現時点でHadoopプロジェクト体からでさえも、新APIを使ったサンプルが提示されていません。記事では、新しいAPIで筆者が書き直したサンプルを使って解説しますので、このサンプルは0.19以前のHadoopでは動かないことに注意してください。この記事は、0.20.2を使って検証し、解説しています。

  • Hadoop WorldでClouderaと提携したNTTデータが目指すもの。Hadoop World: NYC 2010

    Hadoop WorldでClouderaと提携したNTTデータが目指すもの。Hadoop World: NYC 2010 先週10月12日に、ニューヨークでHadoopのイベント「Hadoop World: NYC 2010」が開催されました。参加者は900名を超えたともいわれ、日からも30名程度が参加しました。 イベントを主催するClouderaは、Hadoopを開発したDoug Cutting氏らが所属しており、Hadoopの商用利用におけるリーダー的な存在です。そしてこのイベントでClouderaはNTTデータとの提携を発表。両社でアジア太平洋地域と日でのHadoopビジネスを積極展開することを明らかにしています。 Clouderaとの提携を受け、NTTデータ代表取締役常務執行役員 ソリューション&テクノロジーカンパニー長 CTO 山田伸一氏がHadoop Worldで講演。そ

    Hadoop WorldでClouderaと提携したNTTデータが目指すもの。Hadoop World: NYC 2010
  • NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮

    業界トップ のエンタープライズ Hadoop 企業 Cloudera に入社しました http://www.cloudera.co.jp/ 今年の6月に、「平成21年度 産学連携ソフトウェア工学実践事業報告書」というドキュメント群が経産省から公表されました。 そのうちの一つに、NTTデータに委託されたHadoopに関する実証実験の報告書がありましたので、今更ながら読んでみることにしました。 Hadoop界隈の人はもうみんなとっくに読んでるのかもしれませんけど。 http://www.meti.go.jp/policy/mono_info_service/joho/downloadfiles/2010software_research/clou_dist_software.pdf 「高信頼クラウド実現用ソフトウェア開発(分散制御処理技術等に係るデータセンター高信頼化に向けた実証事業)」という

    NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮