タグ

hadoopに関するsabroのブックマーク (68)

  • NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮

    業界トップ のエンタープライズ Hadoop 企業 Cloudera に入社しました http://www.cloudera.co.jp/ 今年の6月に、「平成21年度 産学連携ソフトウェア工学実践事業報告書」というドキュメント群が経産省から公表されました。 そのうちの一つに、NTTデータに委託されたHadoopに関する実証実験の報告書がありましたので、今更ながら読んでみることにしました。 Hadoop界隈の人はもうみんなとっくに読んでるのかもしれませんけど。 http://www.meti.go.jp/policy/mono_info_service/joho/downloadfiles/2010software_research/clou_dist_software.pdf 「高信頼クラウド実現用ソフトウェア開発(分散制御処理技術等に係るデータセンター高信頼化に向けた実証事業)」という

    NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮
  • 第15回 大規模データの新たな価値を生み出すHadoop(構築編)

    今回は、4台のサーバーからなるHadoopクラスタの構築手順を紹介します。10台程度までは、そのまま計算ノードを増やすことができますので、格活用に向けた実験を始めるのに最適な構成です。 「Hadoopは安価なコモディティ・サーバーを使用する」と説明されることがありますが、これは、あくまで標準的なx86サーバーを使用するという意味です。大量のデータを高速に処理するには、それなりのスペックが必要で、Hadoopのデフォルト設定では、8コアのCPUと8GBのメモリーを搭載したサーバーが想定されています。 Hadoopの導入手順 ここでは、図1の4台のサーバーを使用します。ホストネームは、管理ノードがhdpmgmt01、計算ノードがhdpnode01~03です。それぞれ、4コアのCPUと4GBのメモリーを搭載したサーバーとします。異なるスペックのサーバーの場合は、後述の設定パラメータを変更してく

    第15回 大規模データの新たな価値を生み出すHadoop(構築編)
    sabro
    sabro 2010/09/16
  • エンジニア長期インターン GREE Studio 2010 5日目 | GREE Engineering

    前回に引き続き、井上が書かせていただきます。 GREE Studio 2010 5日目の講義内容はデータマイニングエンジニア、moritaさんによる「データマイニング」。業務のログ解析において用いられるデータマイニングの内容です。前回はレポート形式でしたが、今回はもう少しエンジニアリングブログに近い形で書こうと思って頑張りました。宜しくお願いします。今回のブログの内容は、 データマイニングの基礎知識 大規模データへの挑戦 になります。後で定義しますが、ここでの「データマイニング」とはデータを取得し、集計する作業も含めてこの言葉を指すことにしています。また、解析者とはデータマイニングを行う人のことを指します。(GREEではデータマイニングエンジニアと呼ばれています。)moritaさんの講義で学んだことを自分なりに膨らましてみました。色々誤りがあると思いますが、そういった部分は(優しく)指摘し

    エンジニア長期インターン GREE Studio 2010 5日目 | GREE Engineering
  • はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知

    はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28

    はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知
  • ドワンゴ技術勉強会

    日時:2010年7月16日 20:10 開始予定 テーマ:分散・並列処理・クラウド 20:20頃 IaaSシステム構築のポイント 株式会社ライブドア 執行役員CTA 伊勢 幸一様 仮想マシンや仮想ネットワークなどの技術的概要とライブドアのクラウドっぽいホスティングサービスを例に、IaaSシステムの構築上、注意しなければならないポイント等を紹介 21:00頃 クックパッドでのHadoop利用 クックパッド株式会社 佐々木 達也様 21:40頃 Web開発における分散データベースの利用 既存のRDBの持つ課題を挙げ、分散データベースがそれらの課題にどのように対応するか、Cassandraを例に挙げて紹介する 株式会社ドワンゴ 研究開発部 研究開発部 第四開発セクション 小野 侑一 22:20頃 とある技術の超分散法(スケールアウト) 株式会社ドワンゴ 研究開発部 千野執行役員付 山陰 祐司

    ドワンゴ技術勉強会
  • HMaster Japan: HBase入門 - 5月27日発表

    2010年5月30日日曜日 HBase入門 - 5月27日発表 Hadoop ソースコードリーディング(第2回)にて、HBaseを紹介しました。 HBaseの特徴 ユースケース(事例紹介) 当日は80名を超えるHadoopファンの方々にご来場いただきました。最後まで熱心に聞いていただきありがとうございました! 参考:当日の Twitter まとめ 次回以降は、以下の内容を予定しています。 【6月】HBaseとCassandraの比較(設計上のトレードオフを理解する) 【7月】HBaseでつまずきやすい点と、ロードマップ(次期メジャーリリースの紹介) スライドは事前に公開する予定です。実は、英語・日語版共に下書きはできていて、HBaseの開発リーダーのレビュー済みなんです。 ただ、会場で、Cassandraの開発チームにもレビューしてもらうと、より充実したプレゼンになるのでは?と

  • Hive vs Pig for HadoopSourceCodeReading

    Apache Hadoop India Summit 2011 talk "Pig - Making Hadoop Easy" by Alan Gate

    Hive vs Pig for HadoopSourceCodeReading
  • CPSC 435/535 Schedule

    Notes All slides from this class can be copied and reused without any need for explicit permission. Note that some slides are based on other people's slides; so please resolve copyright issues on your own. Topics for future classes are tentative. Lecture 1 (Jan. 12) Introduction (ppt, pdf, pdf/2; pdf/6) Lecture 2 (Jan. 14) Internet Basic (ppt, pdf, pdf/2; pdf/6) A good reference is END-TO-END A

  • Hadoop で Wikipedia のテキスト処理を900倍高速化 - 武蔵野日記

    今月中に実験の実装が終わるくらいでないと来月の投稿〆切に間に合わないので、今週から研究室のサーバに Hadoop をインストールしている。 研究室にはサーバが20台弱あるのだが、そのうち10台強を使うことにして設定。これくらいの規模だと「大規模」と言うのは憚られるかもしれないが(Yahoo!Google と比べて、という意味で。)、中規模、くらいには言ってもいいだろうし、たぶん、多くの大学や企業で使える台数もこれくらいだと思うし、大企業にいないとできない研究をするのも大変価値があるが、他の人たちがやる気になれば真似できる研究をするのも(データやインフラ勝負ではなくアイデア勝負になるので苦しくはあるのだが)重要だと考えている。 たとえば、数台でも分散環境の恩恵が受けられる、というのはPFI が出した Hadoop の解析資料で知っていたので、初めて導入したときは参考になったし、こういう

    Hadoop で Wikipedia のテキスト処理を900倍高速化 - 武蔵野日記
  • HDFSのスケーラビリティ

    Either email addresses are anonymous for this group or you need the view member email addresses permission to view the original message 皆さま 日、Yahoo!からHDFSを大規模な環境(数千~数万ノード)でHDFSをdeploy した際に、どのような問題があるかという情報が色々書かれた記事/blogがポ ストされました。 - HDFS Scalability (PDF注意) -- http://www.usenix.org/publications/login/2010-04/openpdfs/shvachko.pdf - Scalability of the Hadoop Distributed File System -- http://devel

  • Mahout 0.3: オープンソースの機械学習プロジェクト

    Spring BootによるAPIバックエンド構築実践ガイド 第2版 何千人もの開発者が、InfoQのミニブック「Practical Guide to Building an API Back End with Spring Boot」から、Spring Bootを使ったREST API構築の基礎を学んだ。このでは、出版時に新しくリリースされたバージョンである Spring Boot 2 を使用している。しかし、Spring Boot3が最近リリースされ、重要な変...

    Mahout 0.3: オープンソースの機械学習プロジェクト
  • Welcome to Apache Pig!

    Apache Pig is a platform for analyzing large data sets that consists of a high-level language for expressing data analysis programs, coupled with infrastructure for evaluating these programs. The salient property of Pig programs is that their structure is amenable to substantial parallelization, which in turns enables them to handle very large data sets. At the present time, Pig's infrastructure l

  • Hadoopを使いこなす(2)

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、 前回のHadoopの記事 に引き続き、MapReduceのカスタマイズポイントを解説していきます。 前回の記事の図や、表などを参照しながら読み進めていただければと思います。 MapperやReducerの流れの制御 Mapperの実行の流れは、デフォルトでは、初期化処理を行った後、map関数を繰り返し実行し、終了処理を行うようになっていますが、この流れ自体を制御することができます。 古いAPIでは、MapRunnerを通じてこの流れを制御できますが、0.20.0からの新しいAPIでは単純にMapperクラスのrun関数をオーバーライドすることで、行えます。 デフォルトのrun関数は以下の通りです。 public vo

    Hadoopを使いこなす(2)
    sabro
    sabro 2010/03/01
  • IIS 7.0& 7.5概要

    ここはイタリアのシチリア島にある世界遺産の街、モディカです。1693 年に起きた大地震により建物がほぼ全壊しましたが、再建時に後期バロック様式が採用され、見事に復興を遂げました…

    IIS 7.0& 7.5概要
  • Hadoopを業務で使ってみた話 - クックパッド開発者ブログ

    8月に入社した佐々木です。こんにちわ! 入社してからはHadoopを使うことが多く、日々、大規模データと格闘しています。大変ではありますが、個人ではなかなか触ることが出来ないような大規模データを触れるのは楽しいです。 さて、Hadoopは最近色々なところで使われ始めてきていると思うんですが、実際に利用してみて困った事やtipsなど、実践的な情報はまだあまり公開されていません。その辺の情報をみんな求めているはず…!! そこで、僕が実際に触ってみて困った事やHadoopを使う上でポイントだと思ったことなどを社内勉強会で発表したので公開してみます。Hadoopを使っている(使いたいと思っている)方の参考になれば幸いです。 [slideshare id=2711363&doc=20091214techblog-091213183529-phpapp02] Hadoopの利用はまだまだ試行錯誤の連続

    Hadoopを業務で使ってみた話 - クックパッド開発者ブログ
  • Hadoop、hBaseで構築する大規模分散データ処理システム

    CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

    Hadoop、hBaseで構築する大規模分散データ処理システム
  • Pasang Bola Online | Judi Bola Tanpa Blokir

    <div class="at-above-post-homepage addthis_tool" data-url="http://hugjp.org/2021/07/salah-pilih-agen-sbobet-bisa-sebabkan-berbagai-kerugian/"></div>Sbobet tentunya menjadi salah satu server judi online paling diminati oleh orang-orang yang gemar bermain judi online. Sbobet online via sbobet mobile. Main Game Online Sbobet Mobile.

    sabro
    sabro 2009/11/16
  • KOF2009「ウェブサービスのパフォーマンスとスケーラビリティ」 - stanaka's blog

    KOF2009にて、「ウェブサービスのパフォーマンスとスケーラビリティ」と題して発表してきました。発表資料を以下に置いておきます。 Performance and Scalability of Web ServiceView more presentations from Shinji Tanaka. 概要は、「ウェブサービスのパフォーマンスを向上させスケーラビリティを高めるために、はてなでは様々な取組みを行っています。セッションでは、はてなで採用している具体的な技術、ノウハウ、可視化手法と、それらの効果について紹介します。」というものです。 最近の、Interopやカーネル読書会あたりで話した内容をまとめつつ、レスポンスタイムの可視化という最近の取り組みについて話しました。 最近、レスポンスタイムについては、以下のようなグラフを使っています。 x軸がレスポンス時間、y軸がその時間内に収

    KOF2009「ウェブサービスのパフォーマンスとスケーラビリティ」 - stanaka's blog
  • Hadoop World NYC 参加記 - moratorium

    Hadoop World NYC 参加記 2009-10-07 (Wed) 10:03 Hadoop と言う訳でHadoop World NYC, 2009の参加記を書きます。 1日目はSystem Administrator用のトレーニングコースを受け、2日目がカンファレンス番でした。トレーニングコースはDeveloper向け(3日間)とManager向けのビジネス寄りのコースが有り、合計で100人ぐらいは参加していたと思います。カンファレンスの番自体は400~500人の参加でした。 まずSystem Adminコースですが、大体以下のような内容でした。 MapReduceの基概念 ハードウェア/ネットワーク機器の選定ポイント OSやJavaなど、ソフトウェアでの注意点 Hadoop(Cloudera Distribution)のインストール方法 パラメーター/パフォーマンスチュー

  • Silicon Soul » HadoopDBのアーキテクチャ

    ■HadoopDBのアーキテクチャについて HadoopDB: An Architectural Hybrid of MapReduce and DBMS Technologies for Analytical Workloads. Azza Abouzeid, Kamil Bajda-Pawlikowski, Daniel J. Abadi, Avi Silberschatz, Alex Rasin. In Proceedings of VLDB, 2009. より、 HadoopDBのアーキテクチャに関する章から、Hadoopに追加された4つのコンポーネントについて順に読んできます。 ▼Database Connector Database Connectorは、クラスタの各ノードにある個別のデータベースとTaskTrackerの間のインタフェースで、 HadoopのInputFo