タグ

hadoopに関するyamkazuのブックマーク (24)

  • VMware が Spring Hadoop を発表

    Spring BootによるAPIバックエンド構築実践ガイド 第2版 何千人もの開発者が、InfoQのミニブック「Practical Guide to Building an API Back End with Spring Boot」から、Spring Bootを使ったREST API構築の基礎を学んだ。このでは、出版時に新しくリリースされたバージョンである Spring Boot 2 を使用している。しかし、Spring Boot3が最近リリースされ、重要な変...

    VMware が Spring Hadoop を発表
  • United States

    7 steps to a lean, clean Windows machinePerforming a regular disk-cleaning regimen frees up precious storage space and helps keep Windows 10 or 11 operating smoothly. Follow some or all of these steps to get yourself a lean, clean machine.

    United States
  • NTTデータが「Hadoop」戦略の最新動向を米国で披露--富士通とストレージシステム共同開発

    注目が集まるビックデータ分野を支える技術命は、オープンソースの分散処理ソフトHadoopだろう。Hadoopは、Googleが唱える大規模データ処理方式を実装したオープンソースソフトウェアで、テラバイト~ペタバイト級のデータの蓄積・処理を得意とする。IBMはHadoopをベースとした製品をリリースし、オラクルは主要製品ExadataとHadoopのコネクタを発表して連携を推し進めている状況だ。 こうした中、米国ニューヨークで11月8日より2日間「Hadoop World NYC 2011」が開催された。Hadoop Worldは第3回目の開催で、最新事例や技術に関する情報が一同に集まるイベントとして知られている。27カ国から1400名以上が集まり、60を超える講演が繰り広げられた。 このイベントにおいて、NTTデータは「Hadoop's Life in Enterprise Syste

    NTTデータが「Hadoop」戦略の最新動向を米国で披露--富士通とストレージシステム共同開発
  • Tokyo HBase Meetup - Realtime Big Data at Facebook with Hadoop and HBase (ja)

    This is the Japanese translation of the presentation at Tokyo HBase Meetup (July 1, 2011) Author: Jonathan Gray Software Engineer / HBase Commiter at FacebookRead less

    Tokyo HBase Meetup - Realtime Big Data at Facebook with Hadoop and HBase (ja)
    yamkazu
    yamkazu 2011/07/04
    すげぇ
  • Apache CassandraとApache Hadoopを一体化した「Brisk」発表 | OSDN Magazine

    「Apache Cassandra」の商用サービスを提供する米DataStaxは3月22日(米国時間)、Cassandraと「Apache Hadoop」を組み合わせたディストリビューション「Brisk」を発表した。1カ月半後のリリースに向け、ユーザー登録を開始している。 Apache CassandraとApache Hadoopはともに非営利団体Apache Software Foundation(ASF)のオープンソースプロジェクト。Apache Cassandraは元々は米Facebookで開発された技術。オープンソースの分散データベース管理システムで、大規模データ用の拡張性などを特徴とする。一方、Apache Hadoopは米Yahoo!がASFに寄贈した技術で、大規模データ用の分散コンピューティング用ソフトウェアとなる。 DataStaxが発表したBriskは、HadoopとH

    Apache CassandraとApache Hadoopを一体化した「Brisk」発表 | OSDN Magazine
  • MapReduceによる大規模データを利用した機械学習

    東京大学 松尾研究室が主催する深層強化学習サマースクールの講義で今井が使用した資料の公開版です. 強化学習の基礎的な概念や理論から最新の深層強化学習アルゴリズムまで解説しています.巻末には強化学習を勉強するにあたって有用な他資料への案内も載せました. 主に以下のような強化学習の概念やアルゴリズムの紹介をしています. ・マルコフ決定過程 ・ベルマン方程式 ・モデルフリー強化学習 ・モデルベース強化学習 ・TD学習 ・Q学習 ・SARSA ・適格度トレース ・関数近似 ・方策勾配法 ・方策勾配定理 ・DPG ・DDPG ・TRPO ・PPO ・SAC ・Actor-Critic ・DQN(Deep Q-Network) ・経験再生 ・Double DQN ・Prioritized Experience Replay ・Dueling Network ・Categorical DQN ・Nois

    MapReduceによる大規模データを利用した機械学習
  • Inside of Asakusa DSL

    第2回 NHNテクノロジーカンファレンス 講演資料(2012年8月18日) 日々進化するHadoopの 「いま」 株式会社NTTデータ 基盤システム事業部 OSSプロフェッショナルサービス シニアエキスパート 濱野 賢一朗 (日Hadoopユーザー会) NTT DATA CORPORATION System Platforms Secter Senior Expert Kenichiro Hamano

    Inside of Asakusa DSL
  • Hadoopで基幹バッチを高速化、オープンソースのフレームワーク登場 - @IT

    2011/02/10 ウルシステムズは2月9日、Hadoopを使って企業の基幹業務システムのバッチを高速処理するためのソフトウェアフレームワーク「Asakusa Framework」を開発、正式版をオープンソースとして3月頃に提供すると発表した。なお、インテックは自社の仮想ホスティングサービス「EINS/SPS(アインスエスピーエス)」上にHadoop基盤を構築した。ウルシステムズはこのHadoop基盤を用い、Asakusaを使った基幹業務処理の基盤サービスを自社の顧客に対して提供するという。インテックは順次、ウルシステムズ以外の顧客にもHadoop基盤サービスを提供開始する。 ウルシステムズの開発した Asakusaは、大量データの処理に適したオープンソースの分散処理基盤ソフトウェアであるHadoopを、基幹システムのバッチ処理高速化に使うためのフレームワーク。Asakusaは、Hado

  • 「Hadoop徹底入門」が出ます - Preferred Networks Research & Development

    MacBook Air 11インチ欲しい!、太田です。 1/27に、執筆に関わらせて頂いた「Hadoop徹底入門」というが、翔泳社さんから出版されます。 OSS分散フレームワーク「Hadoop」の、日語では初めてとなる書き下ろしになります。執筆はNTTデータでHadoopのお仕事をされている、下垣さん、猿田さん、藤井さん、濱野さん、そして私になります。また、翔泳社の石川さんには非常にお世話になりました。 目次はこのブログの最後に掲載させて頂きました(詳細はこちら)。Hadoopとは何か?といった説明に始まり、Hadoopの周辺プロダクト(Hive, Pig, HBase, Thrift)も詳しくカバーされています。 Hadoopに関して現在日語で読める大きな情報源として有名なのは、オライリーさんから出版されている「Hadoop」になります。 書はこのと補完関係に有ると思ってい

    「Hadoop徹底入門」が出ます - Preferred Networks Research & Development
  • HBaseとはどんなNoSQLデータベースなのか? 日本語で読める情報を集めてみた

    Facebookが新しいサービス「Messages」の基盤として、NoSQLデータベースの「HBase」を選択したことを、先日の記事「Facebookが新サービスの基盤にしたのは、MySQLでもCassandraでもなく、HBaseだった」で紹介しました。 HBaseは、Facebookによると次のような特徴を備えていると説明されてます。 負荷に対して非常に高いスケーラビリティと性能を発揮 CassandraよりもシンプルなConsistency Model(一貫性モデル)を備えている 自動ロードバランス、フェイルオーバー、圧縮機能 サーバーごとに数十個のシャードを割り当て可能、などなど このHBaseはどのようなデータベースなのでしょうか? 情報を集めてみました。 HBase入門のプレゼンテーション 最初に紹介するのは「HBaseエバンジェリスト」Tatsuya Kawano氏のプレゼン

    HBaseとはどんなNoSQLデータベースなのか? 日本語で読める情報を集めてみた
  • Hadoopのジョブのパフォーマンスチューニング

    Hadoop 0.21ではCounterでGCに使っている時間が見れるようになりました。 こんな感じです。 この例では5秒程度ですが、ジョブによってはもっとGCに時間を使っている場合があり、 もっと詳細を調べてチューニング出来ないかという話です。 まずはGCのログを取ります。 <name>mapred.child.java.opts</name> <value>-Xloggc:/tmp/hadoop-mikami/@taskid@.gc -Xmx1024m</value> このように-Xloggc で指定した場所にログを取れます。 @taskid@ には attempt_201010311624_0037_m_000000_0 みたいな感じでattempt_id が入ります。 以下が先程のジョブのあるMapタスクでのGCログです 0.164: [GC 3072K->416K(889

  • NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮

    業界トップ のエンタープライズ Hadoop 企業 Cloudera に入社しました http://www.cloudera.co.jp/ 今年の6月に、「平成21年度 産学連携ソフトウェア工学実践事業報告書」というドキュメント群が経産省から公表されました。 そのうちの一つに、NTTデータに委託されたHadoopに関する実証実験の報告書がありましたので、今更ながら読んでみることにしました。 Hadoop界隈の人はもうみんなとっくに読んでるのかもしれませんけど。 http://www.meti.go.jp/policy/mono_info_service/joho/downloadfiles/2010software_research/clou_dist_software.pdf 「高信頼クラウド実現用ソフトウェア開発(分散制御処理技術等に係るデータセンター高信頼化に向けた実証事業)」という

    NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮
  • 見えてきたHadoopの“使いどころ”─「Hadoop Hack Night Vol.2」開催 | gihyo.jp

    見えてきたHadoopの“使いどころ”─「Hadoop Hack Night Vol.2」開催 8月4日、六木ミッドタウンのヤフー株式会社にて、今回で2回目となるHadoopをテーマにしたイベント「Hadoop Hack Night Vol.2」が開催された。 Hadoop(ハドゥープ)は、いま注目のクラウドコンピューティングなどに利用されているMapReduce技術が使えるオープンソースソフトウェア。大規模なデータの解析処理などに分散システムを利用したい場合に大きな力を発揮する。 このように注目を集めているHadoopだが、実際に数テラバイト以上といった大容量のデータを処理しなければならないケースはまだそれほど多くない。大きな期待を集めながら「生きた実例」に乏しいのもHadoopをめぐる1つの状況だろう。そこで、今回の「Hadoop Hack Night Vol.2」は「ケーススタディ

    見えてきたHadoopの“使いどころ”─「Hadoop Hack Night Vol.2」開催 | gihyo.jp
  • Adobe が Hadoop のための Puppet レシピをリリース

    Spring BootによるAPIバックエンド構築実践ガイド 第2版 何千人もの開発者が、InfoQのミニブック「Practical Guide to Building an API Back End with Spring Boot」から、Spring Bootを使ったREST API構築の基礎を学んだ。このでは、出版時に新しくリリースされたバージョンである Spring Boot 2 を使用している。しかし、Spring Boot3が最近リリースされ、重要な変...

    Adobe が Hadoop のための Puppet レシピをリリース
  • Yahoo Developer Network | SlideShare

    The Yahoo Developer Network (YDN) is Yahoo!'s central resource for developers and partners. YDN offers developer tools, APIs, web services, and resources that help developers build rich web experiences, integrate key data sources, and drive traffic. hadoop hug yahoo hadoopsummit apache hadoopindiasummit hdfs technology big data #india #hyderabad #yahoohack yahoo! #yahoo yarn spark hive indiahadoop

  • Hadoopがスケール・アウトする仕組み

    前回の記事では、Hadoopが膨大なデータをバッチ処理するための「インフラ」としての性質を備えていること、情報爆発時代の新たなインフラとして普及しつつあることを説明しました。その中で、情報爆発時代に必要とされるインフラは、「スケール・アウトが可能であること」という条件を備えていなければならないことを示しました。サーバーの台数を増やすことで容易にシステムの処理性能が増やせることは、Hadoopの重要な特徴です。今回は、Hadoopがどのようにしてスケール・アウトを可能にしているかを、「分散ファイル・システム」と「MapReduceフレームワーク」の2つの観点から解説します。 スケール・アウトとは? コンピュータ・システムを新たに構築するときは、必ず「運用」のことを考えておく必要があります。システム・トラブルが発生した場合の対応策を決めたり、将来の仕様変更に備えてプログラムに拡張性を持たせたり

  • Hadoopは企業のための新たな情報分析プラットフォームとなる、とCloudera

    グーグルが大規模分散システムのために用いているMapReduceという技術を、オープンソースとして実装したJavaベースのソフトウェア「Hadoop」です。 Hadoopは当初、Yahoo!やFacebook、Facebookといったネット企業が数テラバイト、ペタバイトにおよぶ大規模なログなどを分析するのに利用していましたが、現在ではVISAやJP Morgan Chase、China Moblieなど一般の企業でも大規模なデータ処理にHadoopを用いています。多くの処理がネットで行われるにつれ、「Big Data」と呼ばれる大規模データは処理のニーズはさまざまな企業に広がっています。 Hadoopは新しいデータ分析プラットフォームになる Hadoopの商用ディストリビューションを提供する「Cloudera」は、Hadoopをあらゆる企業、組織の情報分析プラットフォームにするというビジョ

    Hadoopは企業のための新たな情報分析プラットフォームとなる、とCloudera
  • HMaster Japan: HBase: Java VM の GC とメモリー関連の設定

    2010年6月6日日曜日 HBase: Java VM の GC とメモリー関連の設定 Question: Java VM のガベージコレクション(GC)の挙動が、リアルタイム性能に影響を与えたりしないでしょうか? Answer: フルGCの発生や慢性的なメモリー不足などにより、HBase が稼動している Java VM が一時停止すると、DB操作のレスポンス悪化につながります。また、一時停止の時間が数十秒を超えると、そのノードが HBaseクラスターから切り離される(ノードが自主的にシャットダウンする)こともあります。 これらについては、以下の方法で予防できます。 Java VM のガベージコレクタとして、Sun Java 6 の CMS GC(コンカレント マーク&スイープ GC)を選択します。HBase 0.20 以降では、CMS GC はディフォルトで選択されていますので、設定の変

  • Hadoopを使いこなす(1)

    まず、 1 の入力ファイルを分割する方法は、InputFormatクラスの、getSplits関数を上書きすることで、カスタマイズできます。 また、 3 のInputSplitから、KeyとValueを抽出する処理も、InputFormatクラスを通じてカスタマイズできます。 InputFormatのgetRecordReader関数を通じて、RecordReaderクラスを生成するのですが、これに任意のRecordReaderクラスを指定すればOKです。 2 のMap処理ですが、ユーザが指定したMapperクラスの処理を実行します。 Mapperクラスは、MapRunnerクラスを通じて、初期化処理、map関数を繰り返す過程、終了処理といった一連の流れを実行します。 MapRunnerクラスをカスタマイズすれば、こうした流れを制御することができます。 0.20.0からの新しいMapRed

    Hadoopを使いこなす(1)
  • Hadoopを業務で使ってみた話 - クックパッド開発者ブログ

    8月に入社した佐々木です。こんにちわ! 入社してからはHadoopを使うことが多く、日々、大規模データと格闘しています。大変ではありますが、個人ではなかなか触ることが出来ないような大規模データを触れるのは楽しいです。 さて、Hadoopは最近色々なところで使われ始めてきていると思うんですが、実際に利用してみて困った事やtipsなど、実践的な情報はまだあまり公開されていません。その辺の情報をみんな求めているはず…!! そこで、僕が実際に触ってみて困った事やHadoopを使う上でポイントだと思ったことなどを社内勉強会で発表したので公開してみます。Hadoopを使っている(使いたいと思っている)方の参考になれば幸いです。 [slideshare id=2711363&doc=20091214techblog-091213183529-phpapp02] Hadoopの利用はまだまだ試行錯誤の連続

    Hadoopを業務で使ってみた話 - クックパッド開発者ブログ