並び順

ブックマーク数

期間指定

  • から
  • まで

241 - 280 件 / 2879件

新着順 人気順

hdfsの検索結果241 - 280 件 / 2879件

  • Hadoop HDFSコマンド実行メモ(0.20.1)

    # 全体のhelpを見る $ bin/hadoop dfs -help # コマンド単体のヘルプを見る $ bin/hadoop dfs -help ls -ls <path>: List the contents that match the specified file pattern. If path is not specified, the contents of /user/<currentUser> will be listed. Directory entries are of the form dirName (full path) <dir> and file entries are of the form fileName(full path) <r n> size where n is the number of replicas specified for the

    • リクルート式Hadoopの使い方

      リクルート式Hadoopの使い方 - Presentation Transcript リクルート式Hadoopの使い方 株式会社リクルートMIT システム基盤推進室インフラソリューショングループ石川 信行 はじめに・・・ □名前 石川 信行 (   ground_beetle) □出身 福島県 いわき市 □経歴 ・2009年リクルート新卒入社 ・営業支援システムのコーダー(java)、DBAとして参加。 ・JavascriptのLibであるSenchaを用いたスマホサイト開発 ・現Hadoop推進担当 □趣味 ・外国産カブト虫飼育 ・スキューバダイビング ・海水魚飼育 リクルートの組織体制について 旅行C 営業 企画 自動車C 営業 企画 住宅C 営業 企画 MIT United 事業担当MIT  事業担当MIT  事業担当MIT  ・マーケティング・分析チーム  ・インフラ基盤チーム  

      • Hadoop

        TOPICS Database 発行年月日 2010年01月 PRINT LENGTH 568 ISBN 978-4-87311-439-2 原書 Hadoop: The Definitive Guide, First Edition FORMAT 本書は、Hadoopの基礎から応用までを包括的に解説する書籍です。はじめに、Hadoopの分散ファイルシステムHDFSやI/Oの効率化の仕組みなど、Hadoopの基礎を説明し、なかでもMapReduceについて詳しく解説します。MapReduceのアプリケーションを開発するために必要なステップを一通り紹介し、さらにユーザの目から見てMapReduceがどう実装されるのかを詳述します。後半ではHadoop管理者のために、HDFSとMapReduceを実行するためのHadoopクラスタの立ち上げと管理の方法を紹介。さらにPig、HBase、ZooK

          Hadoop
        • NTTデータが「Hadoop」戦略の最新動向を米国で披露--富士通とストレージシステム共同開発

          注目が集まるビックデータ分野を支える技術の本命は、オープンソースの分散処理ソフトHadoopだろう。Hadoopは、Googleが唱える大規模データ処理方式を実装したオープンソースソフトウェアで、テラバイト~ペタバイト級のデータの蓄積・処理を得意とする。IBMはHadoopをベースとした製品をリリースし、オラクルは主要製品ExadataとHadoopのコネクタを発表して連携を推し進めている状況だ。 こうした中、米国ニューヨークで11月8日より2日間「Hadoop World NYC 2011」が開催された。Hadoop Worldは第3回目の開催で、最新事例や技術に関する情報が一同に集まるイベントとして知られている。27カ国から1400名以上が集まり、60を超える講演が繰り広げられた。 このイベントにおいて、NTTデータは「Hadoop's Life in Enterprise Syste

            NTTデータが「Hadoop」戦略の最新動向を米国で披露--富士通とストレージシステム共同開発
          • 参加レポート: Fluentd Meetup – 新しい応用事例とv1に関する発表 – | DevelopersIO

            5/13(火)に開催されたfluentdのイベント「Fluentd Meetup - 新しい応用事例とv1に関する発表 -」に参加してきました! 会場は六本木ヒルズクロスポイントの5階、株式会社フリークアウト様の本社「Hills-Garage」。超オシャレなスペースでした。ライブハウスみたいですね。 本イベントはトレジャーデータ様と.dotsというサービスを提供している株式会社インテリジェンス様の共催でした。主催者様、会場提供者様、ありがとうございました。 レポート Fluentd v1 and Roadmap by 中川 真宏氏 (@repeatedly) ・v1をどうするかについてはgithubのissueに全て書いてある。 →そこに書いたものをまとめたのが今日のスライド。 ・fluentd概要 →MxNをM+Nにする、ログの収集・配送を一本化することを目標にしているのがfluentd

              参加レポート: Fluentd Meetup – 新しい応用事例とv1に関する発表 – | DevelopersIO
            • Apache Hadoop エコシステム を中心とした分散処理の今と未来

              Copyright©2015 NTT corp. All Rights Reserved. Apache Hadoop エコシステム を中心とした分散処理の今と未来 小沢 健史 ozawa.tsuyoshi@lab.ntt.co.jp ozawa@apache.org 2 Copyright©2015 NTT corp. All Rights Reserved. • 処理基盤の意義 • MapReduce の動向と進化 • MapReduce の概要 • MapReduce の課題と解法 • 分散処理基盤の動向 • Google の処理基盤スタック • Microsoft の処理基盤スタック • オープンソースの処理基盤スタック • オープンソース開発 • なぜ会社として貢献するか • 活動内容 • 面白かったこと,大変なこと • これからの目標 アジェンダ 3 Copyright©201

              • Workflow Engines Meetup #1 に参加してきた #wfemeetup - 試纏

                Workflow Engines Meetup #1 - connpass 2017/03/09 Workflow Engines Meetup #1 #wfemeetup - Togetterまとめ ビッグデータ基盤周りの業務に携わっている者にとって『ワークフローエンジン』は非常に重要な位置を占める"関心事"です。OSSから商用のものまでこの分野のツールやプロダクトは数多く存在し、多かれ少なかれ皆さん苦労しながらもそれぞれの利用ノウハウを蓄積している状況の様です。そんな中、そのものズバリの勉強会が企画されていたので速攻で申し込み、この日参加してきました。 イントロ セッション内容 Digdag:Digdagの特徴とQuick Start Jenkins:Jenkins 2.0 Pipeline & Blue Ocean Luigi:Luigiを使っている話 Azkaban:Azkaban

                  Workflow Engines Meetup #1 に参加してきた #wfemeetup - 試纏
                • Meet Michelangelo: Uber’s Machine Learning Platform

                  Data / MLMeet Michelangelo: Uber’s Machine Learning PlatformSeptember 5, 2017 / Global Uber Engineering is committed to developing technologies that create seamless, impactful experiences for our customers. We are increasingly investing in artificial intelligence (AI) and machine learning (ML) to fulfill this vision. At Uber, our contribution to this space is Michelangelo, an internal ML-as-a-serv

                    Meet Michelangelo: Uber’s Machine Learning Platform
                  • Amazon Elastic MapReduceに今さら入門してみた - nokunoの日記

                    というわけで冬休み最後の自由研究として、Amazon Elastic MapReduce(EMR)を使ってみました。今なら公式ページもほぼ日本語化していて楽チンです。Amazon Web Services (日本語) Amazon Elastic MapReduceとはAmazon EMRは、Amazonのインフラ上で動作する仮想サーバーを使ったHadoopクラスタを時間単価で貸し出すサービスです。少々わかりにくいので、Amazon Web Service(AWS)の関連する製品群について整理しておきます。EC2 (Elastic Compute Cloud) EC2は、仮想マシンを時間単価で貸し出すサービスです。 EMRを使わずに、EC2に自前でHadoopをインストールして使うやり方もあります(EMRが出来る以前はそれしかなかった)。 EMRを使う場合でも、バックグラウンドでは自動的に

                    • Apache Drill - Schema-free SQL for Hadoop, NoSQL and Cloud Storage

                      Agility Get faster insights without the overhead (data loading, schema creation and maintenance, transformations, etc.) Flexibility Analyze the multi-structured and nested data in non-relational datastores directly without transforming or restricting the data Query any non-relational datastore (well, almost...) Drill supports a variety of NoSQL databases and file systems, including HBase, MongoDB,

                      • Hadoop運用管理の今

                        Hadoopの最新状況 2006年、Hadoopはウェブのインデックス処理を行うために開発されました。その後さまざまな用途に利用されるようになり、それに伴いパフォーマンスの改善、セキュリティの強化、Hadoopを効率よく利用するためのエコシステムも多く誕生しました。今回は、そのうちのいくつかについて紹介します。 1) マスターノード単一障害点の解消 2) Impala - Hadoopの高速クエリエンジン 3) Hadoop運用管理ツール、Cloudera Manager 単一障害点(SPOF)の解消 Hadoopには単一障害点があるから怖くて使えない、という印象をお持ちの方はいらっしゃるのではないでしょうか?以前のバージョンのHadoopにはそのような問題がありました。(前回のコラムを参照)。単一障害点を解消するためにLinuxのクラスタソフトウェア(PacemakerやRed Hat

                          Hadoop運用管理の今
                        • hadoop-ec2でアクセス解析してみたよ!

                          前回(http://d.hatena.ne.jp/lopnor/20080831/1220183688)サンプルプログラムを動かすところまで行きましたけど、今回は例のid:naoyaのhadoop streamingでアクセス解析(http://d.hatena.ne.jp/naoya/20080513/1210684438)するのをやってみます。というかなんとかたどり着いたのでまとめを書きます。 *ec2の使い方 id:rx7さんがとても丁寧に説明されている資料(http://d.hatena.ne.jp/rx7/20080528/p1)があるので、そちらを読めば完璧だと思います。僕もこれでec2が使えるようになりました。 *hadoop-ec2の使い方 https://codezine.jp/article/detail/2841がイントロダクション。http://d.hatena.n

                          • 分断された多数のデータをひとつのプラットフォームに統合。データ分析基盤構築の道のり

                            LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog 2021年11月10日・11日の2日間にわたり、LINEのオンライン技術カンファレンス「LINE DEVELOPER DAY 2021」が開催されました。特別連載企画「 DEVDAY21 +Interview 」では、発表内容をさらに深堀りし、発表では触れられなかった内容や裏話について登壇者たちにインタビューします。今回の対象セッションは「分断されてしまったデータを2000台を超えるひとつのデータプラットフォームに統合した話」です。 LINEでは現在、200ペタバイトを超えるデータ分析基盤を運用しています。このデータプラットフォームはInformation Universe(以下、IU)と呼ばれており、LINEで扱うすべてのデ

                              分断された多数のデータをひとつのプラットフォームに統合。データ分析基盤構築の道のり
                            • 来年のHadoop - 急がば回れ、選ぶなら近道

                              Hadoopアドベント・カレンダーの多分最終日のはず。 せっかくなんで、来年の予想でもしてみようかと。 日本の話です。世界のことはよくわかりません。本当のことは、日本には伝わらない(表向きの話はともかく、現状ではVCあたりの外野の方が発言力があると思うし、向こうでも、その辺の正確な情報は伝播してる気がしません)と思うので。とはいえ、日本のHadoopマーケットは、それなりわかっている(というか、わかっていないとまずい)感じみたいなので・・・勝手に、来年のHadoopとか予想します。外れたら焼き肉おごります。 1 大量データ処理でのデファクト化 ・いわゆるWeb系ではつかっていないところは一社もなくなる 特にレコメンデーションエンジンあたりは、もう普通に実装して使う。ただし、それ以上のものは出ない。集計処理と推論をうまく利用したレコメンデーションエンジン(とその亜流)、従来からのフィルタリン

                                来年のHadoop - 急がば回れ、選ぶなら近道
                              • Apache Mesos だよ〜 - kuenishi's blog

                                これは、 Distributed computing (Apache Hadoop, Spark, ...) Advent Calendar 2016 - Qiita の13日目の記事である。 AMPLab発のなかでも屈指の地味さを誇る、データセンタースケジューラとかデータセンターOSと言われるソフトウェア、 Apache Mesos を紹介しよう。この記事も5分ほどで読めるはずだが、その5分が惜しい人は 忙しい人の5分で分かるMesos入門 - Mesos って何だ? をご覧いただきたい。はい、なんというか、非常にわかりやすい。要するに、Mesosを利用するプログラムはMesos APIを叩いていろんなタスクを分散環境で起動、管理できるようになっているわけだ。これ以上のMesosそのものの紹介はもうあちこちでされているので、ここでは違った角度から紹介したい。 他製品との比較 個人の感想

                                  Apache Mesos だよ〜 - kuenishi's blog
                                • 第2回 レコメンドシステムの実装と課題 | gihyo.jp

                                  今回はレコメンドシステムの実装の問題と、その解決策として利用するHadoopについて説明します。 今回のポイントは以下の通りです。 スケールアップの限界 分散処理フレームワークの民主化 Hadoop Map Reduceの概要 増え続けるデータをどう扱うか レコメンドシステムを協調フィルタリングのうち、ユーザベース方式により実装することを考えます。このシステムでは次のような映画の評価履歴を使い、「⁠この映画を評価した人はこの映画も評価しています」という映画の推薦を行います。 駄右衛門、ザスーラ、5、2009/12/21、・・・・ 駄右衛門、ジュマンジ、5、2009/12/28、・・・・ 菊之助、ブルースブラザーズ、5、2009/12/29、・・・・ 利平、ザスーラ、4、2010/01/01、・・・・ 十三、ハングオーバー、4、2010/01/01、・・・・ 利平、ジュマンジ、4、2010/

                                    第2回 レコメンドシステムの実装と課題 | gihyo.jp
                                  • 簡単なデータ操作を PySpark & pandas の DataFrame で行う - StatsFragments

                                    Spark v1.3.0 で追加された DataFrame 、結構いいらしいという話は聞いていたのだが 自分で試すことなく時間が過ぎてしまっていた。ようやく PySpark を少し触れたので pandas との比較をまとめておきたい。内容に誤りや よりよい方法があればご指摘 下さい。 過去に基本的なデータ操作について 以下 ふたつの記事を書いたことがあるので、同じ処理のPySpark 版を加えたい。今回は ひとつめの "簡単なデータ操作〜" に相当する内容。 pandas 版 簡単なデータ操作を Python pandas で行う - StatsFragments Python pandas でのグルーピング/集約/変換処理まとめ - StatsFragments 準備 環境は EC2 に作る。Spark のインストールについてはそのへんに情報あるので省略。サンプルデータは iris を

                                      簡単なデータ操作を PySpark & pandas の DataFrame で行う - StatsFragments
                                    • 複数マシンへHadoopをインストールする:CodeZine

                                      1.前回のおさらい 前回はHadoopを1台のマシンにインストールし、簡単なサンプルプログラムを実行しました。また、HDFSやMapReduceについても解説しました。今回は複数のPCへのインストールを行います。その後、大規模なデータを実際に処理し、その性能を測ってみたいと思います。2.用意した環境 今回は、東京大学 理学部 情報科学科で学生用に解放されているクラスタを使用しました。このクラスタは24台のノード(c0-0 ~ c0-23)で構成されており、1GbpsのEthernetで相互に接続されています。また、すべてのノードの/homeディレクトリはNFSで共有されています。計算ノードのスペックは次のとおりです。

                                      • Kuduリリース!

                                        オープンソースの新しいストレージエンジン、Kudu ついに本日アナウンスされた Kudu (クドゥ)、次世代ハードウェアにも対応するオープンソースのストレージエンジンです。まだベータ版ですが、3年もの開発期間を経てついに公開されました! Super excited to finally talk about what I've been working on the last 3 years: Kudu! http://t.co/1W4sqFBcyH http://t.co/1mZCwgdOO5 — Todd Lipcon (@tlipcon) September 28, 2015 数日前にリークされた記事に「KuduはHDFSやHBaseを置き換えるものだ」と書かれていましたが、それは間違いです。詳細はFAQなどにも書かれていますが、HDFSとHBaseを補う新しいストレージエンジンです

                                          Kuduリリース!
                                        • PythonからDataprocを操作してシームレスに並列処理を実現する - astamuse Lab

                                          初めまして。2019年6月にAstamuseにjoinした rinoguchi です。 ついに昨日、日本でも緊急事態宣言が出ましたね。小学校の休校も1ヶ月程度延長されましたし、会社もリモートワークにほぼ移行してますし、ここできっちりウイルスの拡散を防ぎたいところです。 ちなみに、妻がドイツに単身赴任中なのですが、ドイツでは感染者は多くて外出自粛モードになっているものの、現地の人たちはせっかくだからと日曜大工したり、庭を改造したりとそれなりに楽しんでいるみたいです。私たちも制限された環境の中ですが、せっかくなので楽しみたいですね! 屋根瓦. なんとなく並列処理を連想しませんか? はじめに それはそうと、私は当社で、特許データなどの名寄せ(同一人物に対してユニークなIDをふる作業)を担当しております。 特許の名寄せには、人物名・組織名・出願日・共同出願人など様々な特徴を利用するのですが、中国人

                                            PythonからDataprocを操作してシームレスに並列処理を実現する - astamuse Lab
                                          • ファイルシステムの仮想化とは何か

                                            広義ではRAIDもストレージ仮想化の1つだ。だが、過去数年にわたり、それよりも上位レイヤのさまざまな仮想化が、ブロックストレージやNASに実装されるようになってきた。クラウド化の進行とともに注目が高まるスケールアウト型ストレージも、ストレージ仮想化の一形態だ。本連載では、ストレージの世界で一般化する仮想化について、体系的に説明する 1. もう一つの仮想化対象、ファイルシステム 前回の記事では、SNIAによるストレージ仮想化の分類(図1・再掲)に基づき、「ディスクの仮想化」と「ブロックの仮想化」の概要について説明した。 今回の記事では、より上位レイヤの仮想化である「ファイルシステムの仮想化」 「ファイルの仮想化」について解説する。また、ストレージ仮想化の方式をより 細かく分類するためのフレームワークを紹介する。 なお、ファイルの仮想化は、ファイルシステムの仮想化の一機能として実装されることが

                                              ファイルシステムの仮想化とは何か
                                            • Hadoop Python: Writing An Hadoop MapReduce Program In Python - Michael G. Noll

                                              In this tutorial, I will describe how to write a simple MapReduce program for Hadoop in the Python programming language. Motivation Even though the Hadoop framework is written in Java, programs for Hadoop need not to be coded in Java but can also be developed in other languages like Python or C++ (the latter since version 0.14.1). However, the documentation and the most prominent Python example o

                                              • Hadoopのディスクあふれ対策(補足) - 科学と非科学の迷宮

                                                最近流行りのディスク容量があふれたときの挙動、Hadoop編を書こうと思ったらwyukawaさんが既に書いてくださったのでやめました。 ……と思ったのですが、せっかくなので id:wyukawa さんが書いてない箇所を補足してみようと思います。 ( この記事は @kernel023 にレビューしてもらっています。ありがとうございます ) wyukawaさんの記事へのコメント まずHBaseを使っている場合はcompactionがある関係上Disk使用率は50%以内に抑えておくのが無難だと思います。この辺はCassandraと同じですね。 全データを同時にコンパクションするケースはまずないので無理に50%以下に抑えなくていいとは思いますが、意識はしておいた方がいいですね。 私は60%での警告を推奨しますが、この辺はケースバイケースです。 MapReduce の出力結果など、いきなり容量増える

                                                  Hadoopのディスクあふれ対策(補足) - 科学と非科学の迷宮
                                                • (新機能)「Data Connector for Amazon S3」によるデータロード革命 - トレジャーデータ(Treasure Data)ブログ

                                                  はじめに トレジャーデータでは,あらゆるデータソースにリーチするデータ収集ツールを用意していますが,新しい収集機能として「Data Connector」を順次リリースする予定です。 ↑ 従来の収集ツールに関しては過去記事をご覧下さい。 何が新しいのか? さて,今回紹介する「Data Connector for Amazon S3」はその名の通り,Amazon S3上のデータをトレジャーデータに設定のみで「バルクデータロード」する機能です。この機能は先日オープンソースとしてリリースされた Embulk をベースにしたものです。 Embulk については以下の過去記事をご参照ください。 従来の Bulk Import 機能は「Client to Server」型 従来のトレジャーデータの「バルクインポート」機能は,クライアント上の巨大なデータに対して,トレジャーデータへ安全かつ効率良く実行する

                                                    (新機能)「Data Connector for Amazon S3」によるデータロード革命 - トレジャーデータ(Treasure Data)ブログ
                                                  • LINEの1億ユーザを支えるHBaseのチカラ─Hadoop Conference Japan 2013 Winterレポート(2) | gihyo.jp

                                                    LINEの1億ユーザを支えるHBaseのチカラ─Hadoop Conference Japan 2013 Winterレポート(2) 1月21日に開催された「Hadoop Conference Japan 2013 Winter」の基調講演では、先日、ついに1億ユーザを達成したメッセージングサービス「LINE」で利用されているHBaseの実態について、NHN JapanでLINEのストレージを担当する中村俊介氏が紹介を行いました。本稿ではその概要をレポートします。 NHN Japan 中村 俊介氏 最も重要視するのは「ストレージの高可用性」、HBaseはそのためにある FacebookやTwitterを抜くスピードで急成長を遂げるLINE。1月18日にはサービス提供開始からわずか19ヵ月で1億ユーザを達成し、大きな話題となりました。 急成長中のサービスを提供するために、その裏側で動くストレ

                                                      LINEの1億ユーザを支えるHBaseのチカラ─Hadoop Conference Japan 2013 Winterレポート(2) | gihyo.jp
                                                    • Prestoのパフォーマンス - Qiita

                                                      きっかけ アドテクスキルアップゼミ カラムナーデータベース検証まとめという記事が公開されたのですが,Presto/Impalaの結果があまりにも散々で,これはさすがに何かおかしいんじゃないかという話になってました. 今だとすでに記事に注釈が入ってますが,Presto/Impalaは生のテキストファイルを対象にしていたのが原因でした.なので,その辺について少し書き,実際Prestoはどんなもんなのかというのを簡単に示します. 列指向ファイルフォーマット Presto/Impalaが生のテキストファイルだったのに対し,他のクエリエンジンは違うフォーマットでデータを保存していて,これがかなり結果に響いてます.Redshift,BigQuery,Treasure Dataなど,データ解析系のサービスは皆列指向フォーマットを採用していて,データインポート時に勝手に変換が行われます.列指向フォーマット

                                                        Prestoのパフォーマンス - Qiita
                                                      • Apache Hive

                                                        Apache Hive The Apache Hive ™ is a distributed, fault-tolerant data warehouse system that enables analytics at a massive scale and facilitates reading, writing, and managing petabytes of data residing in distributed storage using SQL. Github Mail Docker Community Apache Hive is a distributed, fault-tolerant data warehouse system that enables analytics at a massive scale. Hive Metastore(HMS) provid

                                                        • Hadoop is Dead. Long live Hadoop の所感

                                                          数年前から「Hadoopは終わった」と言われることがあります。 厳密なHadoopの定義は Apache Hadoop プロジェクトを指しますが、現在では異なる意味で使われていることも多いです。では、Hadoopは時代と共に消えたソフトウェアなのでしょうか? @shiumachiの「Hadoopの時代は終わった」を正しく理解するの記事は、Hadoopを取り巻く環境の変化について書かれています。データ基盤の歴史に始まり、時代とともに変化し、現代におけるデータ基盤になっているという考察があり必見です。 Hadoop is Dead. Long live Hadoop. Arun C Murthy (Hortonworksの創業者であり、現在ClouderaのCPO)が本日公開したブログ、「Hadoop is Dead. Long live Hadoop」では、Hadoopは哲学(”Hadoop

                                                            Hadoop is Dead. Long live Hadoop の所感
                                                          • データフロー制御フレームワークLuigiを使ってビッグデータ解析をする - Qiita

                                                            Luigiとは LuigiはPythonで書かれたデータフロー制御フレームワークです。 ストリーミング音楽配信大手のSpotifyが開発しています。ソニーと提携したことでも話題になりましたね。 Luigi公式レポジトリ 本家のプレゼン資料がわかりやすいです。 一般的にビッグデータ解析では、統計・機械学習を行う前に、クレンジングやフィルタ処理をいくつも重ねる必要があります。その依存関係は複雑で、しかもデータの差し替えや失敗・中断時のやり直しなんてやりだすと、苦行の他のなにものでもありません。そんな時にLuigiは使えます。 名前のLuigiの由来は、データフローを配水管に例え、「世界で2番目に有名な緑色の服を身にまとった配管工」だとか…。赤じゃなくて緑なのは、Spotifyのコーポレートカラーと同じだからでしょうか(笑)。 Pythonではありますが、Pythonによる処理だけでなく、Had

                                                              データフロー制御フレームワークLuigiを使ってビッグデータ解析をする - Qiita
                                                            • Migrating Messenger storage to optimize performance

                                                              More than a billion people now use Facebook Messenger to instantly share text, photos, video, and more. As we have evolved the product and added new functionality, the underlying technologies that power Messenger have changed substantially. When Messenger was originally designed, it was primarily intended to be a direct messaging product similar to email, with messages waiting in your inbox the ne

                                                                Migrating Messenger storage to optimize performance
                                                              • Webサーバログ転送・ストリーム処理系私案 - たごもりすメモ

                                                                HTTPアクセスログをHiveが読める書式への変換やその他必要なデータ変換などストリーム処理で行いつつ転送して最終的にHDFSに時間ごとに書き込むぜー、というシステムを作ってる途中なんだけど、だいたい部品が揃いつつあるところでいったんまとめて書き出してみて見落としがないかどうか考えてみるテスト。 実在のシステムとは異なる可能性があるので(特に後日これを読む人は)あまり真に受けないほうがよいです。あと解析処理自体はHadoop上でHiveでやるのが大前提で、そこにデータをもっていくまでがここに書く話です。 (12/1 考えた末、構成を変えることにしたのでエントリ後半に追記した。) 前提システム 既にscribeを使用したログ収集・配送・保管系がある。各Webサーバは scribeline を使用してログをストリーム転送する。 scribelineのprimaryサーバとして配送用サーバ、se

                                                                  Webサーバログ転送・ストリーム処理系私案 - たごもりすメモ
                                                                • Amazon Web Services presentations channel

                                                                  Amazon Web Services (AWS) delivers a set of services that together form a reliable, scalable, and inexpensive computing platform “in the cloud”. aws amazon web services cloud computing cloud aws cloud ec2 events reinvent 2013 aws reinvent reinvent2013 s3 enterprise customer-presentation amazon reinvent startups solution-architecture-and-best-practices getting-started awssummit solution architectur

                                                                  • "Designing Data-Intensive Applications"は濃密すぎる一冊だったので2018年の自分にも読んでもらいたい

                                                                    "Designing Data-Intensive Applications"は濃密すぎる一冊だったので2018年の自分にも読んでもらいたい 分散システムに関する理解を整理するための一冊として素晴らしい、という声があり気になっていた "Designing Data-Intensive Applications" を一通り読んだ: https://twitter.com/frsyuki/status/846431130437890049 僕のような「用語としては知っている」程度の新人に「なぜそれが大切なのか」「なにが難しいのか」といったポイントを丁寧に説明してくれる、学びの多い充実の一冊だった。 冒頭では『早すぎる最適化(不要不急のスケーラブルなシステムの構築)は制約が増えてシステム設計が不自由になるだけなので無駄』という事実に触れ、適切なツールを選択することの重要性を説いている。本書が50

                                                                      "Designing Data-Intensive Applications"は濃密すぎる一冊だったので2018年の自分にも読んでもらいたい
                                                                    • 当日レポート[随時更新] | gihyo.jp

                                                                      9月10日、大田区産業プラザPiOにて「PHPカンファレンス2011」が開催されます。本稿では、本イベントの各セッションの模様を随時更新の形式でレポートしていきます。 会場設営が大分終わり、参加者の皆さんを待っているメイントラックのホールです。 今年のスタッフTシャツです。 会場に来られない方のために、ベストエフォートでUstreamによる中継が行われています。各トラックのチャンネルは以下のとおりです。 メイントラック ギークトラック テックトラック 廣川類さん「基調講演」 PHPカンファレンス2011は、PHPユーザー会の廣川類さんによる基調講演で幕を開けました。 まずは「PHPの歩み」として、PHPがブレイクしたきっかけとなったバージョン4から現在の5.3についてのおさらい、そして次期バージョンの5.4についての解説が続きます。PHP 5.4では、10~15%のパフォーマンス改善、コー

                                                                        当日レポート[随時更新] | gihyo.jp
                                                                      • PoweredBy - HADOOP2 - Apache Software Foundation

                                                                        Powered by Apache HadoopThis page documents an alphabetical list of institutions that are using Apache Hadoop for educational or production uses. Companies that offer services on or based around Hadoop are listed in Commercial Support. Please include details about your cluster hardware and size. Entries without this may be mistaken for spam references and deleted._ _ To add entries you need write

                                                                        • Hadoop超える機械学習向きのビッグデータ処理基盤、Spark 1.0が正式公開

                                                                          米Apache Software Foundationは、ビッグデータ処理を分散クラスター上で高速に実行できる処理基盤「Spark 1.0」を2014年5月30日(米国時間)に公開した。 HDFSを介してストレージ経由のやり取りが多くなるHadoopと比べて、インメモリー処理を主体とするSparkでは、より高速で低遅延の分析が可能となる。次世代のビッグデータ処理基盤として期待が集まっているフレームワークである。 SparkではHadoopと同じく、処理対象となるビッグデータをHDFSから読み取ることができるが、以後の処理は基本的にインメモリーで行う。このため、機械学習やグラフ計算のように繰り返し型の計算が多い処理を、Hadoopよりも高速に実行できる(関連記事:NECがビッグデータの機械学習を高速化する技術を開発、インメモリー処理やMPIを導入)。 Sparkは、もともと米Universi

                                                                            Hadoop超える機械学習向きのビッグデータ処理基盤、Spark 1.0が正式公開
                                                                          • アプリ屋がつくった分散ストレージソフトウェア「Scality RING」が普通でない理由

                                                                            スケールアウトストレージソフトウェア「Scality RING」を開発・提供する米スキャリティは3月5日、日本法人スキャリティ・ジャパンを設立した。この製品は他とどう違うのかを、米本社COOに聞いた。 米Scalityは3月5日、日本法人スキャリティ・ジャパンを設立、日本での本格的な事業展開を開始した。国内大手携帯キャリア3社のうち2社が電子メール用ストレージとして採用するなど、すでに国内における販売実績もある。日本法人社長に就任した江尾浩昌氏は、最優先事項として技術サポート体制の充実を挙げている。 ペタバイトレベルのデータがある組織のためのストレージ Scality RINGは、汎用サーバーを用い、大規模なオブジェクト/ファイルストレージを構築できるソフトウェア。200TB以上のストレージニーズを持つ組織が利用の目安だが、1PBを超えるあたりから同製品の優位性が明確化してくるという。同社

                                                                              アプリ屋がつくった分散ストレージソフトウェア「Scality RING」が普通でない理由
                                                                            • Clouderaで作るデータ分析環境 - 科学と非科学の迷宮

                                                                              wyukawaさんがデータ分析環境について書いていましたが、全部 CDH を使えば実現可能なので便乗して書いておこうと思います。 1. ETL 処理 CDH なら以下のツールがあります。 Sqoop RDBMS / DWH などに対するインポート・エクスポートツール。最近日本語の本も出版されたので皆さん買ってください。 Hue を使えば Web ブラウザ上から設定できます。デモビデオはこちら。 Pig Hive の影に隠れがちなクエリ言語ですが、特に ETL として使う場合は書きやすいです。中身は MapReduce。Java はもちろん、Python、Javascript、Ruby、そしてGroovyでUDFが書けるのが特徴。HCatalog というツールのおかげで Hive 同様スキーマを扱えるようになりました。 Hue を使えば Web ブラウザ上から実行できます。デモビデオはこちら

                                                                                Clouderaで作るデータ分析環境 - 科学と非科学の迷宮
                                                                              • 【インフラエンジニアに】S3 に置いてるログ、圧縮してますか?【聞いてみよう】 - AppBrew Tech Blog

                                                                                AppBrew で LIPS のリードエンジニアをやってる Pin (@spinute)と申します。 半年ほど前に AppBrew でアルバイトをしながら転職活動をしていましたが、いい感じだったのでそのまましれっと AppBrew に入社しました。 tech.appbrew.io 今日の記事では、圧縮し忘れていたログを圧縮し、35万円/月の費用を削減した話を紹介します。 確認するだけなら一瞬なので、AWS を使ってる会社の方は、担当の方にこの記事を共有してみると思わぬ費用削減に繋がるかもしれません...! LIPS のインフラ構成 問題発見の経緯 対応 Firehose のログ圧縮設定を有効にする 既存のログを圧縮する s3-dist-cp ログを削除する まとめ LIPS のインフラ構成 弊社のデータ処理基盤は開発初期に深澤が入れてくれたもので、大まかな構成は今もそのままです。 LIPS

                                                                                  【インフラエンジニアに】S3 に置いてるログ、圧縮してますか?【聞いてみよう】 - AppBrew Tech Blog
                                                                                • 「最前線で戦う若手インフラエンジニアたちが語る「技術トレンド」と「数年後の未来」」 - JTF2015 (July Tech Festa)

                                                                                  10:00 - 11:00 《基調講演》 ベンチャーCTO、AWSエバンジェリストを経て考える、クラウド時代に向き合うエンジニア像のこれから 対象: 初級 概要: インターネット、モバイル、クラウド、21世紀の3つの技術トレンドと言われるこれらの技術はエンジニアの働き方も大きく変えようとしています。このセッションでは、スタートアップ企業のCTOと、AWSエバンジェリストの経歴をたどった視点から、クラウド時代の真っ只中で、私達エンジニアの働き方はどう変わるのか、技術との接し方や、その時どうしたら幸せになれるのか、未来像をお話いたします。 堀内 康弘 1978年生まれ。慶應義塾大学大学院理工学研究科修士課程修了。 株式会社ブイキューブにて、学生時代からWebシステム開発に携わり、卒業後は取締役として開発をリードする。その後動画共有サービス「FlipClip」の立ち上げを経て、2009年、創業期

                                                                                    「最前線で戦う若手インフラエンジニアたちが語る「技術トレンド」と「数年後の未来」」 - JTF2015 (July Tech Festa)