タグ

hadoopに関するbobbyjam99のブックマーク (19)

  • リクルート全社検索基盤のアーキテクチャ、採用技術、開発体制はどうなっているのか

    リクルート全社検索基盤のアーキテクチャ、採用技術、開発体制はどうなっているのか:Elasticsearch+Hadoopベースの大規模検索基盤大解剖(1)(1/2 ページ) リクルートの事例を基に、大規模BtoCサービスに求められる検索基盤はどう構築されるものなのか、どんな技術が採用されているのか、運用はどうなっているのかなどについて解説する連載。初回は全体的なアーキテクチャ、採用技術、開発体制について。 連載目次 大規模BtoCサービスで求められる検索基盤は、どうあるべきなのか カスタマー(消費者)が求めるものが日々変わっていく現在において、BtoCの検索基盤はどうあるべきなのでしょうか。 例えば、リクルートで使われている検索基盤の「Qass(Query analyze search system)」は単に全文検索機能を提供するのではなく、以下を軸としています。 サービスごとに最適化され

    リクルート全社検索基盤のアーキテクチャ、採用技術、開発体制はどうなっているのか
    bobbyjam99
    bobbyjam99 2015/07/08
    Elasticsearch,Hadoop,Java8,Go,Clojure,Kibana,Embulk
  • 基幹システムをクラウドへあげるのは簡単ではなかった。ノーチラス・テクノロジーズがクラウドの現実を語る(前編)

    基幹システムをクラウドへあげるのは簡単ではなかった。ノーチラス・テクノロジーズがクラウドの現実を語る(前編) 基幹システムをクラウドで実現する。その過程でどのような技術を用い、どのような苦労があったのか。小売り流通業である西鉄ストアの基幹システムをAmazonクラウド(以下、AWSAmazon Web Services)の上で実現したノーチラス・テクノロジーズが、その詳細について紹介したセミナーを5月15日、アマゾンジャパン社のセミナールームで開催しました。 大規模システム開発の現状、Hadoopの可能性、クラウドのメリットとデメリットなど、参考にすべき多くの内容が語られたセミナーでした。この記事ではその概要を紹介します。 止まってはいけない基幹システムをクラウドへ ノーチラス・テクノロジーズ 代表取締役社長 神林飛志氏(写真中央)。 西鉄ストア様の部基幹システムをクラウドへ移行する

    基幹システムをクラウドへあげるのは簡単ではなかった。ノーチラス・テクノロジーズがクラウドの現実を語る(前編)
    bobbyjam99
    bobbyjam99 2013/06/03
    壮絶だけど面白そう。
  • ノーチラス第二期の開始 - 急がば回れ、選ぶなら近道

    Nautilus-technologiesの第二期に入った(というべきですね)。 まずAsakusaをOSSにして、早いものでもう一年になる。当時はとにかく3月中に公開するぞ、というぎりぎりの中での公開だった。相当無理があったが、チームが頑張ったので、なんとかできたというのが当時だったと思う。一年経過して状況を見ると、予想以上の反響になっている。ターゲットがそもそも業務系・基幹系のバッチ処理なので、名前が知られるには2−3年はかかるだろうな、と考えていたのだが、折からのビッグデータブーム(これはAsakusaの公開時点ではまだ来ていなかった)->Hadoopの知名度向上->バッチの高速化の流れにうまく棹さすように乗れている事も大きい。 また、OSSにしたことも結果として、よかった。まずは簡単に使えてもらえるということと、各SI屋さんや使い手のNot Invented Here 症候群への緩

    ノーチラス第二期の開始 - 急がば回れ、選ぶなら近道
  • クラウド技術の古典?

    世間では「クラウド」がおおはやりのようで、も杓子もクラウドxxxなる名前が付いていますが、ことの発端となっているgoogleのクラウド技術についての元情報にアクセスされている方は、結構少ないようです。 つい先日も、「仮想化」を除いたクラウドの技術的な原点はやはりgoogleの三部作であろうという話がありましたので、忘れないうちに原文のリンクを残したいと思います。 なお、今をときめくHadoopプロジェクト (Apacheファンデーションのプロジェクト)はこの三部作の技術をオープンソースで作ろうというところから始まりました。 The Google File System なんといっても「古典」の最初は、GFSでしょう。 現在はgoogleでは使っていないとは思いますが、現在のクラウド話の発端になる「分散ファイルシステム」の論文です。この論文を元にHadoop File System (HD

    クラウド技術の古典?
  • NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮

    業界トップ のエンタープライズ Hadoop 企業 Cloudera に入社しました http://www.cloudera.co.jp/ 今年の6月に、「平成21年度 産学連携ソフトウェア工学実践事業報告書」というドキュメント群が経産省から公表されました。 そのうちの一つに、NTTデータに委託されたHadoopに関する実証実験の報告書がありましたので、今更ながら読んでみることにしました。 Hadoop界隈の人はもうみんなとっくに読んでるのかもしれませんけど。 http://www.meti.go.jp/policy/mono_info_service/joho/downloadfiles/2010software_research/clou_dist_software.pdf 「高信頼クラウド実現用ソフトウェア開発(分散制御処理技術等に係るデータセンター高信頼化に向けた実証事業)」という

    NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮
  • Hadoop 0.20.0 をMacで“とりあえず”動かす

    高確率で思い込みによる説明.間違っていることが多い./「無知だったり、勘違いしていたり、底意を押しつけたり、いいかげんだったり、噂や疑惑を信じていたりして、狂気じみてさえいるかもしれません」( http://bit.ly/gs23zg ) Hadoopというプロジェクトがある(Hadoopとは1 Hadoopとは2)のでコイツをちょっと試してみた.ほんとにチョットCoreのQuick Startだけ. 準備 ssh, rsyncMacOSX10.5.6に入ってるので特にないかな. Download この辺りからたどって0.20.0を入手した. 展開したフォルダを$HADOOP_HOMEとする.基,Quick Startに沿ってやる.で,その中の'Pseudo-Distributed Operation'について書く. Configuration $HADOOP_HOME/conf/co

  • オルカンモブログ: Hadoop Quick Start on Mac

    2008年11月24日 Hadoop Quick Start on Mac 以下のページを参考にMac上でHadoopを動かしてみたので備忘録として書いておきます。躓いたところもそのまま書きますので内容としては纏まっていませんが、同じように躓いている方には参考になるかもしれません。 http://hadoop.apache.org/core/docs/current/quickstart.html まずは、以下のページからHadoopをダウンロードします。 新しものずきだから最新版 hadoop-0.19.0.tar.gz をダウンロード。 http://www.apache.org/dyn/closer.cgi/hadoop/core/ ダウンロードしたファイルを適当なディレクトリへ展開しておきます。 $ tar xzf hadoop-0.19.0.tar.gz 展開してできたhadoo

  • Hadoop入門とクラウド利用

    EDF2012 Kostas Tzouma - Linking and analyzing bigdata - Stratosphere

    Hadoop入門とクラウド利用
  • Hadoop入門

    ■Hadoopの理解にちょっと自信のない皆さんに贈る 40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料) 日Hadoopユーザー会 濱野 賢一朗/Kenichiro Hamano (NTTデータ)

    Hadoop入門
  • Hadoop

    The document discusses setting up Hadoop on a multi-node cluster. It goes through steps such as installing Java, downloading and extracting Hadoop, configuring nodes, formatting the HDFS, and starting processes on all nodes. Commands are shown to check the Hadoop version, run examples, and view logs.Read less

    Hadoop
  • Hadoopリンクまとめ(1) - 科学と非科学の迷宮

    Part1 / Part2 更新履歴 2010/06/20 リンク追加 入門、事例紹介、ニュース Part2へ移動 EC2、Pig、MapReduce、HDFS 新規追加 性能測定 公式 Welcome to Apache Hadoop! 日語訳 Hadoopユーザー会 Welcome to Hadoop MapReduce! "大規模な計算ノード・クラスタ上において膨大なデータを高速で並列処理するアプリケーションを作成するためのプログラミングモデルおよびソフトウェアフレームワーク" Welcome to Pig! "大規模なデータセットを分析するためのプラットフォーム""Pig の言語レイヤを構成しているのは、Pig Latin と呼ばれるテキストベースの言語" wikipedia Apache Hadoop - Wikipedia, the free encyclopedia Apa

    Hadoopリンクまとめ(1) - 科学と非科学の迷宮
  • ヤフーを変え始めたHadoop

    ヤフーが日独自の検索関連サービスの開発で、オープンソースの分散処理ソフトである「Hadoop」の活用を進めている。Hadoopを使うことで、従来は6時間以上かかった処理がわずか5分半で済むようになった例もある。2009年秋には組織を整備し、適用範囲を全社に広げている。 Hadoopは、米グーグルが開発した分散処理ソフト「Google File System(GFS)」と「MapReduce」を模したオープンソースソフトである(図)。GFSとMapReduceは、グーグルのクラウドを支える基盤技術。Hadoopを使うと、複数台の安価なPCサーバーを連携させ、数十テラ~数ペタバイトに及ぶデ ータを高速に処理できる。 Hadoopを日国内で最も積極的に利用している企業はヤフーだ。2008年ごろから部署単位でHadoopの導入を進め、Hadoopを使う事例が10件を超えるようになった(表)。

    ヤフーを変え始めたHadoop
  • GoogleのMapReduceは僕たちに必要か? - きしだのはてな

    ということで、Google MapReduceの実装であるHadoopを使ったMapReduceと、JMSを使ったMapReduceをやってみました。 メッセージキューを使って分散MapReduceを実装する HadoopでのMapReduceを気軽に試すサンプル これ何のためにやったかというと、そこらにあるような数十台規模のサーバーを前提としたときに、Hadoopの有効性、ひいてはその元になってるGoogle MapReduceの有効性について疑問に思ったからです。そこで、ちょっと試してみた、と。 ここで、メッセージキューを使った場合に1秒でできてた処理が、Hadoopを使うとスタンドアロンモードでも40秒近くかかりました。擬似分散モードだと4分近くです。 いくらHadoopの実装がひどいとしても、これはあんまりです。 Googleでの実装はもっと効率的なものになっていると思いますが、そ

    GoogleのMapReduceは僕たちに必要か? - きしだのはてな
    bobbyjam99
    bobbyjam99 2009/02/18
    MapReduceの存在意義に関する考察.ナイスですね.
  • HadoopでのMapReduceを気軽に試すサンプル 2009-02-15 - きしだのはてな

    Googleの分散処理技術であるMapReduceを、そのオープン実装のHadoopを使って試したいと思っても、なんか設定がめんどくさそうで二の足を踏んじゃう人は多いはず。 そこで、並列計算をせずにサーバーなしで動かせるサンプルを作ってみた。 ただ、設定は不要なんだけど、Windowsの場合はCygwinがやっぱり必要で、PATHにCYGWIN_HOME\binを追加しておく必要がある。残念。 今回は、Javaソース中のimportされたクラスを数えるっていう処理をMapReduceでやってみる。 Hadoopは、こっからダウンロード。0.17.2.1を使った。 http://hadoop.apache.org/core/releases.html コンパイル・実行には、解凍してできる次のJARをクラスパスに追加しておく必要がある。 HADOOP_HOME/hadoop-0.17.2.1-

    HadoopでのMapReduceを気軽に試すサンプル 2009-02-15 - きしだのはてな
    bobbyjam99
    bobbyjam99 2009/02/15
    HadoopでのMapReduceを気軽に試すサンプル
  • 楽天版MapReduce・HadoopはRubyを活用 - @IT

    2008/12/01 楽天は11月29日、東京・品川の社で開催した技術系イベント「楽天テクノロジーカンファレンス2008」において、近い将来に同社のEコマースサービス「楽天市場」を支える計画があるRubyベースの大規模分散処理技術「ROMA」(ローマ)と「fairy」(フェアリー)について、その概要を明らかにした。 レコメンデーションの処理自体はシンプル 楽天市場では現在、2600万点の商品を取り扱い、4200万人の会員に対してサービスを提供している。この規模の会員数・商品点数でレコメンデーション(商品の推薦)を行うのは容易ではない。 ※記事初出時に楽天市場の会員数を4800万人としてありましたが、これは楽天グループのサービス利用者全体の数字でした。楽天市場の会員数は正しくは4200万人とのことです。お詫びして訂正いたします。 レコメンデーションの仕組みとして同社は、一般的でシンプルなア

  • 本を読む GREE LabsでHadoopの話を聞いてきた

    GREEさんで不定期でやってる、GREE Labsオープンソーステクノロジー勉強会で、Hadoopの話を聞いてきました。Hadoopは、つまりはGoogleのGFSやMapReduceのクローンだそうで、「Googleを支える技術」にトキメいた人なら必見ですね。 発表は、技術面を簡潔に押さえたうえでわかりやすく、そのうえ実際の利用事例の話も聞けたのが面白かったと思います。最近のWeb系では、サービス面でもマネタイズ面でも、データマイニングとか行動ターゲティングとかがアツいんだなぁと思いました。 プレゼン資料もust録画も公開されていますが、以下、自分のメモという意味で記録しておきます。 Hadoopについて(太田一樹) Preferred InfrastructureのCTOで、Sedueの作者。大量のデータの処理がテーマで、半分は酒でできているw。そんなこんなで、はてブ検索でも使われてい

  • Hadoopは耐障害性に課題があるが実用性十分 - @IT

    2008/08/25 Preferred Infrastructure(PFI)は8月25日、NTTレゾナントと共同で行った、オープンソースの分散システム「Hadoop」(ハドゥープ)に関する調査を行い、その解析資料を公開した。 HadoopはApacheの1プロジェクトとして開発が進められているJavaで書かれたソフトウェアで、グーグルの大規模データ処理基盤技術である「Google File System」(GFS)、「MapReduce」をオープンソースで実装したもの。多数のサーバを使って大規模なデータ処理が行える。Hadoopへの貢献度の高さで知られる米ヤフーは2008年2月19日に、1万台のLinuxクラスタを使ったHadoopシステムを発表。5PBのディスクストレージを使い、Web検索用のデータを作成しているという。ヤフーのほか、Facebook、IBMなど採用例が増えており、注

    bobbyjam99
    bobbyjam99 2008/08/27
    実装されてない機能もあるらしい.
  • Welcome to Apache™ Hadoop®!

    A wide variety of companies and organizations use Hadoop for both research and production. Users are encouraged to add themselves to the Hadoop PoweredBy wiki page. 8 Aug 2018: Release 3.1.1 available This is the first stable release of Apache Hadoop 3.1 line. It contains 435 bug fixes, improvements and enhancements since 3.1.0 Users are encouraged to read the overview of major changes since 3.1.0

  • Manageability - Open Source Grid and Cluster Computing Frameworks Written in Java

    You are here: Home » blog » stuff » Open Source Grid and Cluster Computing Frameworks Written in Java Had a little bit of a conundrum on what title to give this list. I gather that "Grid" and "Cluster" computing would resonate better than "Distributed" and "Parallel". There's been a lot of activity lately in this area, however the one I've keenly interested in are the ones that integrate with Am

  • 1