タグ

hadoopに関するTaROのブックマーク (49)

  • Hadoopでレコメンドシステムを作ろう 記事一覧 | gihyo.jp

    運営元のロゴ Copyright © 2007-2025 All Rights Reserved by Gijutsu-Hyoron Co., Ltd. ページ内容の全部あるいは一部を無断で利用することを禁止します⁠。個別にライセンスが設定されている記事等はそのライセンスに従います。

    Hadoopでレコメンドシステムを作ろう 記事一覧 | gihyo.jp
    TaRO
    TaRO 2011/10/23
  • いまさら聞けないHadoopとテキストマイニング入門

    ビッグデータ時代の救世主「Hadoop」とは 「Apache Hadoop」は今、最も注目を集めている技術の1つです。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 Hadoopを活用している企業は年々増え続けていて、不可欠な技術になりつつあるといえるでしょう。 連載では、Hadoopとは何か、Hadoopがどう活用できるのかということを、「テキストマイニング」に焦点を当てて解説していきたいと思います。 重い処理を複数のマシンに分散させる 複数のマシンに処理を分散させるには、プロセス同士の通信、監視、障害時の対応などを考えなければならず、プログラマにとってハードルが高いものです。しかし、Hadoopはそういった面倒くさい処理を一手に引き受けてくれ、プログラマは、やりたい処理だけに集中できます。 例えば、Hadoopを使うと、1

    いまさら聞けないHadoopとテキストマイニング入門
  • Hadoopを用いた大規模ログ解析

    In the first half, we give an introduction to modern serialization systems, Protocol Buffers, Apache Thrift and Apache Avro. Which one does meet your needs? In the second half, we show an example of data ingestion system architecture using Apache Avro.

    Hadoopを用いた大規模ログ解析
  • 第1回 分散処理を隠蔽し、大規模開発を可能に

    筆者らは、オープンソースソフトウエアの分散処理ミドルウエア「Hadoop」を、基幹系のバッチ処理システムに適用するためのフレームワーク「Asakusa」を開発した。AsakusaはHadoopと同様に、オープンソースソフトウエアとして公開する。公開日は、連載の4回目をお届けする2011年3月31日の予定である。 Asakusaを使うことでHadoopによる分散処理のメリットを享受することが可能となり、これまでRDBMSを利用していた場合と比べて、多くのケースでバッチ処理システムの性能を大幅に向上することができる。筆者らが実際に構築を支援したシステムでは、それまで4時間かかっていた処理が数分で終わるようなケースも出てきている。 盛んに報道されているように、Hadoopはすでに多くの導入実績がある。ただしその用途は、ログ分析システムやレコメンデーションエンジンなどのビジネスインテリジェンス(

    第1回 分散処理を隠蔽し、大規模開発を可能に
  • アップグレードと異なるプログラミングパラダイムのためのHadoop再設計

    Spring BootによるAPIバックエンド構築実践ガイド 第2版 何千人もの開発者が、InfoQのミニブック「Practical Guide to Building an API Back End with Spring Boot」から、Spring Bootを使ったREST API構築の基礎を学んだ。このでは、出版時に新しくリリースされたバージョンである Spring Boot 2 を使用している。しかし、Spring Boot3が最近リリースされ、重要な変...

    アップグレードと異なるプログラミングパラダイムのためのHadoop再設計
    TaRO
    TaRO 2011/02/25
  • Hadoopを使いこなす(1)

    まず、 1 の入力ファイルを分割する方法は、InputFormatクラスの、getSplits関数を上書きすることで、カスタマイズできます。 また、 3 のInputSplitから、KeyとValueを抽出する処理も、InputFormatクラスを通じてカスタマイズできます。 InputFormatのgetRecordReader関数を通じて、RecordReaderクラスを生成するのですが、これに任意のRecordReaderクラスを指定すればOKです。 2 のMap処理ですが、ユーザが指定したMapperクラスの処理を実行します。 Mapperクラスは、MapRunnerクラスを通じて、初期化処理、map関数を繰り返す過程、終了処理といった一連の流れを実行します。 MapRunnerクラスをカスタマイズすれば、こうした流れを制御することができます。 0.20.0からの新しいMapRed

    Hadoopを使いこなす(1)
  • 『モバゲーの大規模データマイニング基盤におけるHadoop活用』-Hadoop Conference Japan 2011- #hcj2011

    『モバゲーの大規模データマイニング基盤におけるHadoop活用』-Hadoop Conference Japan 2011- #hcj2011 『モバゲーの大規模データマイニング基盤におけるHadoop活用』-Hadoop Conference Japan 2011- #hcj2011 2011/02/22 [登壇後エントリ] :" 「モバゲーの大規模データマイニング基盤におけるHadoop活用」-Hadoop Conference Japan 2011 #hcj2011 で登壇してきました " http://d.hatena.ne.jp/hamadakoichi/20110222/p1

    『モバゲーの大規模データマイニング基盤におけるHadoop活用』-Hadoop Conference Japan 2011- #hcj2011
  • Hadoopを試してみる – ぱんぴーまっしぐら

    ubuntu 10.04 LTS via:Hadoop (CDH3) Quick Start Guide – Documentation – Cloudera Wiki sun-javaがリポジトリからなくなったので外部リポジトリを利用 sudo aptitude install python-software-properties sudo add-apt-repository 'deb http://archive.canonical.com/ lucid partner' sudo apt-get update sudo aptitude install sun-java6-jdk Cloudera版が楽そうなので利用する。 sudo add-apt-repository 'deb http://archive.cloudera.com/debian lucid-cdh3 contr

  • Hadoop が起動する Live-USBを作成する -- Master Node 分散環境 編 - Guutaraの日記

    USBで、ブートするだけで、Hadoopの分散環境がテストできる Live-USBを作成してみます。 今回は、マスターノードとなるUSBの基礎の部分に、Hadoop(CDH3)を インストールし分散環境の設定で、Live-USBを動かします。 Serverで、USBを使う場合ですが、接続後に、 dmesg | tail すればデバイス名(sdb1など)が、わかるのでマウントします。 作成に使用する環境など Mac OSX 10.6 のMacBook上に、VMWare Fusionを入れて作業します。 Hadoop が起動する Live-USBを作成する -- Master Node 疑似分散 編 - Guutaraの日記 で、作成したVM環境で作業します。 Hadoopの設定 構成ですが、スレーブを10ノードまで登録しておきます。 まずは、confを変更します。 分散環境のconfは、co

    Hadoop が起動する Live-USBを作成する -- Master Node 分散環境 編 - Guutaraの日記
  • hadoopの話とpythonでデータマイニングをする話 - gumi Engineer’s Blog

    gumiの粟飯原です。 データマイニングやってます。しかしながら最近はあまりデータをいじる時間がなく社内でプレゼンばかりする日々で、社内でも私がなにやってるのかわからないというもっぱらの評判。そこで今回は一応データ解析もやってはいるんだよということを内外に主張するためにもデータマイニングの話をしようと思います。 アプリの基的な日々の統計データ取得などは別の方々はやられているので、私からはhadoopを使った大規模解析の話や、そこで得られたデータを分析する環境の話をしたいと思います。コードを併記した具体例などは今回載せられないのですが、今後また紹介していければと思います。 大規模データの解析 日々のログ解析やDB解析はcronによる処理で毎朝レポーティングを行っているのですが、新しい情報を過去のアクセスログからまとめてどかんと取得したいと言う時はHadoopによる大規模解析を実行しています

    hadoopの話とpythonでデータマイニングをする話 - gumi Engineer’s Blog
  • Hadoop~Yahoo! JAPANの活用について~

    R言語で始めよう、データサイエンス(ハンズオン勉強会) 〜機会学習・データビジュアライゼーション事始め〜

    Hadoop~Yahoo! JAPANの活用について~
    TaRO
    TaRO 2010/12/10
  • Hadoop MapReduceプログラムを解剖する

    オープンソース・ソフトウェア「Hadoop」のMapReduceジョブは、標準ではJavaで記述します(その他には、Pig、Hive、JAQLといったものがあります)。しかし、意外と初心者には分かりにくいと筆者は感じます。記事では、MapReduceジョブのサンプルコードを使って、できる限り正しくコードの意味を理解し、MapReduceへの入り口を示したいと思います。 HadoopでMapReduceを記述するときに使うAPIが、0.19から0.20に変わるところで新しくなっています。実は、現時点でHadoopプロジェクト体からでさえも、新APIを使ったサンプルが提示されていません。記事では、新しいAPIで筆者が書き直したサンプルを使って解説しますので、このサンプルは0.19以前のHadoopでは動かないことに注意してください。この記事は、0.20.2を使って検証し、解説しています。

  • 勉強会発表「プログラマのためのHadoop入門」 - 科学と非科学の迷宮

    id:kaigai の主催する勉強会で発表してきました。 Hadoop for programmerView more presentations from shiumachi. 答えられなかった質問 Shuffleフェーズって、ソートをどういう仕組みでやってるの? データ全部をなめてるの? Partitionerというクラスでデータを振り分けてる。タスクごとは独立してるのでデータをまたがってアクセスすることはないと思う。でも細かいことはちょっとわからない。 Map中にデータ追加したらどうなるのか? さすがに扱うデータは最初に決めていると思うが、やったことないのでわからない。 Streamingって具体的にどんな処理してるの? jarファイルは投げてるけど、実行時に使うスクリプトはどうやって投げてるのかわからない。 あとで調べときます。 今の世の中に出てるHadoopって構築とか運用の話

    勉強会発表「プログラマのためのHadoop入門」 - 科学と非科学の迷宮
  • Hadoopリンクまとめ(1) - 科学と非科学の迷宮

    Part1 / Part2 更新履歴 2010/06/20 リンク追加 入門、事例紹介、ニュース Part2へ移動 EC2、Pig、MapReduce、HDFS 新規追加 性能測定 公式 Welcome to Apache Hadoop! 日語訳 Hadoopユーザー会 Welcome to Hadoop MapReduce! "大規模な計算ノード・クラスタ上において膨大なデータを高速で並列処理するアプリケーションを作成するためのプログラミングモデルおよびソフトウェアフレームワーク" Welcome to Pig! "大規模なデータセットを分析するためのプラットフォーム""Pig の言語レイヤを構成しているのは、Pig Latin と呼ばれるテキストベースの言語" wikipedia Apache Hadoop - Wikipedia, the free encyclopedia Apa

    Hadoopリンクまとめ(1) - 科学と非科学の迷宮
  • Runtime error - Meta Search

    Error message : Directory is not found or not writable (DATA_DIR) Directory is not found or not writable (DIFF_DIR) Directory is not found or not writable (BACKUP_DIR) Directory is not found or not writable (CACHE_DIR) Site admin: whitestar Copyright © 2006-2023 whitestar. All Rights Reserved. Icons powered by famfamfam. PukiWiki 1.5.0 Copyright © 2001-2006 PukiWiki Developers Team. License is GPL

  • HBase 基礎文法最速マスター - Stay Hungry. Stay Foolish.

    基礎文法最速マスターが流行のようなので、 便乗して勉強がてらにHBaseの基操作について纏めてみます。 Perl基礎文法最速マスター - Perl入門ゼミ はてな的プログラミング言語人気ランキング - Life like a clown これを読めばGoogleのBigTableのクローンであるHBaseの基操作について何となく理解できるかも?です。 他の基礎文法最速マスターと同じように簡易リファレンスを兼ねていますので足りない部分をあればご指摘ください。 HBaseは2010-02-01時点で最新のHBase0.20.3を対象としています。 インストール方法については前記事を参照ください。 Cygwinを利用してWindowsにHBaseをインストール - Stay Hungry. Stay Foolish. 対話式シェルの実行 基 HBaseではHBase Shellという対話式

    HBase 基礎文法最速マスター - Stay Hungry. Stay Foolish.
  • Hadoop WordCountメモ(Hishidama's Hadoop tutorial WordCount Memo)

    Eclipseの設定 チュートリアルのページではjavacコマンドを使ってコンパイルしているが、やはりコーディングにはEclipseを使いたい。 Hadoopのjarファイルをビルドパスに追加するだけでよい。 jarファイル 備考 チュートリアルのソース チュートリアルのソースはHadoop0.20.1より前のバージョンのものらしく、0.20.1だとコンパイルが警告になる(警告になるだけで、実行は出来る)。 なので、(正しいかどうか分からないけど^^;)0.20.1用に直してみた。 // http://oss.infoscience.co.jp/hadoop/common/docs/current/mapred_tutorial.html 2010-02-21 package jp.hishidama.hadoop.tutorial; import java.io.IOException;

    TaRO
    TaRO 2010/08/06
  • Hadoop擬似分散環境メモ(Hishidama's Hadoop pseudo-distributed Memo)

    S-JIS[2010-03-27/2010-04-04] 変更履歴 Hadoop 擬似分散環境 Hadoopの擬似分散モードをWindowsで試す方法について。 擬似分散環境は、分散環境の各サービス(デーモン)を1台のマシン上で動かすモード。 したがって、各サービスの動作方法は来の分散モードと全く同じになる。

    TaRO
    TaRO 2010/08/06
  • 満員御礼!「Hadoop Hack Night2」レポート

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。広報スタッフの楢崎です。 昨日、「Hadoop Hack Night2」を開催させていただきました。 当選された100名にお集まりいただき、Ustream中継やTwitterでも多くの方にご参加いただきました。ありがとうございました。 第三部、トークセッションの様子 写真左からモデレーター・馮 富久 氏(株式会社技術評論社)、太田 一樹 氏(株式会社プリファードインフラストラクチャー)、大谷 晋平 氏(株式会社電通国際情報サービス)、清田 陽司 氏(株式会社リッテル/東京大学情報基盤センター)、古宮 陽明(ヤフー株式会社)、吉田 一星(ヤフー株式会社) 詳しいレポート記事は、後ほど技術評論社さんの「gihyo.jp」に

    満員御礼!「Hadoop Hack Night2」レポート
  • Hadoop-ec2環境の構築[ClouderaのAMIをベースにHadoop環境を構築]

    自分で設定したカスタムのAMIを作っておけば、hadoop-ec2スクリプトで簡単に計算ノードを追加できます。 まずはClouderaのAMIをベースにしてHadoop環境を構築してカスタムのAMIとして保存しようと思います。 Clouderaが提供しているAMIの一覧からfedoraの64bitを選びました。 cloudera-ec2-hadoop-images/cloudera-hadoop-fedora-20090623-x86_64 ami-2359bf4a 以下はインスタンスを1台起動してrootでログインしての作業です。 ________ __ /\ _____\ /\ /\ \ \ \ \____/ /\ \ ____ __ __ _\_\ \ ____ __ ____ _____ \ \ \ \ \ \ / __ \ /\ \/\ \ / ___ \ / __ \ /\