タグ

hadoopに関するyahihiのブックマーク (22)

  • Hadoop で日本語のワードカウント - holidayworking.org

  • Hadoop Hacks

    TOPICS Hacks , Database , Java 発行年月日 2012年04月 PRINT LENGTH 434 ISBN 978-4-87311-546-7 FORMAT PDF 書は、Hadoopの概要を理解した読者を対象に、Hadoopを実際に使いこなすためのテクニックとTipsをまとめた書籍です。システム構築/運用、アプリケーション開発など、Hadoopならではの特徴を使いこなすための方法から、HBase、Hive、Pig、Mahout、ZooKeeperなどサブプロジェクトについてのHackまで、幅広い内容をカバーしています。Hadoopの力を引き出すのに必要なツールとその使い方、また内部の動きを知るための方法、さらに先進的なテクニックなど、開発の現場で必要とされる74のテクニックを掲載しています。早くからHadoopに注目し、実際に活用してきた技術者によって執筆さ

    Hadoop Hacks
  • Hadoop&Asakusaを基幹業務で使い倒す--ノーチラス 神林飛志氏

    印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます 日立ソリューションズは12月2日、東京・品川にて「Hadoopが導く分散処理における次世代のバッチ処理開発とは〜Asakusa FrameworkによるHadoopエンタープライズ適用セミナー〜」を開催した。 稿ではその中から、ノーチラス・テクノロジーズ代表取締役副社長 神林飛志氏による講演「Hadoopによるバッチ処理の導入」を紹介する。 Hadoopを定義するのにビッグデータという言葉は必要ありません——神林氏は冒頭、こう切り出した。 いまやバズワードとして定着し始めている「ビッグデータ」だが、その言葉が語られるときはサブセットのごとく「並列分散処理システム」としてHadoopも引き合いに出されることが多い。だが神林氏は「ビッグデ

    Hadoop&Asakusaを基幹業務で使い倒す--ノーチラス 神林飛志氏
    yahihi
    yahihi 2012/04/05
    Hadoopを導入したことで(個別原価法で計算できるため)単品の粗利が出せるようになった。処理速度は従前の約1000倍に。
  • Amazon Elastic MapReduceで日本語のwordcountを試した時のメモ #jawsug - 働かないプログラマのメモ帳

    Amazon Elastic MapReduceで日語のwordcountを試したので、備忘録的な意味も込めてその時のメモをまとめます。pythonで書いてますが、形態素解析のライブラリがあればどの言語でも大丈夫だと思います。 目次 Amazon Elastic MapReduce Ruby Clientインストール hadoopの設定 形態素解析エンジンIgo用の辞書構築 bootstrap.sh作成 mapper.py作成 reducer.py作成 入力ファイル作成 jobflow作成 step追加 処理結果確認 jobflow停止 Amazon Elastic MapReduce Ruby Clientインストール http://aws.amazon.com/developertools/2264 からダウンロードしてきます。 $ wget http://elasticmapred

    Amazon Elastic MapReduceで日本語のwordcountを試した時のメモ #jawsug - 働かないプログラマのメモ帳
  • Hadoopをインストールしよう

    Hadoopを動かすには、少なくとも1台のLinuxマシンが必要になります。実際に効果を得るためには、巨大なデータと、物理的に多数のPCを用意する必要があります。 Hadoopには3つの動作モードがあり、どのモードを動かすかによって必要な環境が異なります(表1)。記事では、1台のマシン上でHadoopの各デーモンを起動する「疑似分散モード」を動かし、Hadoopの動作を確認します。 Linux環境の準備 まず最初に、Linuxが動作する環境を準備してください。もし古いPCなど、現在使っていないPCがあれば、そこにインストールすればいいでしょう。そのような余ったPCが無ければWindowsマシン上の仮想化ソフトで、Linuxを使うという方法もあります。 Linuxのインストールは極めて簡単です。Linuxをこれまでまったく触れたことがない人でも、GUIの操作で簡単にインストールできます。L

    Hadoopをインストールしよう
  • layer8.sh

    This domain may be for sale!

  • 試すのが難しい―機械学習の常識はMahoutで変わる

    ビッグデータ時代―なぜ、いま機械学習なのか Apache Hadoop(以下、Hadoop)の登場で、今まで捨てていたデータ、貯めるだけで処理しきれなかったデータを活用できるようになりました。 活用手段として最近とみに注目されている技術が「機械学習」であり、Hadoopの強みを生かし簡単に機械学習を行うためのライブラリが、「Apache Mahout」(以下、Mahout)です。 稿ではMahoutを動かしてみることで、機械学習の常識を身に付けます。 そもそも、機械学習とは? 機械学習とは、一定のデータをコンピュータ・プログラムに「学習」させ(すなわち、そのデータに潜むパターンや規則性を表す「モデル」を自動的に構築させ)、他のデータにそのモデルを適用すれば、あたかも人間のように複雑で柔軟な判断が行えるようにするという試みです。 機械学習をビジネスに活用した例は、レコメンド(ユーザーや商品

    試すのが難しい―機械学習の常識はMahoutで変わる
  • Cloudera Blog

    The ongoing progress in Artificial Intelligence is constantly expanding the realms of possibility, revolutionizing industries and societies on a global scale. The release of LLMs surged by 136% in 2023 compared to 2022, and this upward trend is projected to continue in 2024. Today, 44% of organizations are experimenting with generative AI, with 10% having […] Read blog post

    Cloudera Blog
  • NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮

    業界トップ のエンタープライズ Hadoop 企業 Cloudera に入社しました http://www.cloudera.co.jp/ 今年の6月に、「平成21年度 産学連携ソフトウェア工学実践事業報告書」というドキュメント群が経産省から公表されました。 そのうちの一つに、NTTデータに委託されたHadoopに関する実証実験の報告書がありましたので、今更ながら読んでみることにしました。 Hadoop界隈の人はもうみんなとっくに読んでるのかもしれませんけど。 http://www.meti.go.jp/policy/mono_info_service/joho/downloadfiles/2010software_research/clou_dist_software.pdf 「高信頼クラウド実現用ソフトウェア開発(分散制御処理技術等に係るデータセンター高信頼化に向けた実証事業)」という

    NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮
  • 並列分散処理の常識をHadoopファミリから学ぶ

    Hadoopプロジェクトは3つの「サブプロジェクト」で構成されています。 Common:Hadoopの基機能FileSystem、RPC、Serializationのライブラリ HDFS:分散ストレージを仮想的に1つに扱うためのファイルシステム MapReduce:膨大なデータセットをクラスタ上で分散処理するためのソフトウェアフレームワーク これらが、「Hadoopファミリ」の核であり、並列分散処理機構を支えています。それ以外の「関連プロジェクト」は2011年12月時点では下記のようになっています。 Avro:Commonの持つ機能を拡張したデータシリアライズシステム Cassandra:単一障害点のないスケーラブルなマルチマスタデータベース Chukwa:大規模な分散システムでのデータ収集システム HBase:大規模な構造化データをサポートする、スケーラブルな分散データベース Hive

    並列分散処理の常識をHadoopファミリから学ぶ
  • リクルート,ホットペッパーの分析にHadoop活用 - 事例データベース:ITpro

    リクルート(東京都千代田区)は2012年4月から、オープンソースの分散処理ソフトである「Hadoop(ハドゥープ)」の利用を格化する。すでに飲店などを紹介する「ホットペッパー」では履歴データの分析にHadoopを活用し、処理速度が大幅に向上。メルマガに記載したお店のお薦め情報のクリック率も1.6倍に高まった。 「これからは数億円単位で売り上げ増やコスト削減に寄与する事例を積み上げていく」。リクルートの米谷修MIT Unitedプロジェクト推進部システム基盤推進室エグゼクティブマネジャーはHadoopの導入について、こう意気込む。リクルートは3年ほど前から、Hadoopの調査・研究を開始。試験導入で十分な成果が得られたため、格利用に踏み切ることを決めた。 2011年6月から試験的に導入したホットペッパーではメルマガのクリック率が高まるとともに、処理時間を大幅に短縮する効果を得た。これま

    リクルート,ホットペッパーの分析にHadoop活用 - 事例データベース:ITpro
    yahihi
    yahihi 2012/02/02
    『メルマガに記載したお店のお薦め情報のクリック率も1.6倍に高まった。』
  • [第1回]今さら聞けないHadoopの基礎

    OSS(オープンソースソフトウエア)のミドルウエア、「Hadoop」が注目されている。大量のデータ、とりわけログ、テキスト、画像といった非構造化データを取り扱うための高速な情報処理基盤を安価に構築できるからだ。そこで連載ではHadoopを基礎から説明する。 連載は情報システム部門の企画担当者や利用部門のIT活用推進者などが対象。序盤ではHadoopの基やアーキテクチャーを解説。回を追って分散ファイルシステムの操作とMapReduce処理をコードで確認。ユースケースやクラスタ管理にも言及するほか、2012年に予定されている次期メジャーリリース0.23の情報などの最新トピックも取り込んでいく。 ニーズ高まる「ビッグデータ」の基盤 日にとって2011年は「ビッグデータ」元年だったと言ってよいのではないでしょうか。ビッグデータに関わる製品やソリューションが国内外のベンダーから発表となり、多

    [第1回]今さら聞けないHadoopの基礎
  • Asakusaでの設計・実装の方法についてのドキュメント - 急がば回れ、選ぶなら近道

    Asakusaのドキュメントを大幅に見直し+追加しました。自分の担当は設計関連の部分だったので、その辺の“あとがき”的なものを以下。自分で書いて気になったところもまとめて置く感じで。 http://www.asakusafw.com/techinfo/methodology.html 1.設計手法について 理論的な背景はともかく、業務バッチ処理をどのように設計するか、ということについての一つの「やり方」を書きました。これは完全に経験則と過去の方法論の掘り起こしによるものです。基幹バッチ処理をデータフローで、ゼロから設計するという手法は、周りを見るところ、ほぼ完全なロスト・テクノロジーになってしまっていて、ちょっと見当たらないです。(調査が足りないという話もありますが) データフローベースの、(有り体にいうとCOBOLライクな環境での)バッチの作成は、現状では、メンテナンスで既存に手をいれる

    Asakusaでの設計・実装の方法についてのドキュメント - 急がば回れ、選ぶなら近道
    yahihi
    yahihi 2012/01/22
    『Asakusa Frameworkは分散処理技術を活かしたバッチアプリケーションを開発するためのフレームワークです。』
  • hadoopのバージョン表記について - 科学と非科学の迷宮

    (2012/01/10 追記) Cloudera 社から hadoop 1.0 に関する公式ブログ記事が公開されました。そちらの方がより分かりやすく正確に書いています。まずはそちらをご覧ください。 先日 hadoop-1.0 がリリースされたことが巷で話題になっています。 話題になること自体は構わないのですが、この 1.0 が実は 0.20 系の派生だということはあまり理解されていないように見えます。 1.0.0 は従来のバージョンナンバリングポリシーで言えば 0.20.205.1 に相当するものです。 つまり、最新版 0.23 で採用された MapReduce2 を初めとする様々な新機能はこの 1.0 には入っていないということです。 わかりやすく図にしてみました。 よって、新機能を試したいとかいう人には全くおすすめしません。 また、上記の通り既存のバージョンとなんら変わりがないので、た

    hadoopのバージョン表記について - 科学と非科学の迷宮
  • 第1回 レコメンドシステムと集合知 | gihyo.jp

    はじめに 今回から9回に渡り、Hadoopを使ったレコメンドシステムの実装について紹介させていただくことになりました。 レコメンドシステムを構築した方は少ないと思いますが、レコメンドのサービスに触れている方は多いと思います。今回の連載で、読者の皆様にレコメンドシステムの可能性とその実装の面白さをお伝えできればと思います。よろしくお願い申し上げます。 連載の予定は次の通りです。 レコメンドシステムと集合知(今回) レコメンドシステムの実装と課題 協調フィルタリング(前・後編) コンテンツベースレコメンド(前・後編) 今回の記事のポイントは以下の通りです。 レコメンドシステムの目的は気付きと驚きを与えること 理想のレコメンドはソムリエのお薦め レコメンドシステムに必要なのは嗜好と専門性 では、早速はじめましょう。 レコメンドシステムとは? レコメンドシステムは情報フィルタリングの一種で、大量の

    第1回 レコメンドシステムと集合知 | gihyo.jp
  • 実践! 「MapReduceでテキストマイニング」徹底解説

    青空文庫」をテキストマイニング! 前回の「いまさら聞けないHadoopとテキストマイニング入門」では、Hadoopとテキストマイニングの概要や構成、MapReduceの仕組み、Hadoopの活用場面などを解説し、Hadoopの実行環境を構築しました。今回から、Hadoopを使い、テキストマイニングのMapReduceプログラムを作成していきます。 「青空文庫」というサイトをご存じでしょうか。青空文庫は、著作権が切れた日の文学作品を掲載しているWebサイトで、青空文庫の全データをDVDや、BitTorrentによる配信で入手できます。今回は、このデータを使ってテキストマイニングを行いましょう。 前回、テキスト分類で、著者の性別、年齢、地域、職業などの属性も推定できると書きましたが、青空文庫は、他のデータにはない、著者属性があります。青空文庫の作品は、著作権が切れて、作者がなくなっている場

    実践! 「MapReduceでテキストマイニング」徹底解説
  • Mapreduce2.0 - 急がば回れ、選ぶなら近道

    次世代Hadoopの開発が進んでいる。現状の推移では、少なくとも分散クラウドでの「OSSインフラ」としてはHadoopが最有力候補であることは間違いない。クラウド上での分散処理基盤での技術競争ではGoogleAmazonが相当抜きんでいる現在、それに対抗しうる可能性があるOSSはHadoopの潮流の延長線上にしか考えられない。その形としてHadoop-MapReduce2.0があるように見える。現在の状態で自分なりの次世代Hadoopの理解をまとめておく。基的に全部は見切れていないので、そのあたりはあしからず。基的に次世代Hadoopの仕組みは大きく二つの要素からなる 現在のところの柱はHDFSとMapreduce2.0の二つだ。 まずMapReduce。これは従来の「MapReduce」というものからはほど遠い。むしろ「任意」の分散処理実行フレームワークにたいして、適切なリソースを

    Mapreduce2.0 - 急がば回れ、選ぶなら近道
  • Hadoopでレコメンドシステムを作ろう 記事一覧 | gihyo.jp

    運営元のロゴ Copyright © 2007-2024 All Rights Reserved by Gijutsu-Hyoron Co., Ltd. ページ内容の全部あるいは一部を無断で利用することを禁止します⁠。個別にライセンスが設定されている記事等はそのライセンスに従います。

    Hadoopでレコメンドシステムを作ろう 記事一覧 | gihyo.jp
    yahihi
    yahihi 2011/10/20
    今後の連載に期待
  • いまさら聞けないHadoopとテキストマイニング入門

    ビッグデータ時代の救世主「Hadoop」とは 「Apache Hadoop」は今、最も注目を集めている技術の1つです。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 Hadoopを活用している企業は年々増え続けていて、不可欠な技術になりつつあるといえるでしょう。 連載では、Hadoopとは何か、Hadoopがどう活用できるのかということを、「テキストマイニング」に焦点を当てて解説していきたいと思います。 重い処理を複数のマシンに分散させる 複数のマシンに処理を分散させるには、プロセス同士の通信、監視、障害時の対応などを考えなければならず、プログラマにとってハードルが高いものです。しかし、Hadoopはそういった面倒くさい処理を一手に引き受けてくれ、プログラマは、やりたい処理だけに集中できます。 例えば、Hadoopを使うと、1

    いまさら聞けないHadoopとテキストマイニング入門
  • 第12回 データマイニング+WEB @東京 ( #TokyoWebmining 12th)−機械学習MapReduce・大規模R解析 祭り− に参加してきた - yokkunsの日記

    第12回 データマイニング+WEB @東京 ( #TokyoWebmining 12th)−機械学習MapReduce・大規模R解析 祭り− に参加してきました。 http://tokyowebmining12.eventbrite.com/ 以下、メモです。 1.「MapReduce〜入門編:仕組みの理解とアルゴリズムデザイン〜」 (講師:@doryokujin ) (発表30分+ 議論30分) Map Reduce 〜入門編:仕組みの理解とアルゴリズムデザイン〜 View more presentations from Takahiro Inoue ランダムアクセスを避け、シーケンシャルアクセス。シーケンシャルな読み取りに限定して高速化 MAP ReduceにSSDはあまり効果なし? SSDだと早くなるけど、如何せん高い Splitフェーズ 複数のmap処理を可能にするためデータを分割

    第12回 データマイニング+WEB @東京 ( #TokyoWebmining 12th)−機械学習MapReduce・大規模R解析 祭り− に参加してきた - yokkunsの日記