[B! Hadoop] otani0083のブックマーク

第1回　レコメンドシステムと集合知 | gihyo.jp

はじめに今回から9回に渡り、Hadoopを使ったレコメンドシステムの実装について紹介させていただくことになりました。レコメンドシステムを構築した方は少ないと思いますが、レコメンドのサービスに触れている方は多いと思います。今回の連載で、読者の皆様にレコメンドシステムの可能性とその実装の面白さをお伝えできればと思います。よろしくお願い申し上げます。連載の予定は次の通りです。レコメンドシステムと集合知（今回）レコメンドシステムの実装と課題協調フィルタリング（前・後編）コンテンツベースレコメンド（前・後編）今回の記事のポイントは以下の通りです。レコメンドシステムの目的は気付きと驚きを与えること理想のレコメンドはソムリエのお薦めレコメンドシステムに必要なのは嗜好と専門性では、早速はじめましょう。レコメンドシステムとは？レコメンドシステムは情報フィルタリングの一種で、大量の

otani0083 2011/11/01

リンク

Hadoop 第2版

「象本」の名前で親しまれる『Hadoop』の改訂版です。 Hadoopの基礎から応用までを包括的に解説する初版の充実をそのままに、Pig、HBase、Hive、Sqoop、Avroなどサブプロジェクトやセキュリティについても大幅に加筆、より実務に対応できる内容になりました。Hadoop 0.1系に加え、0.2系に関する情報も併記。日本語版では「NTTデータの実証事業におけるHadoop活用のポイント」を付録として掲載しています。Hadoopの全体像を網羅し、かつ実践的なトピックを盛り込んだ本書は、Hadoopに関心あるすべての人に必携の一冊です。序文訳者まえがきはじめに 1章　Hadoop事始め 1.1　データ！ 1.2　データの保管と分析 1.3　他のシステムとの比較 1.3.1　RDBMS 1.3.2　グリッドコンピューティング 1.3.3　ボランティアコンピューティング 1.4

otani0083 2011/07/12

Hadoop

リンク

いまさら聞けないHadoopとテキストマイニング入門

ビッグデータ時代の救世主「Hadoop」とは「Apache Hadoop」は今、最も注目を集めている技術の1つです。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 Hadoopを活用している企業は年々増え続けていて、不可欠な技術になりつつあるといえるでしょう。本連載では、Hadoopとは何か、Hadoopがどう活用できるのかということを、「テキストマイニング」に焦点を当てて解説していきたいと思います。重い処理を複数のマシンに分散させる複数のマシンに処理を分散させるには、プロセス同士の通信、監視、障害時の対応などを考えなければならず、プログラマにとってハードルが高いものです。しかし、Hadoopはそういった面倒くさい処理を一手に引き受けてくれ、プログラマは、やりたい処理だけに集中できます。例えば、Hadoopを使うと、1

otani0083 2011/06/22

リンク

Hadoopを用いた大規模ログ解析

JCBの Payment as a Service 実現にむけたゼロベースの組織変革とテクニカル・イネーブラー（NTTデータテクノロジーカンファレンス ...NTT DATA Techno logy & Innovation

otani0083 2011/04/11

Hadoop

リンク

Hadoopを使いこなす(1)

まず、 1 の入力ファイルを分割する方法は、InputFormatクラスの、getSplits関数を上書きすることで、カスタマイズできます。また、 3 のInputSplitから、KeyとValueを抽出する処理も、InputFormatクラスを通じてカスタマイズできます。 InputFormatのgetRecordReader関数を通じて、RecordReaderクラスを生成するのですが、これに任意のRecordReaderクラスを指定すればOKです。 2 のMap処理ですが、ユーザが指定したMapperクラスの処理を実行します。 Mapperクラスは、MapRunnerクラスを通じて、初期化処理、map関数を繰り返す過程、終了処理といった一連の流れを実行します。 MapRunnerクラスをカスタマイズすれば、こうした流れを制御することができます。 0.20.0からの新しいMapRed

otani0083 2010/01/27

リンク

検索クエリログからのスペル訂正辞書の自動生成 - mixi engineer blog

先月ハワイに行ってきてオルオルな（ハワイ語で '楽しい' という意味）気分の takahi-i です。最近ログデータの有効活用が話題になっていますが、検索エンジンが出力する検索クエリログを使用してどんなことができるのかについて紹介させていただきます。検索クエリログ検索クエリログ (以下検索ログ) は検索エンジンを使用するユーザから発行された検索の履歴を保存したファイルです。検索ログのフォーマットは使用する検索エンジンや Web サーバによって異なります。さらにまた検索ログが含む情報にも差異があることが考えられますが、本稿では検索ログは解析を行う上で重要な三つの要素を含むと仮定します。三つの要素とはユーザ ID （もしくは IP アドレス）、クエリ文、そしてクエリが検索エンジンに処理された時間です。以下検索ログの一例を載せます。ユーザID クエリ文クエリ発行時 438904 Su

otani0083 2009/12/09

リンク

はてなブックマーク

タグ

関連タグで絞り込む (4)

Hadoopに関するotani0083のブックマーク (6)

お知らせ

今週のはてなブックマーク数ランキング（2024年11月第1週）

月間はてなブックマーク数ランキング（2024年10月）

今週のはてなブックマーク数ランキング（2024年10月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス