katotakuのブックマーク - はてなブックマーク

Hadoopに入門してみた - セットアップからHadoop Streaming まで - - download_takeshi’s diary
大規模データを処理する必要が出て来たので、Hadoopを導入してみることになりました。以下、導入メモです。セットアップ以下のような構成で試してみます。環境はCentOSです。マスター（host001) ━┳ スレーブ（host002） ┣　スレーブ（host003） ┣　スレーブ（host004） ┗　スレーブ（host005）まずは各マシンにJavaをインストール。JDK1.6を落として来てrpmでインストールするか、yum install java-1.6.0*などとたたけばOKです。（rpmでインストールする場合は http://java.sun.com/javase/ja/6/download.html から jdk-6u18-linux-i586-rpm.binをダウンロードして、実行権限を与えてルートで実行すればインストールできます。）続いてマスターノードにHado
katotaku 2010/09/07
Hadoop
リンク
手軽にTF/IDFを計算するモジュール - download_takeshi’s diary
情報検索の分野でよく使われるアルゴリズムで「TF/IDF」というものがあります。ドキュメントの中から「特徴語」を抽出する、といったような用途でよく使われています。 TF/IDFアルゴリズムのくわしい解説はこことかここを見てください。今回はこのTF/IDFの計算を「簡単」に実現するためのperlモジュールをCPANに上げましたので、ご紹介します。なまえはLingua::JA::TFIDFといいます。 Lingua::JA::TFIDF - TF/IDF calculator based on MeCab. http://search.cpan.org/~miki/Lingua-JA-TFIDF TF/IDF実装の困りどころ TF/IDFの実装を試みた方であればわかると思うのですが、実際にやろうとすると、TF（Term Frequency）の計算はなんら難しくありませんが、IDF（Inve
katotaku 2008/11/04
自然言語処理

algorithm
リンク
1

はてなブックマーク

タグ

ブックマーク / download-takeshi.hatenablog.com (2)

お知らせ

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

月間はてなブックマーク数ランキング（2024年6月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

ブックマーク / download-takeshi.hatenablog.com (2)

Hadoopに入門してみた - セットアップからHadoop Streaming まで - - download_takeshi’s diary

手軽にTF/IDFを計算するモジュール - download_takeshi’s diary

お知らせ

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

月間はてなブックマーク数ランキング（2024年6月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス