sleepy_yoshiのブックマーク - はてなブックマーク

「みんなの検索」リリースしました - download_takeshi’s diary

昨日、仕事で開発をすすめていた検索機能をリリースしたので、ちょっと紹介します。「gooウェブ検索」で、自分に似た検索をしている人たちの関心事が見える機能「みんなの検索」を提供開始 gooのweb検索で適当なキーワードで検索すると、結果表示面の一番したの方に「みんなが検索中」というボックスが表示されます。これは何かというと、いま入力したキーワードと同じような意味や関心ごとを持って検索している人たちの検索キーワードがストリームっぽく表示される、というモノです。 http://search.goo.ne.jp/option/topics/2011/ 「みんなの検索」は、同じまたは類似した検索キーワードを入力して検索している他のユーザが、どんな検索キーワードを入力しているのかを表示する機能です。あなたに似た人たちが、たった今しらべているキーワードのストリームが表示されます。これまでの関連ワー

sleepy_yoshi 2011/02/05

goo
search

リンク

perlで高速な類似検索エンジンを構築できるようにしてみた - download_takeshi’s diary

すみません。タイトルはやや釣り気味です。類似検索エンジンというか、そのアイデア程度の話なんですが、以前から考えていた類似検索エンジン風のネタがあったので、ちょっとperlで書いてみたので、そいつを晒してみます。 Luigi 　 https://github.com/miki/Luigi 類似検索なのでLuigi。ルイージとか読みたい人はそう読んじゃっても良いです。（冷）考え方と仕組み類似文書の検索、となりますと一般的には超高次元での空間インデックスとかが必要になります。昔からR-TreeやSR-Treeなど、いろいろと提案されていますが、より高次元になると「次元の呪い」によりパフォーマンスが出なくなる、なんて言われていますね。そこで最近ではLSHに代表されるような、より高度な「近似」型のインデキシング手法が人気を集めているようです。で、今回考えたLuigiも実は近似型のインデッ

sleepy_yoshi 2010/11/22

検索

リンク

Hadoopに入門してみた - セットアップからHadoop Streaming まで - - download_takeshi’s diary

大規模データを処理する必要が出て来たので、Hadoopを導入してみることになりました。以下、導入メモです。セットアップ以下のような構成で試してみます。環境はCentOSです。マスター（host001) ━┳ スレーブ（host002） ┣　スレーブ（host003） ┣　スレーブ（host004） ┗　スレーブ（host005）まずは各マシンにJavaをインストール。JDK1.6を落として来てrpmでインストールするか、yum install java-1.6.0*などとたたけばOKです。（rpmでインストールする場合は http://java.sun.com/javase/ja/6/download.html から jdk-6u18-linux-i586-rpm.binをダウンロードして、実行権限を与えてルートで実行すればインストールできます。）続いてマスターノードにHado

sleepy_yoshi 2010/11/04

hadoop

リンク

bayonやCLUTOが爆速な理由 - download_takeshi’s diary

クラスタリングツールbayonを使っていて、常々「どうしてこんなに高速に処理できんのかなぁ」と疑問に感じていました。repeated bisectionという手法自体がk-means法などと比べると効率がいいのですが、それにしても、それだけでは説明がつかないほど爆速なわけです。うまく例えられませんが、自前でk-meansのスクリプトを書いて比べてみると、自転車と新幹線くらいちがうという印象です。はじめてCLUTOを触った時、数万件程規模のクラスタリング処理が本当に「あっ」という間に終わってしまい、びっくりした記憶があります。きっと実装面でなにか特殊なことがあるんだろうなと思い、mixiエンジニアブログでbayonの記事を改めて読み漁っていたら、以下の部分が目に止まりました。このクラスタの評価は、クラスタの各要素とクラスタの中心とのcosine類似度の和としています。この和が大きいほど

sleepy_yoshi 2010/02/22

clustering

リンク

ベイズを学びたい人におすすめのサイト - download_takeshi’s diary

ベイジアンフィルタとかベイズ理論とかを勉強するにあたって、最初はなんだかよくわからないと思うので、そんな人にお勧めのサイトを書き残しておきます。 @IT スパム対策の基本技術解説（前編）綱引きに蛇口当てゲーム？！楽しく学ぶベイズフィルターの仕組み http://www.atmarkit.co.jp/fsecurity/special/107bayes/bayes01.html いくつかの絵でわかりやすく解説してあります。自分がしるかぎり、最もわかりやすく親切に解説してる記事です。数学とかさっぱりわからない人はまずここから読み始めるといいでしょう。茨城大学情報工学科の教授のページから http://jubilo.cis.ibaraki.ac.jp/~isemba/KAKURITU/221.pdf PDFですが、これもわかりやすくまとまってます。初心者でも理解しやすいし例題がいくつかあ

sleepy_yoshi 2009/04/11

リンク

Locality Sensitive Hashing に挑んでみた - download_takeshi’s diary

久々のエントリです。 Locality Sensitive Hashing を perl で使うためのモジュールを書いてみました。Algorithm::LSHと名付けました。先ほどDeveloper ReleaseとしてCPANにあげましたが、反映されるまで時間かかるので、興味ある方はcodereposからみてください。 Algorithm::LSH CPAN: http://search.cpan.org/~miki/Algorithm-LSH/ coderepos: http://coderepos.org/share/browser/lang/perl/Algorithm-LSH 超アルファバージョンな状態ですが、そのうちgithubにもupする予定。そうそう、そう言えば WEB+DB PRESS Vol.49 にレコメンドエンジンの特集があって、その中に偶然にもLocality