hiromarkのブックマーク - はてなブックマーク

perlで高速な類似検索エンジンを構築できるようにしてみた - download_takeshi’s diary

すみません。タイトルはやや釣り気味です。類似検索エンジンというか、そのアイデア程度の話なんですが、以前から考えていた類似検索エンジン風のネタがあったので、ちょっとperlで書いてみたので、そいつを晒してみます。 Luigi 　 https://github.com/miki/Luigi 類似検索なのでLuigi。ルイージとか読みたい人はそう読んじゃっても良いです。（冷）考え方と仕組み類似文書の検索、となりますと一般的には超高次元での空間インデックスとかが必要になります。昔からR-TreeやSR-Treeなど、いろいろと提案されていますが、より高次元になると「次元の呪い」によりパフォーマンスが出なくなる、なんて言われていますね。そこで最近ではLSHに代表されるような、より高度な「近似」型のインデキシング手法が人気を集めているようです。で、今回考えたLuigiも実は近似型のインデッ

hiromark 2010/11/22

perl
ir

リンク

Javaで暗号化したデータをPerlで復号化しようとしたら大変だった件 - download_takeshi’s diary

JavaでRijndael(AES)で暗号化されたデータをPerlで復号化しようと思います。「暗号方式と秘密鍵だけ聞いておけば簡単にデコードできるっしょ、余裕っしょ」とタカをくくっていたら、思いっきり天罰がくだりました。久しぶりにハマったのであります。ちゃんと確認しておくべきだった情報まずは暗号方式と秘密鍵だけでなく、以下の情報をしっかりと確認しておく必要アリでした。暗号アルゴリズム秘密鍵秘密鍵の長さブロック暗号化モード IV（Initialization Vector：初期化ベクトル） padding方式暗号のことちゃんと勉強した事がないので、なんだかよくわからんけど、必要らしい。せめて事前にここらへんを読んで勉強しておけばよかった。ぱせらんメモ http://d.hatena.ne.jp/pasela/20100612/crypto DESに代わる次世代暗号「AES

hiromark 2010/08/19

むかしすげーはまったよ、これ。

java
perl

リンク

動的計画法とナップサック問題を学びたい人におすすめのサイト - ダウンロードたけし（寅年）の日記

組み合わせ最適化の手法として「動的計画法」というモノがあります。 wikipediaから抜粋動的計画法（どうてきけいかくほう、英: Dynamic Programming, DP）コンピュータ科学の分野において、ある最適化問題を複数の部分問題に分割して解く際に、そこまでに求められている以上の最適解が求められないような部分問題を切り捨てながら解いていく手法一見難しそうですが、実は理解するのは以外と簡単です。いろいろな場面で応用が利く便利な手法ですので、覚えておいて損はないものです。コンピュータ系、情報系のお勉強をする人であれば、おそらく一度は習ったりするかもしれません。ナップサック問題と動的計画法動的計画法の一番親しみやすそうな例として「ナップサック問題」というのがよく取り上げられます。こんな感じの問題です。今ここに様々な大きさの品物が置いてあるとします。そしてそれらの品物は各

hiromark 2010/03/02

うわ、だいぶ忘れてた。

リンク

bayonやCLUTOが爆速な理由 - download_takeshi’s diary

クラスタリングツールbayonを使っていて、常々「どうしてこんなに高速に処理できんのかなぁ」と疑問に感じていました。repeated bisectionという手法自体がk-means法などと比べると効率がいいのですが、それにしても、それだけでは説明がつかないほど爆速なわけです。うまく例えられませんが、自前でk-meansのスクリプトを書いて比べてみると、自転車と新幹線くらいちがうという印象です。はじめてCLUTOを触った時、数万件程規模のクラスタリング処理が本当に「あっ」という間に終わってしまい、びっくりした記憶があります。きっと実装面でなにか特殊なことがあるんだろうなと思い、mixiエンジニアブログでbayonの記事を改めて読み漁っていたら、以下の部分が目に止まりました。このクラスタの評価は、クラスタの各要素とクラスタの中心とのcosine類似度の和としています。この和が大きいほど

hiromark 2010/02/16

リンク

ギレンも登場！BM25なPerlモジュール書いたよ - download_takeshi’s diary

久しぶりに何か書きます。情報検索のアルゴリズムで「BM25」というものがあります。何年か前に某研究所に遊びに行ったときに「TF/IDFより精度のいいやつ」みたいな感じでかなりアバウトに教えてもらいました。その時は「名前だけでも覚えて帰ろう」と思っていたのですが、帰りに安い居酒屋で大酒をのみ、電車のなかで騒いでしまうほど酔っ払ってすっかりその名前を忘れてしまってました。（なにやってんだか・・・）で、最近Web+DB pressをパラパラ見ていたらBM25の名前を発見！ああ、これだこれだ、思い出したよ！というわけで、重い腰を上げてモジュール化してみました。 githubに上げてあります。 Lingua::JA::OkapiBM25 http://github.com/miki/Lingua-JA-OkapiBM25 そのうちCPANからも落とせるようになります。正式名称は「Okap

hiromark 2009/12/07

いろいろな部分で GJ!

リンク

Yahoo-APIを無制限に叩くためのモジュール書いた - download_takeshi’s diary

ふと気づくとYahooの「ウェブ検索API」の利用制限が変わっていて、今までは同一IPからの利用は５万回／２４時間でしたが、１０月１３日から同一appidからの利用が５万回／２４時間となっていました。 http://developer.yahoo.co.jp/newslist/1#64 つまりappidを複数用意して数珠つなぎに使って行けば、同一IPからの利用が事実上無制限となるんだよね！？ということで、久しぶりにPerl Module書きました。 WebService::APIKeys::AutoChanger github: http://github.com/miki/WebService-APIKeys-AutoChanger CPAN : http://search.cpan.org/~miki/WebService-APIKeys-AutoChanger まだCPANにあがって

hiromark 2009/10/28

ちょｗｗｗ

リンク

HTML::Feature 3.00 リリースしました - ダウンロードたけし（寅年）の日記

前回のエントリで案内した通り、perlの本文抽出モジュール「HTML::Feature」を全面的に作り直し、リリースしました。すでにCPANにも反映されています。今回の改修で、抽出精度が向上し、且つ全体的にも高速化がなされました。ヤタ！ HTML::Feature - Extract Feature Sentences From HTML Documents http://search.cpan.org/~miki/HTML-Feature/ 以下、簡単に新機能をご紹介します。エンジンモジュールを直列に並べる従来からコアとなるエンジンモジュールについては、任意のものに置き換えることができるようになっていました。デザパタでいうと「Strategyパターン」です。 version 3.00 からは、任意の個数のエンジンを好きな順番で直列に並べられるようになりました。例えば全く異なる抽出方

hiromark 2009/07/29

要チェック。

perl
html

リンク

C++ Priority Queueについて - download_takeshi’s diary

なぜか突然プライオリティキューの実装方法を知りたくなってしまい、C++のSTLを少しだけ勉強しました。 C++は入門書を何冊か読んだ程度なんで、ド素人ですが、頑張ってSTL書いてみました。 #include <iostream> #include <queue> #include <map> class MyData { private: int age_; std::string name_; public: MyData(std::string name, int age){ age_ = age; name_ = name; } ~MyData(){ } int age() { return age_; } std::string name() { return name_; } }; struct CompareMyDataGreater { bool operator() ( M

hiromark 2009/07/15

プライオリティキューを使うときの参考に。

c++
stl

リンク

クラスタリングツール「bayon」を試してみた - download_takeshi’s diary

夜中の3時半過ぎですが、久しぶりになんか書こうと思います。ちょっと前にmixiのfujisawaさんという方がすごくナイスなソフトウェアをリリースしてくれました。「軽量データクラスタリングツールbayon」 http://alpha.mixi.co.jp/blog/?p=1049 今までにもCLUTOというすごく高精度なクラスタリングツールがありましたが、こいつはライセンス的にちょっとイケズな感じでした。そこにbayonがスーパーマンのように登場してくれました！「商用利用OKだよ」ということで、仕事の上での悩みが解決しました。本当にありがたいことです。さてさて、早速使ってみたいんですが、ブログに書くのにちょうどいい題材がなかったので、以前に自分が書いたエントリからデータを持ってくることにしました。「芸能人の相関関係を探ってみるスクリプト」 http://d.hatena.ne.jp

hiromark 2009/06/23

使ってみたい。

リンク

ベイズを学びたい人におすすめのサイト - download_takeshi’s diary

ベイジアンフィルタとかベイズ理論とかを勉強するにあたって、最初はなんだかよくわからないと思うので、そんな人にお勧めのサイトを書き残しておきます。 @IT スパム対策の基本技術解説（前編）綱引きに蛇口当てゲーム？！楽しく学ぶベイズフィルターの仕組み http://www.atmarkit.co.jp/fsecurity/special/107bayes/bayes01.html いくつかの絵でわかりやすく解説してあります。自分がしるかぎり、最もわかりやすく親切に解説してる記事です。数学とかさっぱりわからない人はまずここから読み始めるといいでしょう。茨城大学情報工学科の教授のページから http://jubilo.cis.ibaraki.ac.jp/~isemba/KAKURITU/221.pdf PDFですが、これもわかりやすくまとまってます。初心者でも理解しやすいし例題がいくつかあ

hiromark 2009/04/09

これはうれしい。

リンク

Locality Sensitive Hashing に挑んでみた - download_takeshi’s diary

久々のエントリです。 Locality Sensitive Hashing を perl で使うためのモジュールを書いてみました。Algorithm::LSHと名付けました。先ほどDeveloper ReleaseとしてCPANにあげましたが、反映されるまで時間かかるので、興味ある方はcodereposからみてください。 Algorithm::LSH CPAN: http://search.cpan.org/~miki/Algorithm-LSH/ coderepos: http://coderepos.org/share/browser/lang/perl/Algorithm-LSH 超アルファバージョンな状態ですが、そのうちgithubにもupする予定。そうそう、そう言えば WEB+DB PRESS Vol.49 にレコメンドエンジンの特集があって、その中に偶然にもLocality

hiromark 2009/03/23

Perl で LSH

リンク

潜在的意味インデキシング - download_takeshi’s diary

id:naoyaさんやたつをさんなどの超有名人な方々が以前から実施されている「IIR輪読会」というものがありまして、どうやら今回は第18章の "Matrix decompositions and latent semantic indexing"を輪読したようです。 http://d.hatena.ne.jp/naoya/20090208 http://chalow.net/2009-02-08-2.html Latent Semantic Indexingとは、通称LSIとかLSA（Latent Semantic Analysis）とかいいますが、日本語だと「潜在的意味インデキシング」なんて呼びますね。簡単に言ってみるとでっかいマトリックス（数万×数万とかの行列）をたとえば「数百×数万」ぐらいにまで、ぎゅぎゅっと横に押しつぶすように圧縮してみると、あら不思議、のこった行列はとても意味

hiromark 2009/02/10

”「Octaveを使ってSVD（特異値分解）で次元圧縮の計算処理をさせる」ためのperlモジュール”

perl

リンク

「日本語テキストを分類するベイジアンフィルタ」を簡単につくるyo - download_takeshi’s diary

数週間前の話になりますが、「はてブのリニューアル会見」の記事を読んでいたところ、はてブにも「自動カテゴライズによる記事分類」の機能が搭載されるとか。。。同じようなタイミングで「似たようなモノ」というか「ほぼ同じようなモノ」を作っていたので、すごーくインスパイアされてしまいました。ジュワ〜。（アドレナリンの放出音）数週間たってもいまだ興奮冷めやらぬ状態なので、今日はその件について書いてみようと思います。 Lingua::JA::Categorize - a Naive Bayes Classifier for Japanese document. http://search.cpan.org/~miki/Lingua-JA-Categorize-0.00001/ 「はてブのパクリ」ではありません。「ベイジアンによる日本語テキスト分類器」を「簡単に作る」ことを目的としたモジュールです。も

hiromark 2008/11/25

試してみよう。

リンク

名義尺度間の連関係数を算出するperlモジュール - ダウンロードたけし（寅年）の日記

データマイニングを行う際に、適当な２つの変数にどれだけの相関関係があるのか確かめたくなったとします。それらのデータはいわゆる「名義尺度」なデータ（地域別の野球チームの好き嫌いなど）だとしましょう。名義尺度なデータ間における連関係数と言えば「クラメール係数」。これをぱっと算出してくれるモジュールが欲しくなったので書いてみました。 Statistics::Associations - Calculates Association Coefficients of Nominal Scale. http://search.cpan.org/~miki/Statistics-Associations/ 使い方はこう。 use strict; use Statistics::Associations; my $asso = Statistics::Associations->new; my $m

hiromark 2008/11/19

あ、これは色々使えそう。

リンク

手軽にTF/IDFを計算するモジュール - download_takeshi’s diary

情報検索の分野でよく使われるアルゴリズムで「TF/IDF」というものがあります。ドキュメントの中から「特徴語」を抽出する、といったような用途でよく使われています。 TF/IDFアルゴリズムのくわしい解説はこことかここを見てください。今回はこのTF/IDFの計算を「簡単」に実現するためのperlモジュールをCPANに上げましたので、ご紹介します。なまえはLingua::JA::TFIDFといいます。 Lingua::JA::TFIDF - TF/IDF calculator based on MeCab. http://search.cpan.org/~miki/Lingua-JA-TFIDF TF/IDF実装の困りどころ TF/IDFの実装を試みた方であればわかると思うのですが、実際にやろうとすると、TF（Term Frequency）の計算はなんら難しくありませんが、IDF（Inve

hiromark 2008/11/02

いい感じ！

リンク

はてなブックマーク

タグ

ブックマーク / download-takeshi.hatenablog.com (15)

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第2週）

月間はてなブックマーク数ランキング（2024年8月）

今週のはてなブックマーク数ランキング（2024年9月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス