[B! perl][algorithm] ishideoのブックマーク

ishideo id:ishideo

perlとalgorithmに関するishideoのブックマーク (4)

js実装したHTML::Featureを使ってldr上でエントリ主要部分を見るgreasemonkeyスクリプト - koyachiの日記
LDR x HTML::Feature in client – Userscripts.org 操作はeで選択したエントリを抽出、抽出した状態で再度eで折りたたみ。shift+eで文字コードを変えて再抽出。shift+eでの文字コード変更はshift_jis -> euc_jp -> utf-8を繰り返しです。デフォルトでutf-8で取得するのでutf-8以外の内容の場合に(2007-11-03)文字コードを自動検出して適切なコードに変更するようにしました。それでも文字化けしたらshift+eしてみてください。 TSUBUAN APIを使ったldr上でのEntryFullTextもどきをベースにしています。 HTML::Featureの詳細についてはHTML::Feature - 重要部分を抽出するモジュール - - ダウンロードたけし（寅年）の日記を参照ください。ちなみにjavascr
ishideo 2010/01/15
greasemonkey

algorithm

javascript

HTML-Feature

cpan

extract

html

perl
リンク
HTML::Featureをまねしてみた - gotin blog
HTML::Feature - 重要部分を抽出するモジュール - - ダウンロードたけし（寅年）の日記 ↑こちらで紹介されていたCPANのモジュールでHTMLの重要部分が抽出できるとのことで、ちょっとまねしてみました。といっても記事に書かれていたアルゴリズムとソースをチラっとのぞいた程度なのでおそらくきちんと移植できてはいないのですが、いくつか試したところ同じ結果が得られたのでまぁいいのかもというレベルです。肝心なソースはこちら↓です。 karaoke_html_feature.user.js ↑こちらのソースの中にHTML::FeatureをまねしたgetFeatureNode関数を定義していて、カラオケアニメーション対象の文字列を今まではページ内の文字全てにしていたのを、getFeatureNodeで得られたノード内にしています。いつもどおり速度性能は全く意識せずに書いたのでg
ishideo 2010/01/15
greasemonkey

algorithm

javascript

HTML-Feature

cpan

extract

html

perl
リンク
MapReduce - naoyaのはてなダイアリー
"MapReduce" は Google のバックエンドで利用されている並列計算システムです。検索エンジンのインデックス作成をはじめとする、大規模な入力データに対するバッチ処理を想定して作られたシステムです。 MapReduce の面白いところは、map() と reduce() という二つの関数の組み合わせを定義するだけで、大規模データに対する様々な計算問題を解決することができる点です。 MapReduce の計算モデル map() にはその計算問題のデータとしての key-value ペアが次々に渡ってきます。map() では key-value 値のペアを異なる複数の key-value ペアに変換します。reduce() には、map() で作った key-value ペアを同一の key で束ねたものが順番に渡ってきます。その key-values ペアを任意の形式に変換すること
ishideo 2008/08/04
algorithm

google

mapreduce

perl

naoya

moose

cpan
リンク
[を] 転置インデックスによる検索システムを作ってみよう！
転置インデックスによる検索システムを作ってみよう！ 2007-11-26-5 [Algorithm][Programming] 転置インデックス[2007-06-17-6]による検索システムの実装はパフォーマンスを無視すれば意外と簡単です。それを示すために Perl で簡単な検索システムを作ってみました。検索方式は転置インデックス(Inverted Index)、ランキングには TF-IDF[2005-10-12-1] を用いました。検索対象ファイルは一行一記事で以下のフォーマットとします。 [記事ID][SPC][記事内容]\n 記事IDは数字、記事内容は UTF-8 の文字で構成されるものとします。以下のようなサンプル test.txt を用意しました。 1 これはペンです 2 最近はどうですか？ 3 ペンギン大好き 4 こんにちは。いかがおすごしですか？ 5 ここ最近疲れ
ishideo 2007/11/27
algorithm

perl

search

fulltextsearch
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx