タグ

perlとalgorithmに関するishideoのブックマーク (4)

  • js実装したHTML::Featureを使ってldr上でエントリ主要部分を見るgreasemonkeyスクリプト - koyachiの日記

    LDR x HTML::Feature in client – Userscripts.org 操作はeで選択したエントリを抽出、抽出した状態で再度eで折りたたみ。shift+eで文字コードを変えて再抽出。shift+eでの文字コード変更はshift_jis -> euc_jp -> utf-8を繰り返しです。デフォルトでutf-8で取得するのでutf-8以外の内容の場合に(2007-11-03)文字コードを自動検出して適切なコードに変更するようにしました。それでも文字化けしたらshift+eしてみてください。 TSUBUAN APIを使ったldr上でのEntryFullTextもどきをベースにしています。 HTML::Featureの詳細についてはHTML::Feature - 重要部分を抽出するモジュール - - ダウンロードたけし(寅年)の日記を参照ください。 ちなみにjavascr

    js実装したHTML::Featureを使ってldr上でエントリ主要部分を見るgreasemonkeyスクリプト - koyachiの日記
  • HTML::Featureをまねしてみた - gotin blog

    HTML::Feature - 重要部分を抽出するモジュール - - ダウンロードたけし(寅年)の日記 ↑こちらで紹介されていたCPANのモジュールでHTMLの重要部分が抽出できるとのことで、ちょっとまねしてみました。 といっても記事に書かれていたアルゴリズムとソースをチラっとのぞいた程度なのでおそらくきちんと移植できてはいないのですが、いくつか試したところ同じ結果が得られたのでまぁいいのかもというレベルです。 肝心なソースはこちら↓です。 karaoke_html_feature.user.js ↑こちらのソースの中にHTML::FeatureをまねしたgetFeatureNode関数を定義していて、 カラオケアニメーション対象の文字列を今まではページ内の文字全てにしていたのを、getFeatureNodeで得られたノード内にしています。 いつもどおり速度性能は全く意識せずに書いたのでg

    HTML::Featureをまねしてみた - gotin blog
  • MapReduce - naoyaのはてなダイアリー

    "MapReduce" は Google のバックエンドで利用されている並列計算システムです。検索エンジンのインデックス作成をはじめとする、大規模な入力データに対するバッチ処理を想定して作られたシステムです。 MapReduce の面白いところは、map() と reduce() という二つの関数の組み合わせを定義するだけで、大規模データに対する様々な計算問題を解決することができる点です。 MapReduce の計算モデル map() にはその計算問題のデータとしての key-value ペアが次々に渡ってきます。map() では key-value 値のペアを異なる複数の key-value ペアに変換します。reduce() には、map() で作った key-value ペアを同一の key で束ねたものが順番に渡ってきます。その key-values ペアを任意の形式に変換すること

    MapReduce - naoyaのはてなダイアリー
  • [を] 転置インデックスによる検索システムを作ってみよう!

    転置インデックスによる検索システムを作ってみよう! 2007-11-26-5 [Algorithm][Programming] 転置インデックス[2007-06-17-6]による検索システムの実装は パフォーマンスを無視すれば意外と簡単です。 それを示すために Perl で簡単な検索システムを作ってみました。 検索方式は転置インデックス(Inverted Index)、 ランキングには TF-IDF[2005-10-12-1] を用いました。 検索対象ファイルは一行一記事で以下のフォーマットとします。 [記事ID][SPC][記事内容]\n 記事IDは数字、記事内容は UTF-8 の文字で構成されるものとします。 以下のようなサンプル test.txt を用意しました。 1 これはペンです 2 最近はどうですか? 3 ペンギン大好き 4 こんにちは。いかがおすごしですか? 5 ここ最近疲れ

    [を] 転置インデックスによる検索システムを作ってみよう!
  • 1