タグ

programmingとspamに関するstealthinuのブックマーク (6)

  • あまつぶ: POPFile/LongToProblem

    長い To ヘッダのあるメールの処理に時間がかかる問題 問題が発生する環境・条件 To, Cc, From, Reply-To ヘッダに多くのメールアドレスが指定されている場合 関連スレッド [POPFile Help Forum - Heavy CPU usage on msg with huge "To" list] 原因 メールアドレスを抽出する部分の処理に時間がかかっている。 置き換えつつループをまわすのを改め、一括置き換えの中でループ内で行なっていた処理を行うようにしたところ、改善された。 検証用コード 以下のコードを実行すると、ループの場合は非常に長い時間がかかることがわかる。 #!/usr/bin/perl use strict; use warnings; my $test_to = 'foo@example.com, <bar@example.com>, '; use B

    stealthinu
    stealthinu 2011/12/28
    POPFileでアホみたいに長いToを抽出する処理の高速化について。whileで回すのと正規表現のeオプション使うのとではなんと200倍!も速度が違う…
  • カイ二乗値で単語間の関連の強さを調べる

    カイ二乗値で単語間の関連の強さを調べる 2007-09-19-1 [Algorithm][Programming] カイ2乗値を使って単語間の関連度を調べる方法。 つまり、関連語を探すときに、χ二乗値を関連度として使う。 perl によるサンプルコード (chiword.pl)。昔、勉強がてら作ったコード。 #!/usr/bin/perl use strict; use warnings; my %cnt; my $pair_num; while (<>) { chomp; next if /^\s*$/; my @list = sort split(/,/, $_); for (my $i = 0; $i < @list; $i++) { for (my $j = $i + 1; $j < @list; $j++) { next if $list[$i] eq $list[$j]; $c

    カイ二乗値で単語間の関連の強さを調べる
    stealthinu
    stealthinu 2007/09/21
    ベイジアンフィルタだけじゃ単語間やルール間の関連性まで考慮できないから、こういうの使って関連付け情報まで学習できないかな?
  • http://note.sonots.com/?PukiWiki%2Fakismet.inc.php

    stealthinu
    stealthinu 2007/05/29
    akismetとreCAPTCHAを使う改造。参考になる。
  • XML-RPC [POPFile Documentation Project]

    XML-RPC が有効になると、多くの異なるプログラム言語で書かれた外部プログラムがこのサービスを使って POPFile と連携することができるようになります。POPFile の API は、0.22.0 のリリースで初めて一緒に提供された UI::XMLRPC モジュールをとおして提供されます。UI::XMLRPC モジュールは、標準的な POPFile インストレーションでは必要のない、いくつかの追加 Perl コンポーネントを必要とします。 API とメソッドについての詳細は、このページで見ることができます。 XML-RPC についての全般的な情報については、 XMLRPC.com で見ることができます。(訳注:リンク先は英語です) Windows 版のインストーラは、UI::XMLRPC モジュールをオプションのコンポーネントとして扱っています(デフォルトではインストールされません

    XML-RPC [POPFile Documentation Project]
    stealthinu
    stealthinu 2007/05/21
    POPFileを外部プログラムから呼び出すためのAPI
  • ユビキタスの街角 データ圧縮手法の応用

    PPM (Prediction by Partial Matching)というデータ圧縮アルゴリズムがある。 一般に、あるデータ列が与えられているとき、次に来るデータを予測することができればデータ圧縮を行なうことができる。 データ列から判断して次に来るデータが「a」だと確実に判断できるときは「a」を記述する必要が無いからである。 PPM法では、既存のデータ列中の文字列出現頻度を計算することによってこのような予測を行なう。 たとえば「abracadab」というデータの次にどの文字が来るか予測する場合、 「a」は4回、「b」は2回出現している 「b」の後に「r」が続いたことがある 「ab」の後に「r」が続いたことがある ... といった情報を累積して確率を推定する。 この場合、 (3)から考えて次の文字は「r」である確率が高いが、 (1)も考慮すると「a」の確率もある、という風に計算を行なう。

    stealthinu
    stealthinu 2007/02/16
    PPM法という圧縮手法を用いて予測を行うことが出来るらしい。それをスパムの予測にも使えるとのこと。
  • OBB vs AABB - Radium Software Development

    iPhoneの一般修理店は予約なしでも来店できる? 基的には飛び込みで修理に行ってもOK iPhoneを置いていたソファにうっかりと腰かけてしまい、パネルを割ってしまった、こんな時はスマホの一般修理店へ行きましょう。画面割れは、スマホやタブレットの故障原因として非常に多いものです。予約なしで突然お店に行っても平気かしらと、不安に思う方々もいらっしゃるかもしれません。結論としては特に問題はなく、予約なしで訪問しても画面割れの修理はお願いできます。 ただし他のサービス業のお店同様、予約なしの場合、お店が混雑していると順番待ちをしなければいけないです。特に繁盛しているスマホ修理のお店だと、行列が店内で出来ており、予約なしだと、自分の順番が巡ってくるまで長時間待たされる可能性があります。平日の朝、昼なら利用客が少ない場合が多く、飛び込みでも比較スムーズに修理が頼めます。 予約は入れた方が時短に、

    stealthinu
    stealthinu 2005/07/22
    真のハンガリアン記法 iの代わりにniとかするのはコメントでiを初期化とか書くのと同じ愚行
  • 1