タグ

ブックマーク / private.ceek.jp (8)

  • バグ祭なるものがあってな - Ceekz Logs (Move to y.ceek.jp)

    情報学類の一部で行われる祭。ということで、昨日(21日)の事内容です。 昼は、コナクリでエビピラフをべました。後輩がグラタンかドリアをべていて、そっちも美味しそうだと思った。ピラフばっかだしな。 夜は、情報学類ラウンジで行われるバグ祭に出る。祭という名ですが、単なる飲み会。チキンナゲットが美味しかった。 近年の警備強化に伴い、ラウンジで何かやろうとしても9時までしか実施できない…。今回、9時以降の実施も情報学類長の承諾を得ていたみたいだけど、事務から警備に伝わっていなかったとか。事務をアテにせず、学類長から捺印済みの書類を得ておく方が安全ですね。 コナクリ (昼) エビピラフ 情報学類ラウンジ (夜) バグ祭

  • 編集距離(レーベンシュタイン距離)の計算 - Ceekz Logs (Move to y.ceek.jp)

    文字列間の類似度を求める方法の一つとして、編集距離が挙げられます。編集距離は、考案者にちなみレーベンシュタイン距離とも呼ばれますが、具体的には、挿入や削除、置換によって、一方の文字列から他方の文字列に変換するために必要な作業の最小回数です。 use List::Util; sub levenshtein_distance { my ($list_1, $list_2) = @_; my $len_1 = scalar(@{$list_1}); my $len_2 = scalar(@{$list_2}); my @d; foreach my $i (0 .. $len_1) { $d[$i][0] = $i; } foreach my $j (0 .. $len_2) { $d[0][$j] = $j; } foreach my $i (1 .. $len_1) { foreach my

  • コサイン尺度(コサイン類似度)の計算 - Ceekz Logs (Move to y.ceek.jp)

    文書間の類似度を求める方法の一つとして、コサイン尺度が挙げられます。コサイン尺度とは、2つのベクトルのなす角度であり、文書をベクトル化することにより、文書間の類似度を求めることが出来ます。 sub cosine_similarity { my ($vector_1, $vector_2) = @_; my $inner_product = 0.0; map { if ($vector_2->{$_}) { $inner_product += $vector_1->{$_} * $vector_2->{$_}; } } keys %{$vector_1}; my $norm_1 = 0.0; map { $norm_1 += $_ ** 2 } values %{$vector_1}; $norm_1 = sqrt($norm_1); my $norm_2 = 0.0; map { $nor

  • EUC の正規表現 - Ceekz Logs (Move to y.ceek.jp)

    最近は、ニュース検索に新たな機能を追加しようと試行錯誤しています。 EUC の文字列が文字化けしていないかどうかをチェックする必要がありました。チェック自体は難しくなく、単に EUC の範囲外の文字が含まれているかどうかを調べればよいのです。 EUC の 1byte 文字は、以下のように表現することが出来ます。というか、すべての ASCII 文字 はこれ。 [\x00-\x7F] しかし、よくよく考えると、この表現には制御文字も含まれているんですよね。なので、このままマッチさせると文字化けを発見することが出来ないわけです。なので、制御文字を除いてマッチさせるのが吉だと思う。 [\x20-\x7E] ということで、僕は、以下のように定義して文字化けが無いかどうかを調べています。 $euc = '[\x20-\x7E]|[\x8E\xA1-\xFE][\xA1-\xFE]|\x8F[\xA1-

  • 2月29日 発表会 - Ceekz Logs (Move to y.ceek.jp)

    ・特別活動 欠席。試験なのかレポートなのかわからぬ。 ・データベースとWeb情報検索システム 最終発表会。欠席者が2名…。ウェブ棚システムの開発を行いました。積読管理が出来ます。もう少しコンセプトを検討してから、ウェブサービス化しようと思います。シンプル設計を心がけています。

    kaz_goto
    kaz_goto 2008/03/02
    本棚
  • 携帯電話による位置情報取得 〜一部修正 - Ceekz Logs (Move to y.ceek.jp)

    携帯端末による位置情報取得の実験を行っています。 ・位置情報取得 - 現在地表示 多くの方に協力を頂き、感謝しております。取得したデータや報告を基に数点修正しましたので、お知らせいたします。まだまだ調査中ですが…。 ・au の GPS 対応機種の一部で位置情報を取得できない device:gpsone?url=[送り先 URL]&ver=1&datum=0&unit=0 となっていた取得リンクを device:gpsone?url=[送り先 URL]&ver=1&datum=0&unit=0&acry=0&number=0 に変更してみました。参考資料に書かれていない引数を付加しています。どれくらい効果があるかは不明…。改善するといいな。 ・au の一部機種で位置情報取得方法が正しく判定されない 環境変数 HTTP-X-UP-DEVCAP-MULTIMEDIA のチェックの際に、一桁目が英

    kaz_goto
    kaz_goto 2007/02/28
  • 携帯電話による位置情報取得 - Ceekz Logs (Move to y.ceek.jp)

    携帯端末による位置情報取得が面白いです。 GPS 携帯を購入したこともあり、今年は携帯向けのサービスを何か始めたいと考えております。 年頭の挨拶に書いたとおり、開発に取り組んできました。なかなか時間が取れなかったのですが、基の部分が出来たので公開してみたいと思います。 ・位置情報取得 - 現在地表示 アクセスした端末に応じた位置情報取得リンクが表示されるようになっています。位置情報取得に未対応の端末(PC, W-ZERO3 etc...)でアクセスした場合は、キーワード検索用のフォームが出ます(Google Maps Geocoder を使用)。 ぜひ、手元の携帯端末でアクセスしてみてください。アクセス判定が怪しい場合は、気軽に「間違い報告」でお知らせください。わかる範囲で入力していただければ UserAgent を基に調査いたします。 DoCoMo のオープン i エリアを利用する場合

    kaz_goto
    kaz_goto 2007/02/26
  • 検索エンジンの相関図 - Ceekz Logs (Move to y.ceek.jp)

    検索エンジンの相関図の最新版が出ていました。 日のポータルサイトがどの検索エンジンを使用しているのかを示す、日の検索エンジン相関図をまとめました。 メタ検索エンジン CEEK.JP を開発している自分としては、検索エンジンとポータルサイトの関連が分かるのは非常に便利。 相関図に載っているサイト以外のロボット型検索エンジンを調べてみました。 ・Empas Japan ・インフォシーク (Infoseek 検索) ・MARS FLAG ・TKENSAKU これらは、日国内向けに提供されている検索エンジンです。相関図に載っていないのは、まだまだマイナーだからでしょうか…。近いうちに某社からも独自のロボット検索エンジンが投入されるという噂を耳にしました。公開が楽しみです。 ・accoona ・AlltheWeb.com (Yahoo! とは異なる結果) ・Ask.com (Ask.jp とは

  • 1