タグ

ブックマーク / private.ceek.jp (4)

  • はてブニュースを修正しました - Ceekz Logs (Move to y.ceek.jp)

    はてブニュースにデータが反映されなくなっていたため、修正しました。 データが反映されないというか、あるページの解析に失敗して、クローラが停止していました。形態素解析モジュールの仕様だと思うのですが、形態素解析不能な長文が入力すると、止ってしまう…。 ・ぺろぺろぺろぺろぺろぺろぺろ - はてなニュース このページな。 eval を使ってタイムアウトする処理を加えるべきですね…。というか、分類器も弱くなってきているので、作り直したい。 【関連情報】 ・はてブニュース http://labs.ceek.jp/hbnews/

    se-mi
    se-mi 2008/12/10
    すみませんうちのはまちやがご迷惑おかけします
  • Simple FON Maps - Ceekz Logs (Move to y.ceek.jp)

    Simple FON Maps というサービスを公開しました。その名の通り FON Maps をシンプルに表示するサービスです。オフィシャルは、情報量が多すぎて重いので…。 Simple FON Maps では、稼動している FON AP を中心に表示しています。 ・緑色のマーカー FON Access Points with Activity in the last hour 1時間以内にアクティブになった FON AP です。 ・黄色のマーカー All other FON Access Points 今までに1度でもアクティブになった FON AP です。 ・スター付き アクセスポータルのカスタマイズ 接続した後に表示されるトップページをカスタマイズしている FON AP です。ゲスト接続が可能である可能性が高いです。すなわち、ユーザ登録していなくても FON を楽しめる AP ですね

  • RSS の配信に購読管理機能を - Ceekz Logs (Move to y.ceek.jp)

    CEEK.JP NEWS や はてブニュース では、大量のエントリーがあるにもかかわらず、定期的に更新を行い定数のエントリーを RSS で出力しているに過ぎない。そのため livedoor Reader を初めとするウェブサービス型の RSS Reader では、ユーザによる更新間隔(クロール頻度)の制御ができないため、取りこぼしを大量に発生してしまう可能性が高い(ウェブ型で無い場合も可能性高いが)。 livedoor readerを使ってるんだけど、 はてブニュースとかCEEK.JP NEWSの更新を全件取得することってできるの? なんかRDFファイルに収録されてる件数分しかとってこないみたいですが。 仕様ってことですかね。 すでにこのような質問が2ちゃんねるに投げられており、 Bloglinesだと、頻繁にRDFにアクセスして逐一未読に蓄積されていくようだがね、 livedoor re

    se-mi
    se-mi 2006/08/16
    RSS購読管理
  • ブログの本文抽出にチャレンジ - Ceekz Logs (Move to y.ceek.jp)

    zuzara.com を読んでいると、ブログの文抽出にチャレンジしているのを見つけました。 tdかdivで囲まれた文字列で、文章と比べてHTMLのタグがあまり多くないもののうち、一番文字数が多いのが文だろう、というアルゴリズム。 PHP で書かれたコードを Perl に移植しながら、もっと効率的なアルゴリズムが無いかを考えていました。 まずは、『タグの数』ではなく、比率をで判定するように改良(?)しました。 スコア = タグ除去後(length) / タグ除去前(length) タグが含まれていないときが最大値になるので、スコアは 1 が最大となります。タグの数よりもこっちの方が良さそうだったのだけど、コメント部分を抽出してしまう可能性が非常に高い。だめぽ。 牛乳を飲みつつ考えていると(カルシウムを摂取して身長を伸ばす)、ひらめきましたよ!要は、長い文章を取り出せればいいのだから、句読

    se-mi
    se-mi 2006/06/19
    Ceekz氏によるRSSからの本文抽出
  • 1