タグ

ブックマーク / private.ceek.jp (2)

  • ブログの本文抽出にチャレンジ - Ceekz Logs (Move to y.ceek.jp)

    zuzara.com を読んでいると、ブログの文抽出にチャレンジしているのを見つけました。 tdかdivで囲まれた文字列で、文章と比べてHTMLのタグがあまり多くないもののうち、一番文字数が多いのが文だろう、というアルゴリズム。 PHP で書かれたコードを Perl に移植しながら、もっと効率的なアルゴリズムが無いかを考えていました。 まずは、『タグの数』ではなく、比率をで判定するように改良(?)しました。 スコア = タグ除去後(length) / タグ除去前(length) タグが含まれていないときが最大値になるので、スコアは 1 が最大となります。タグの数よりもこっちの方が良さそうだったのだけど、コメント部分を抽出してしまう可能性が非常に高い。だめぽ。 牛乳を飲みつつ考えていると(カルシウムを摂取して身長を伸ばす)、ひらめきましたよ!要は、長い文章を取り出せればいいのだから、句読

    fuba
    fuba 2006/06/19
    Web Wrapperの知見をどうぞ
  • YouTube と GyaO を便利に使うブックマークレット - Ceekz Logs (Move to y.ceek.jp)

    面白い動画を探すなら YouTube で、懐かしい動画を観るなら GyaO というように住み分けが出来てきているような感じですが(住み分けというより使い分け)、それらを便利に使うブックマークレットがブックマークに入っていたので、ご紹介。 YouTube の flv をダウンロードするブックマークレット http://www.youtube.com/watch?v=9er8jmBOMqo という YouTube の各動画の再生ページで実行してください。 location.href をダウンロード用のアドレスに置き換えることにより、ファイルがダウンロードされます。ただし、セキュリティ設定の厳しい IE では、情報バーが出てしまうので、ブックマークレットを使う際には Ctrl を押しながら行ってください。 GyaO の動画を Windows Media Player で再生するブックマークレット

    fuba
    fuba 2006/05/04
    IEならlocation.hrefにflvを放り込んで保存ダイアログが出た時に別名に変えられるのかしら。だったらこっちの方が楽だな
  • 1