タグ

2009年7月27日のブックマーク (3件)

  • Webページの本文抽出 (nakatani @ cybozu labs)

    Webページの自動カテゴライズ の続き。 前回書いたとおり、パストラックで行っている Web ページのカテゴライズでは、Web ページの文抽出がひとつの鍵になっています。今回はその文抽出モジュールを公開しつつ、使っている技法をざっくり解説などしてみます。 モジュールの利用は至極簡単。require して analyse メソッドに解析したい html を与えるだけ。文字コードは UTF-8 です。 【追記】大事なこと書き忘れ。モジュールは Ruby1.8.5 で動作確認していますが、特別なことはしていないので、1.8.x なら動くと思います。 $KCODE="u" # 文字コードは utf-8 require 'extractcontent.rb' # オプション値の指定 opt = {:waste_expressions => /お問い合わせ|会社概要/} ExtractCont

  • サービス終了のお知らせ

    サービス終了のお知らせ いつもYahoo! JAPANのサービスをご利用いただき誠にありがとうございます。 お客様がアクセスされたサービスは日までにサービスを終了いたしました。 今後ともYahoo! JAPANのサービスをご愛顧くださいますよう、よろしくお願いいたします。

  • ねんどろいど ドロッセル

    全人類以外待望! ねんどろいどドロッセル。 ディズニー・ジャパン製作による初のCGアニメーション『ファイアボール』より、貴族のお嬢様ロボット「ドロッセル」がまさかのねんどろいど化!おおよそ2頭身のディフォルメボディながら、おなじみの決めポーズを再現可能。精密に作りこまれた各種ユニットパーツが、作中の雰囲気を損なう事無く、愛くるしさを倍増させます!さらに!!オーシャン・ブルーの瞳が輝く発光ギミックを頭部に仕込みました!