タグ

ブックマーク / labs.cybozu.co.jp (3)

  • Webページの本文抽出 (nakatani @ cybozu labs)

    Webページの自動カテゴライズ の続き。 前回書いたとおり、パストラックで行っている Web ページのカテゴライズでは、Web ページの文抽出がひとつの鍵になっています。今回はその文抽出モジュールを公開しつつ、使っている技法をざっくり解説などしてみます。 モジュールの利用は至極簡単。require して analyse メソッドに解析したい html を与えるだけ。文字コードは UTF-8 です。 【追記】大事なこと書き忘れ。モジュールは Ruby1.8.5 で動作確認していますが、特別なことはしていないので、1.8.x なら動くと思います。 $KCODE="u" # 文字コードは utf-8 require 'extractcontent.rb' # オプション値の指定 opt = {:waste_expressions => /お問い合わせ|会社概要/} ExtractCont

  • TAKESAKO @ Yet another Cybozu Labs: ニコニコ動画勉強会に行ってきました

    日ドワンゴさんの会議室にてこっそり開催されたニコニコ動画勉強会に参加してきました。 日の動画コメントサービス「ニコニコ動画」の裏側をドワンゴの開発者の方から 直接お話しを聞いて、参加者も一緒に意見交換ができる非常に面白い勉強会でした。 ドワンゴさんとしては会社で行なう技術者向けの勉強会初めての試みということもあり、 まずは開発者の知り合いベースで声をかけあって少人数で開催することにしたそうです。 六木のクラブの人や、バイナリカンファレンスでご一緒した人とこんなところで お会いできるとは思っていませんで、さまに想定の範囲外でした。 その甲斐あって密度の濃い話ができたと思います。 以下、自分用のメモを公開できる範囲で書きます。間違っていたらすみません。(ご指摘いただければすぐに訂正します) ■ニコニコ動画の苦労話 (Sさん) ニコニコ動画の歴史 2006年10月 一人でプロトタイプを開発

  • 秋元@サイボウズ研究所プログラマーBlog Sysinfo.org - Windowsのスタートアップにある不審なプログラムを調べるためのサイト

    Sysinfo.orgというサイトで、Windows のレジストリ関係のデータベースが構築され、公開されている。 今のところ、BHO(Browser Helper Object, ブラウザから起動されるツールバーなどのプ […] Sysinfo.orgというサイトで、Windows のレジストリ関係のデータベースが構築され、公開されている。 今のところ、BHO(Browser Helper Object, ブラウザから起動されるツールバーなどのプログラム。スパイウェアや○ウェアマルウェアも含む)と、スタートアップに登録されるアプリケーション(こちらも悪意のあるアプリケーションを含む)のデータベースが公開されている。 スタートアップアプリケーションの情報一覧では、システムに必要なもの、不要なもの、ユーザが必要なら入れるもの、害のあるもの、といった分類がされ、すでに1万2千件を越える情報が入っ

    秋元@サイボウズ研究所プログラマーBlog Sysinfo.org - Windowsのスタートアップにある不審なプログラムを調べるためのサイト
  • 1