deg84のブックマーク - はてなブックマーク

Awesome Screenshot が閲覧したサイトのURLを収集している疑い
ブログ mig5.net のMiguel Jacqさんの記事によると、Chromeブラウザ用のスクリーンショット・ツールとして有名な Awesome Screenshot 拡張に、ユーザーの同意無しにユーザーがどのページ […] ブログ mig5.net のMiguel Jacqさんの記事によると、Chromeブラウザ用のスクリーンショット・ツールとして有名な Awesome Screenshot 拡張に、ユーザーの同意無しにユーザーがどのページに訪問したかをネットのどこかに送信する機能があるようです。 Jacq さんは、自分が管理するOSSECのサーバー上の Drupal の、ログインしないとアクセスできない管理画面の複数のURLに対して、”niki-bot”という名前のbotがアクセスしてくるのをアクセスログから発見しました。外部から知りえないURLがアクセスされるからには、メンバー
deg84 2014/08/25
Google謹製のスクショ拡張が上手く動かなくなったから切り替えたのにな…

chrome

セキュリティ

拡張機能

screenshot
リンク
Webページの本文抽出 (nakatani @ cybozu labs)
Webページの自動カテゴライズの続き。前回書いたとおり、パストラックで行っている Web ページのカテゴライズでは、Web ページの本文抽出がひとつの鍵になっています。今回はその本文抽出モジュールを公開しつつ、使っている技法をざっくり解説などしてみます。本モジュールの利用は至極簡単。require して analyse メソッドに解析したい html を与えるだけ。文字コードは UTF-8 です。【追記】大事なこと書き忘れ。本モジュールは Ruby1.8.5 で動作確認していますが、特別なことはしていないので、1.8.x なら動くと思います。 $KCODE="u" # 文字コードは utf-8 require 'extractcontent.rb' # オプション値の指定 opt = {:waste_expressions => /お問い合わせ|会社概要/} ExtractCont
deg84 2009/11/08
Ruby

本文抽出
リンク
1

はてなブックマーク

タグ

ブックマーク / labs.cybozu.co.jp (2)

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第3週）

今週のはてなブックマーク数ランキング（2024年8月第2週）

今週のはてなブックマーク数ランキング（2024年8月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

ブックマーク / labs.cybozu.co.jp (2)

Awesome Screenshot が閲覧したサイトのURLを収集している疑い

Webページの本文抽出 (nakatani @ cybozu labs)

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第3週）

今週のはてなブックマーク数ランキング（2024年8月第2週）

今週のはてなブックマーク数ランキング（2024年8月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス