タグ

2008年1月7日のブックマーク (3件)

  • 2008年、Webは文字列解析で変わっていく

    前回は、Perlモジュールである「Web::Scraper」を使ったスクレイピングについて説明した。Webページ(HTML)は、「構造」と「デザイン」面で比較的分離が進んできたため、CSSセレクタによるスクレイピングが有効であることが分かったはずだ。 今回の最終回では、コンテンツの自動収集と統計手法について考えてみよう。 記事内で扱っていくのは、幾つかのコンテンツをたどって、「利用頻度の高い語句を集め、話題となっているキーワードを見つけよう」というものだ。 話題のキーワードを集める手法 近年ブログのポータル上などでは、話題となっているキーワードを「利用頻度に応じたフォントサイズ」で示し、クリックすると該当の記事一覧が表示されるという仕組みが実装されているものが多い。 オルタナティブ・ブログにも似たようなものとして「話題のキーワード」が見られる。キーワードをクリックすると、Googleによる

    2008年、Webは文字列解析で変わっていく
    SUM
    SUM 2008/01/07
  • 入手しても大概は役立たない8つのFirefox機能拡張 | OSDN Magazine

    FirefoxというWebブラウザのコミュニティでは、インターネットを楽しくかつ効率よくサーフィンできるようにする目的で、膨大な数の機能拡張が作成されている。実際こうした機能拡張の大半は有用なものだが、稿で紹介するように、中には箸にも棒にもかからない性質のものも存在しているものである。 National Novel Writing Month(NaNoWriMo)というプロジェクトでは、わずか30日間で5万単語の小説を書き上げることをその目的に掲げている。こうした困難な目標を遂行するにあたって、各自の作業がどれだけ遅延しているかを随時チェックできないと不便であろうということで開発されたのが Nanowrimo Meter である。文筆家にとって自分の原稿の遅れ具合などは、記憶領域の片隅から追い出したい最優先事項のはずだからだ。もちろん、2日もあれば11,554単語程度の説得力溢れる文章を

    入手しても大概は役立たない8つのFirefox機能拡張 | OSDN Magazine
    SUM
    SUM 2008/01/07
  • 한국 공개 SW, 한 걸음 더 나가기 :: Channy's Blog

    SUM
    SUM 2008/01/07