[B! algorithm][ruby] nitoyonのブックマーク

nitoyon id:nitoyon

algorithmとrubyに関するnitoyonのブックマーク (2)

るびま
『るびま』は、Ruby に関する技術記事はもちろんのこと、Rubyist へのインタビューやエッセイ、その他をお届けするウェブ雑誌です。 Rubyist Magazine について『Rubyist Magazine』、略して『るびま』は、日本 Ruby の会の有志による Rubyist の Rubyist による、Rubyist とそうでない人のためのウェブ雑誌です。最新号 Rubyist Magazine 0058 号バックナンバー Rubyist Magazine 0058 号 RubyKaigi 2018 直前特集号 Rubyist Magazine 0057 号 RubyKaigi 2017 直前特集号 Rubyist Magazine 0056 号 Rubyist Magazine 0055 号 Rubyist Magazine 0054 号東京 Ruby 会議 11 直
nitoyon 2009/02/11
GCの仕組みを図を多用しつつ分かりやすく説明。基本的なアルゴリズム３種 Mark&Sweep, Copying, ReferenceCount の説明と、Ruby の GC 実装。

ruby

gc

algorithm
リンク
Webページの本文抽出 (nakatani @ cybozu labs)
Webページの自動カテゴライズの続き。前回書いたとおり、パストラックで行っている Web ページのカテゴライズでは、Web ページの本文抽出がひとつの鍵になっています。今回はその本文抽出モジュールを公開しつつ、使っている技法をざっくり解説などしてみます。本モジュールの利用は至極簡単。require して analyse メソッドに解析したい html を与えるだけ。文字コードは UTF-8 です。【追記】大事なこと書き忘れ。本モジュールは Ruby1.8.5 で動作確認していますが、特別なことはしていないので、1.8.x なら動くと思います。 $KCODE="u" # 文字コードは utf-8 require 'extractcontent.rb' # オプション値の指定 opt = {:waste_expressions => /お問い合わせ|会社概要/} ExtractCont
nitoyon 2007/10/30
本文抽出ライブラリ公開。同様のライブラリへのリンク。

algorithm

web

scraping

library

html

ruby
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx