タグ

2009年5月5日のブックマーク (3件)

  • Webページの本文抽出 (nakatani @ cybozu labs)

    Webページの自動カテゴライズ の続き。 前回書いたとおり、パストラックで行っている Web ページのカテゴライズでは、Web ページの文抽出がひとつの鍵になっています。今回はその文抽出モジュールを公開しつつ、使っている技法をざっくり解説などしてみます。 モジュールの利用は至極簡単。require して analyse メソッドに解析したい html を与えるだけ。文字コードは UTF-8 です。 【追記】大事なこと書き忘れ。モジュールは Ruby1.8.5 で動作確認していますが、特別なことはしていないので、1.8.x なら動くと思います。 $KCODE="u" # 文字コードは utf-8 require 'extractcontent.rb' # オプション値の指定 opt = {:waste_expressions => /お問い合わせ|会社概要/} ExtractCont

    kunimiya
    kunimiya 2009/05/05
    [プログラミング[自然言語処理]
  • 満足せる豚。眠たげなポチ。:SciTE Editorで日本語を使うには。

    Rolling on Ruby on Railsの手順の通りに作業を進めると、SciTE Editorというエディタがインストールされる。 これがなかなか使いやすくて重宝するんだけど、デフォルトでは日語が文字化けする。ということで、設定方法を。 [Options] -> [Open Global Options File] から、 # Internationalisation # Japanese input code page 932 and ShiftJIS character set 128 の記述のとおりに'code.page'と'character.set'を設定変更。(すぐ下にコメントアウトされているので、'#'を外すだけ) code.page=932 character.set=128 で、元から設定されている'code.page'の値をコメントアウト。 #code.pag

  • Home

    2024 October 20 th to 23 rd DCMI 2024 Toronto, Canada DCMI 2024, the twenty-second International Conference on Dublin Core and Metadata Applications, will explore metadata's role in trustworthy AI, fighting misinformation, and knowledge representation within its theme of Trust, Transformation, and Humanity.

    Home