2010年10月1日のブックマーク (4件)

  • Webページの本文抽出 (nakatani @ cybozu labs)

    Webページの自動カテゴライズ の続き。 前回書いたとおり、パストラックで行っている Web ページのカテゴライズでは、Web ページの文抽出がひとつの鍵になっています。今回はその文抽出モジュールを公開しつつ、使っている技法をざっくり解説などしてみます。 モジュールの利用は至極簡単。require して analyse メソッドに解析したい html を与えるだけ。文字コードは UTF-8 です。 【追記】大事なこと書き忘れ。モジュールは Ruby1.8.5 で動作確認していますが、特別なことはしていないので、1.8.x なら動くと思います。 $KCODE="u" # 文字コードは utf-8 require 'extractcontent.rb' # オプション値の指定 opt = {:waste_expressions => /お問い合わせ|会社概要/} ExtractCont

  • Ruby 入門 Ruby の基本文法

    Ruby は手軽さと高機能さを併せ持つ、オブジェクト指向のスクリプト言語です。阪大の情報教育システムには、Ruby で作られたツールがたくさん用意されています。これらのツールの仕組みを理解し、改良していくためにも、Ruby の使い方をマスターしましょう。 なお、このページは講義の参照ページです。中身が手抜きなため、このページを読むだけではよくわからないかも知れませんがご了承ください。 目次: Ruby とは Ruby のインストール Ruby の実行 Ruby の特徴 Ruby の基文法 クラス 文字列 配列 正規表現 組込み変数 制御構文 イテレータ ファイル ソケット スレッド Ruby/GTK2 開発環境・デバッグ 課題 参考情報 Ruby とは Ruby はスクリプト言語の手軽さで、格的なオブジェクト指向プログラミングが可能な、オブジェクト指向スクリプト言語です。開発者は日

  • mecab辞書にwikipediaのタイトル名を追加 - kokotech

    wikipediaのタイトルを追加しようとしたらいくつかハマったので。 環境はFedora10。 まずはmecabのインストール。 # yum install mecab* とりあえずこれだけでおもむろに形態素解析してみる。 # echo けいおん!のせいでtwitter界隈にギター買うとか宣言してる奴が増えた | mecab けい    名詞,一般,*,*,*,*,けい,ケイ,ケイ おん    名詞,一般,*,*,*,*,おん,オン,オン !      記号,一般,*,*,*,*,!,!,! の      助詞,連体化,*,*,*,*,の,ノ,ノ せい    名詞,非自立,一般,*,*,*,せい,セイ,セイ で      助動詞,*,*,*,特殊・ダ,連用形,だ,デ,デ t       * w       * i       * t       * t       * e      

  • Excelで自然言語処理: MeCabにユーザ辞書を追加するには?

    「MeCab/CabChaによる言語解析演習」を参考に、MeCab(Windows版)にユーザ辞書を追加しようとしたところ、かなりハマりました。MeCab/CabChaによる言語解析演習http://chasen.naist.jp/chaki/t/2008-09-09/doc/mecab-cabocha-nlp-seminar-enshu-2008.ppt一連の失敗と原因、対処をメモしておきます。【使用したMeCabのバージョン】0.98(Windows用バイナリ)【コマンドラインからの入力】C:\NAIST>mecab-dict-index -f SHIFT-JIS -t SHIFT_JIS –d “C:\Program Files\mecab\dic\ipadic” -u user.dic user.csv【エラーメッセージ】dictionary_compiler.cpp(71) [p