don-quijoteのブックマーク / 2010年10月1日

don-quijote id:don-quijote

2010年10月1日のブックマーク (4件)

Webページの本文抽出 (nakatani @ cybozu labs)
Webページの自動カテゴライズの続き。前回書いたとおり、パストラックで行っている Web ページのカテゴライズでは、Web ページの本文抽出がひとつの鍵になっています。今回はその本文抽出モジュールを公開しつつ、使っている技法をざっくり解説などしてみます。本モジュールの利用は至極簡単。require して analyse メソッドに解析したい html を与えるだけ。文字コードは UTF-8 です。【追記】大事なこと書き忘れ。本モジュールは Ruby1.8.5 で動作確認していますが、特別なことはしていないので、1.8.x なら動くと思います。 $KCODE="u" # 文字コードは utf-8 require 'extractcontent.rb' # オプション値の指定 opt = {:waste_expressions => /お問い合わせ|会社概要/} ExtractCont
don-quijote 2010/10/01
研究
リンク
Ruby 入門　Ruby の基本文法
Ruby は手軽さと高機能さを併せ持つ、オブジェクト指向のスクリプト言語です。阪大の情報教育システムには、Ruby で作られたツールがたくさん用意されています。これらのツールの仕組みを理解し、改良していくためにも、Ruby の使い方をマスターしましょう。なお、このページは講義の参照ページです。中身が手抜きなため、このページを読むだけではよくわからないかも知れませんがご了承ください。目次： Ruby とは Ruby のインストール Ruby の実行 Ruby の特徴 Ruby の基本文法クラス文字列配列正規表現組込み変数制御構文イテレータファイルソケットスレッド Ruby/GTK2 開発環境・デバッグ課題参考情報 Ruby とは Ruby はスクリプト言語の手軽さで、本格的なオブジェクト指向プログラミングが可能な、オブジェクト指向スクリプト言語です。開発者は日本人
don-quijote 2010/10/01
プログラミング
リンク
mecab辞書にwikipediaのタイトル名を追加 - kokotech
wikipediaのタイトルを追加しようとしたらいくつかハマったので。環境はFedora10。まずはmecabのインストール。 # yum install mecab* とりあえずこれだけでおもむろに形態素解析してみる。 # echo けいおん！のせいでtwitter界隈にギター買うとか宣言してる奴が増えた | mecab けい名詞,一般,*,*,*,*,けい,ケイ,ケイおん名詞,一般,*,*,*,*,おん,オン,オン！記号,一般,*,*,*,*,！,！,！の助詞,連体化,*,*,*,*,の,ノ,ノせい名詞,非自立,一般,*,*,*,せい,セイ,セイで助動詞,*,*,*,特殊・ダ,連用形,だ,デ,デ t * w * i * t * t * e
don-quijote 2010/10/01
研究
リンク
Excelで自然言語処理: MeCabにユーザ辞書を追加するには？
「MeCab/CabChaによる言語解析演習」を参考に、MeCab(Windows版)にユーザ辞書を追加しようとしたところ、かなりハマりました。MeCab/CabChaによる言語解析演習http://chasen.naist.jp/chaki/t/2008-09-09/doc/mecab-cabocha-nlp-seminar-enshu-2008.ppt一連の失敗と原因、対処をメモしておきます。【使用したMeCabのバージョン】0.98(Windows用バイナリ)【コマンドラインからの入力】C:\NAIST>mecab-dict-index -f SHIFT-JIS -t SHIFT_JIS –d “C:\Program Files\mecab\dic\ipadic” -u user.dic user.csv【エラーメッセージ】dictionary_compiler.cpp(71) [p
don-quijote 2010/10/01
研究
リンク
- 2010年10月3日
- 2010年10月1日
- 2010年9月30日

お知らせ

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

はてなブックマーク

タグ

2010年10月1日のブックマーク (4件)

Webページの本文抽出 (nakatani @ cybozu labs)

Ruby 入門　Ruby の基本文法

mecab辞書にwikipediaのタイトル名を追加 - kokotech

Excelで自然言語処理: MeCabにユーザ辞書を追加するには？

お知らせ

月間はてなブックマーク数ランキング（2024年7月）

今週のはてなブックマーク数ランキング（2024年7月第4週）

今週のはてなブックマーク数ランキング（2024年7月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

2010年10月1日のブックマーク (4件)

Webページの本文抽出 (nakatani @ cybozu labs)

Ruby 入門 Ruby の基本文法

mecab辞書にwikipediaのタイトル名を追加 - kokotech

Excelで自然言語処理: MeCabにユーザ辞書を追加するには？

お知らせ

月間はてなブックマーク数ランキング（2024年7月）

今週のはてなブックマーク数ランキング（2024年7月第4週）

今週のはてなブックマーク数ランキング（2024年7月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

Ruby 入門　Ruby の基本文法