[B! 言語処理] jink_sのブックマーク

jink_s id:jink_s

言語処理に関するjink_sのブックマーク (7)

Webstemmer（クローラーツール）
日本語サイトでは、具体的な性能は測定していませんが、以下のようなサイトで正しく動くことがわかっています: アサヒ・コム Nikkei NET Mainichi INTERACTIVE Yomiuri On-line IT media 東京新聞日刊スポーツ信濃毎日新聞 livedoor ニュース使いかた Webstemmer をつかったテキスト抽出は以下のようなステップになります: まず、特定のニュースサイトから種となる HTML ページを多数取得する。取得したページのレイアウトを学習する。別の日に、同一のニュースサイトから新しい HTML ページを取得する。 2. で学習した結果をつかって、新しい HTML ページから本文を抽出する。 1. および 2. のステップが必要なのは最初の 1回だけです。ひとたびサイトのレイアウトを学習してしまえば、あとはレイアウトが大きく変更さ
jink_s 2008/09/08
研究

言語処理

クローラ
リンク
cabochaでUTF8 - プログラマでありたい
昨日気づいたのですが、cabocha 0.60が開発中のようです。今は、pre2まで出ています。変更点は、以下の通りのようです。何が嬉しいかというと、UTF8に対応しているところ。内部的には、ほぼフルスクラッチで書き直しの力作のようです。また、chasenのサポートをやめてmecabオンリーになっているので、mecabが必須になっています。変更点: - UTF8対応 (./configure --with-charset=UTF8) - 文節区切りと固有表現抽出に CRF (実装はCRF++)を使用 - ChaSenへの依存を廃止し、MeCab のみのサポートに - 固有表現を行う前に文字列の正規化を行うことで若干の精度向上 - 簡易並列処理の廃止。係り受けのみ - APIの一新、より粒度の細かい制御が可能 - PerlやMakefileに依存していた部分の排除。 - 単一バイナリ c
jink_s 2008/08/18
言語処理

cabocha
リンク
Elementary, ... MeCab - HTML::TagCloud
会社で、ブログのエントリに応じた反応をする（いわゆるBl ogPet）の話になり、形態素解析をやってみようと気が向いたのでサンプルを作ってみました。 http://e8y.net/labs/tagcloud/ 入力されたテキストの内容を MeCab 様で形態素分析して、名詞の回数でタグクラウドします。MeCab は Perl モジュールも提供してくれてますので、数十分でできあがりました。Chasenのインストールで苦労したときと比べると大違い。インストール http://sourceforge.jp/projects/mecab/files/ から、 mecab と mecab-ipadic の最新版をダウンロード。その後、それぞれ $ tar zxvf mecab-* $ cd mecab-* $ ./configure $ make # make install あと同じ http:/
jink_s 2008/08/18
mecab

言語処理
リンク
MeCab: Yet Another Part-of-Speech and Morphological Analyzer(形態素解析エンジン)
MeCab に至るまでの形態素解析器開発の歴史等はこちらをご覧くださいメーリングリスト一般ユーザ向けメーリングリスト開発者向けメーリングリスト新着情報 2008-02-03 MeCab 0.97 マルチスレッド環境で辞書を開くときの排他制御がうまくいっていなかったバグの修正 Windows版でインストール時に辞書の文字コードを指定できるようになった一部のコンパイラで正しくコンパイルできなかった問題の修正部分解析モードを変更するAPI の追加 (Tagger::set_partial()) ラティスの生成レベルを変更するAPI の追加 (Tagger::set_lattice_level()) 温度パラメータを変更するAPIの追加 (Tagger::set_theta()) 全候補出力モードを変更するAPIの追加 (Tagger::set_all_morphs()) 2007-
jink_s 2008/08/18
言語処理
リンク
https://www.codeblog.org/blog/eto/20060212.html
jink_s 2008/08/12
ruby

言語処理
リンク
[Namazu-devel-ja 156] utf8index-branch へ HEAD の変更を反映しました
jink_s 2008/08/12
言語処理
リンク
形態素解析の茶筅
ChaSen -- 形態素解析器はじめに形態素解析器とは、入力文を単語単位に分割し品詞を付与するツールである。新着情報 2011-11-16 (wed) See JPCERT Report. 茶筌の配布ダウンロードあらかじめ iconvと Darts-0.31のインストールが必要です。 chasen-2.3.3 辞書は別配布になっています。 ipadic-2.7.0 日本語辞書 UniDic 日本語辞書 NAIST-Japanese-dic 日本語辞書（奈良先端大より公開予定） NAIST-Chinese-dic 中国語語辞書（奈良先端大より公開予定）著作権および仕様条件について茶筌システムは，広く自然言語処理研究に資するため無償のソフトウェアとして開発されたものである．茶筌の著作権は，奈良先端科学技術大学院大学情報科学研究科自然言語処理学講座(松本研究室)が保持する．本ソフ
jink_s 2008/08/12
言語処理
リンク
1