サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
iPhone 16
chasen.naist.jp
CaboCha/南瓜: Yet Another Japanese Dependency Structure Analyzer $Id: index.html,v 1.61 2004/10/07 07:36:28 taku-ku Exp $; CaboCha/南瓜とは CaboCha は, Support Vector Machines に基づく日本語係り受け解析器です. 2001年6月現在, 統計的な日本語係り受け解析器として最も精度が高い(89.29%)システムとなっています. また, バックトラックを行なわない決定的な解析アルゴリズム (Cascaded Chunking Model) を採用しており, 比較的効率の良い解析が行なえます. 目次 実践 CaboCha 特徴 新着情報 学習データと解析精度 ダウンロード インストール UNIX Windows 使い方 とりあえず動かしてみ
データ整形ツールのインストール 英語 データ整形を行う環境を整える 品詞タグづけ器のインストール 実際の整形手順と逆になりますが、まず品詞タグづけ器からインストールします。 ここでは、品詞タグづけ器 TreeTaggerを用いることにします。 TreeTagger の配布ページ にある"Parameter files for PC (Linux and Windows, Latin1 character set)"とある項目の、 English parameter file(english-par-linux-3.1.bin.gz) と Windows version の TreeTagger 本体(tree-tagger-windows-3.1.zip) とをダウンロードしてください。 ダウンロードしたファイルを展開します。まず、TreeTagger 本体である tree-tagger-
辞書定義ファイルのフォーマットは以下のようになっています。(正確な定義は IPADIC のマニュアルを参照してください) (品詞 (<品詞情報>)) ((見出し語 (<見出し語> <形態素生起コスト>)) (読み <読み情報>) (発音 <発音情報>) (活用型 <活用型情報>) (活用形 <活用形情報>) (原形 <原形情報>) (付加情報 <付加情報>) (複合語 <複合語情報>)) 例 (品詞 (名詞 一般)) ((見出し語 (お正月 3641)) (読み オショウガツ) (発音 オショーガツ)) (品詞 (動詞 自立)) ((見出し語 (あきらめる 2377)) (読み アキラメル) (活用型 一段)) (品詞 (名詞 一般)) ((見出し語 (天文学 3556)) (読み テンモンガク) (複合語 ((品詞 (名詞 一般)) (見出し語 天文) (読み テンモン)) ((品詞 (
チュートリアル資料 茶器関連のチュートリアルの資料置場です。 2009-09-30,2009-10-01「自然言語処理技術」講習会 実施内容 2009-09-30 『Mecab/CaboChaを用いた形態素解析・係り受け解析』 『「茶器」によるコーパス管理・検索』 松本裕治、岩立将和、工藤拓 講習会資料 2009-09-30.zip zip ファイル 2009-09-30/ ディレクトリ(2009-09-30.zipの個別のファイルが見られます) 2008-09-08,09,10「自然言語処理技術」講習会 実施内容 2008-09-09 『「茶器」によるコーパス管理・検索』 岩立将和 講習会資料 2008-09-09.zip zip ファイル 2008-09-09/ ディレクトリ(個別のファイ ルが見られます) 2007-09-03,04,05「自然言語処理技術」講習会 実施内容 2007
SUFARY マニュアル Last Modified: 1999-10-18 山下 達雄 Yamasita, Tatuo SUFARY とは? SUFARY とは suffix arrayというデータ構造を用いて高速な文字列 検索を行なうためのライブラリを中心としたパッケージです。 suffix array については文献 [1] を御参照下さい。 suffix array はテキスト中のあらゆる suffix (接尾辞) を指すポインタを suffix でソートした配列で、 作成にはクイックソートを用いて最悪で O(N log N) 時間、 検索には二分探索を用いて O(P log N) 時間かかります。 ここらあたりの詳しい解説は 「SUFARY ガイド」[2] を御参照下さい。 Udi Manber and Gene Myers, "Suffix arrays: A new meth
「茶器」とは タグ付きコーパスを管理・検索するためのツールです 「茶器」の配布 ChaKi-2.1.13 (2008.09.08 updated) 「茶器」に関するドキュメント インストールマニュアル 使用者説明書(version 2.1)(2007.11.20) FAQ 2007年度自然言語処理技術講習会資料(2007.9.3-5) 2006年度自然言語処理技術講習会資料(2006.9.4-6) ワークショップ「コーパスツール「茶器」を利用した言語研究(2006.2.12) 2005年度自然言語処理技術講習会資料(2005.8.29-31) 問い合わせ先 メイリングリスト
メニュー 茶筌の配布 Anonymous CVS による配布 ソースからのインストール 辞書の作り方 FAQ 新着情報 茶筌バージョンアップ履歴 MailingList 関係者一覧 LINK 最新の20件 2007-03-23 FrontPage 2006-09-20 ソースからのインストール 2005-10-24 Anonymous CVS による配布 2005-08-20 LINK 2005-07-22 質問箱 SideMenu 2005-03-09 WinChaのインストール 2004-11-10 茶筌の配布 2004-11-09 新着情報 茶筌サーバ 2004-03-26 MailingList 2004-01-26 制約つき解析 2003-12-26 辞書定義ファイルのフォーマット 2003-12-25 辞書の作り方 2003-11-27 バグ情報 2003-10-24 FAQ:
茶筌の辞書をつくるためには以下のファイルが必要です。 辞書定義ファイル *.dic 文法定義ファイル grammar.cha - 品詞定義ファイル ctypes.cha - 活用型定義ファイル cforms.cha - 活用形定義ファイル connect.cha - 連接表定義ファイル 一般に、ユーザーが変更を加えるのは辞書定義ファイルのみです。 辞書のコンパイルには makeda コマンドを使います。 この作業は文法定義ファイルのあるディレクトリでおこなう必要があります。 $ makeda dic_name input1.dic input2.dic dic_name には出力したい辞書ファイルのベースネーム(拡張子を除いたファイル名)を指定します。たとえば、user を指定すると、user.da、user.lex、user.dat が生成されます。 入力の辞書定義ファイルは複数指定でき
茶筌システムは,広く自然言語処理研究に資するため無償のソフトウェアとして開発されたものである.茶筌の著作権は,奈良先端科学技術大学院大学情報科学研究科自然言語処理学講座(松本研究室)が保持する.本ソフトウェアの使用,改変,再配布については,特に制限を課すことはしない.詳しくはマニュアル裏表紙の copyright notice を参照のこと. なお,本ソフトウェアの著作権者である奈良先端科学技術大学院大学は,原形あるいは改変された形で配布された本ソフトウェアに関連して生じる一切の損失に対して保証の責を負わないこととする. 2.3.0 より、広告条項がなくなりました。また、Dartsを必要としますので、 Darts をリンクした場合、Darts のライセンスが生成物に波及する場合がありますので御注意ください。 辞書とシステムの分離に伴ない、2.2.1 よりシステムの Copyright の記
このページを最初にブックマークしてみませんか?
『chasen.naist.jp』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く