[B! 係り受け解析] labgaのブックマーク

labga id:labga

係り受け解析に関するlabgaのブックマーク (17)

https://github.com/yu-hatva/kakarot/blob/master/kakarot.h
labga 2013/08/11
係り受け解析
リンク
cabochaソースを読む（１）処理の流れ概要 - コードネームは初話ユウ
係り受けツールのcabochaをいじっているが、いろいろとひっかかってる。cabochaは係り受けをどうやって決めているのか？を知るため、ソースを少し読んでみた。以下そのメモ。南瓜のページ　http://code.google.com/p/cabocha/ からソースをDL。とったのは v0.64。このページにいろいろ基本的な解説があるので、まずそれを読んでおく。論文もあるので目を通しておく：チャンキングの段階適用による係り受け解析 http://chasen.org/~taku/publications/nl142.pdf tar.gz を展開。ソースは当然 src/ ディレクトリにある。ソースを読み出す前に、まず「誰か既にソース読んで、わかったことブログに書いたりしてないかなぁ」などと怠慢なことを考えてざっと探すと、こんなのを発見： Read Cabocha http://ha
labga 2013/08/11
係り受け解析
リンク
untitled
labga 2013/03/16
自然言語処理

係り受け解析
リンク
https://nlp.ist.i.kyoto-u.ac.jp/member/kawahara/paper/NLP2002-1.pdf
labga 2013/03/15
自然言語処理

係り受け解析
リンク
５ちゃんねる error 3001
labga 2013/03/15
自然言語処理

係り受け解析
リンク
Catalogue of Language Resources and Tools in Japan
[形態素解析器] [パーザ] [ツール(その他)] 新聞記事毎日新聞CD-ROM 毎日新聞CD-ROM (1991年) 毎日新聞CD-ROM (1992年) 毎日新聞CD-ROM (1993年) 毎日新聞CD-ROM (1994年) 毎日新聞CD-ROM (1995年) 日経新聞CD-ROM 日経産業・金融・流通新聞CD-ROM 読売新聞CD-ROM (邦文記事) 読売新聞CD-ROM (英文記事) 朝日新聞CD-ROM 注釈付きコーパス RWCテキストデータベース RWC-DB-TEXT-94-1 RWC-DB-TEXT-94-2 RWC-DB-TEXT-95-3 RWC-DB-TEXT-96-2 RWC-DB-TEXT-97-1 CRL-DB-TEXT-97-1 EDR日本語コーパス EDR英語コーパス京都テキストコーパス JEITAマルチモーダル対話コーパス
labga 2013/03/14
言語資源

自然言語処理

係り受け解析
リンク
日本語Wikipediaエントリの係り受けデータベース
目次日本語Wikipediaエントリの係り受けデータベースとは新着情報ダウンロード利用方法利用条件リンク公開しているその他のオープンソースツール・言語資源高度言語情報融合フォーラム（ALAGIN）言語資源サイト日本語Wikipediaエントリの係り受けデータベースとは本データベースは、日本語の大量（約6億ページ、約430億文、クロール時期は 2007年5月19日から11月13日）のWeb文書から、Wikipediaの記事のタイトル（エントリ）の内、二文節以上のもの（例：「三保の松原」「風と共に去りぬ」）に関する係り受けとその頻度を抽出したものです。通常の形態素解析・係り受け解析では、これらのエントリが複数の文節に分割されてしまうため、これまで高度言語情報融合フォーラム（ALAGIN）で公開してきた日本語係り受けデータベース (Version 1.0)では、これらのエント
labga 2013/03/14
データベース

自然言語処理

係り受け解析
リンク
構文解析が何に役立つのか
思いがけずたくさんブックマークしていただいたので，この機会になんで構文解析なんかやるのかというお話を書こうと思います．おそらく，NLP界隈の人には何をいまさらと思われるかもしれませんが，それが本当に役立つかというとなかなか一筋縄では行きません．今回興味を持たれた方の多くはNLP分野外の方なんじゃないかな，と勝手に考えてますのでそのつもりで書きます．構文解析というのは，文の構造を判別する処理のことで，NLP的には単語分割，品詞タグ付け（いわゆる形態素解析）のあとにくる処理です．ソフトウェアで言えばCabochaやKNPがこれにあたります．ここに大変わかり易いチュートリアルがありますｗ　例えば「値段の高いワイン」が，「値段のワイン」ではなくて，「値段の高い」「高いワイン」であることを認識する技術，と理解していただければ良いと思います．このように，文節間の係り関係を解析することを，係り受け解析
labga 2013/03/14
係り受け解析

自然言語処理
リンク
Hunting Field: [python] 日本語構文解析器CaboChaのおいしい食べ方
日本語構文解析器CaboChaをインストール。ついでに、係り受け解析についてチョット調べた。このCaboChaを使うと、日本語の文を文節に区切り、その文節間の修飾関係（係り受け）を出力する事ができる。ここのまんま。ありがとうございます。 YUMで一発、cabocha で係り受け解析オライリーの12章にも参考になるところがあった。 Python による日本語自然言語処理、CaboChaを使うまずはcabochaを頂戴してくる sudo rpm -Uvh http://rtilabs.net/files/repos/yum/rh/6/x86_64/rtilabs-release-1-0.noarch.rpm sudo yum install --enablerepo=rtilabs cabocha sudo yum install --enablerepo=rtilabs cabo
labga 2013/03/14
自然言語処理

係り受け解析
リンク
ヤフーの日本語係り受け解析APIとサンプルプログラム「なんちゃって文章要約」
ヤフーの日本語係り受け解析APIとサンプルプログラム「なんちゃって文章要約」 2008-08-21-1 [WebTool][NLP][Programming][Algorithm] Yahoo!デベロッパーネットワーク(YDN)に「日本語係り受け解析Webサービス」が登場しました。 Yahoo!デベロッパーネットワーク - テキスト解析 - 日本語係り受け解析 http://developer.yahoo.co.jp/jlp/DAService/V1/parse.html 「係り受けってなに？」という方もいると思うので、以下、まったくもって厳密ではない、適当な解説を試みます。 (1) 日本語をコンピューターで処理するには、まず形態素解析というのをやって、文を形態素（≒単語）単位に分割します。 YDN の「日本語形態素解析 Webサービス」[2007-06-18-1] で試すことができ
labga 2013/03/14
係り受け解析

自然言語処理
リンク
係り受け解析に文節の概念は必要か否か？
Zelch @zzzelch 日本語の係り受けが文節単位な件について。今やガラパゴスなんだがなぜか。京大コーパスが原因か。先行していて規模も大きいＥＤＲコーパスは単語単位だった。言語資源の設計が言語処理を決めて来たと言って良いか思案中。機械学習屋さんは興味無かろうし。 2011-07-18 15:38:19 Zelch @zzzelch やっと明日の資料が出来た。言語屋さんにも機械学習屋さんにも色々できて楽しそうよ。単語単位の係り受け。文節単位はまあ、それはそれで良かったけど、不足というかサボってる感があるね。係り受けが交差したら困るとか、受身や使役の係り受けはどうすんねんとか。 2011-07-18 20:02:31 Taku Kudo @taku910 @zzzelch 文節単位が妥当だと思います。かな漢字変換も単語単位より文節単位のほうが日本語の性質をよくモデル化できます。また単語単
labga 2013/03/14
係り受け解析

自然言語処理
リンク
New community features for Google Chat and an update on Currents
Join the official community for Google Workspace administrators In the Google Cloud Community, connect with Googlers and other Google Workspace admins like yourself. Participate in product discussions, check out the Community Articles, and learn tips and tricks that will make your work and life easier. Be the first to know what's happening with Google Workspace. ______________ Learn about more Goo
labga 2013/03/14
係り受け解析
リンク
文節区切り判定器の実装を公開 - ny23の日記
一年ほど前に構文解析器を公開したが，（文節区切りされたデータを入力する仕様で）単体では使えない状態のままずっと放置していた．ところが最近になって，幾つかの共著論文で公開した構文解析器を引用する機会があり，このままではマズイと思ったので，現時点で使っている文節区切り - ny23の日記で書いた200行弱のシンプルな文節区切りの実装を同梱してみた．文節区切りの入出力がパイプ経由の文字列渡しなのは明らかに無駄なのだけど，気にしないことにしよう． MeCab と組み合わせる場合，解析速度は新聞記事だと入出力（UTF-8）込みで12,000文／秒，ブログ記事なら21,000文／秒程度（3.2 Ghz CPU; MeCab だけだと，新聞記事で22,000文／秒程度（入出力込み）なので，そんなに悪くない速度ではないかと）*1．係り受けのところだけで評価すると（デフォルトのパラメタで）解析精度は91.8
labga 2013/03/13
係り受け解析

自然言語処理
リンク
http://chasen.org/~taku/publications/nl138.pdf
labga 2013/03/13
係り受け解析

機械学習
リンク
https://docs.google.com/viewer?a=v&q=cache:etvXuNacpNAJ:chasen.org/~taku/publications/nl138-slide.ppt+&hl=ja&gl=jp&pid=bl&srcid=ADGEESiYnBf_AXIeOdeA4PYwzyX-b_oZLHRMo49XIRAp_34IfdEGEAb6Mtc61ndb3SoewKi0qwr9moSM8uCwaJZW5kvnfS7DhKWcD7S3wT4hyIcsga7cpnnSWFFKnU2
labga 2013/03/13
Google

係り受け解析
リンク
驚異的な解析速度を誇る日本語係り受け解析器J.DepP - 自然言語処理 on Mac
日本語の係り受け解析器といえば、KNPやCaboChaが有名ですが、J.DepPは線形分類器を用いて大規模な対象を非常に高速に、また高精度に解析できることが特長です。2009年末に公開されてから着実にバージョンアップされていますが、ビルドの方法が簡単になって、モデルの学習機能が追加されたことで大変使いやすくなっています。また、J.DepPは線形分類器のpeccoやopalを利用していますが、ベースの分類器が高速化されたことが、そのまま解析器の性能向上につながっているようです：ソフトウェアの更新も一人旅になってきた - ny23の日記このJ.DepPをMacPortsとして登録しました。デフォルトの状態でjdeppをインストールすると、jumandicを参照するMeCabを組み込んだ解析器と、解析済みのブログコーパスであるKNBコーパスを対象とした学習モデルが利用できるようになります：
labga 2013/03/13
自然言語処理

係り受け解析
リンク
統計的係り受け解析入門
Gradient Boostingは近年Kaggleなどのコンペティションで注目を集めている分類や回帰問題に対するアルゴリズムの一つである。XGBoost, LightGBM, CatBoostなどが有名ではあるが、それらを土台にして近年はDeepGBMやNGBoostといった新規アルゴリズムの登場、汎化理論解析の進展、モデル解釈性の付与方法の多様化など、理論から応用まで多岐にわたる研究が行われている。本チュートリアルでは、Gradient Boostingに関する近年の研究動向やテクニックを、それらの社会実装までを見据えながら紹介していく。
labga 2012/11/30
自然言語処理

意味解析

係り受け解析
リンク
1