[B! 形態素解析] damehumanのブックマーク

damehuman id:damehuman

形態素解析に関するdamehumanのブックマーク (3)

形態素解析の今とこれから
[9:35-10:00] 「形態素解析システム JUMAN++ 」河原大輔, Arseny Tolmachev (京都大学大学院情報学研究科) [発表資料] 本発表では、形態素解析システムJUMAN++について紹介する。JUMAN++は、RNN言語モデルを利用することによって、単語の並びの意味的な自然さを考慮した解析を行う。また、基本辞書として、3万語程度についてさまざまな語彙情報・意味情報を人手で正確に整備した辞書をJUMANから継承して用いている。その範囲を超える語彙については、Wikipediaやウェブコーパスなどからの自動獲得した辞書を用いている。本発表では、JUMAN++の基本的な考え方から実装方法、また他の形態素解析シテムとの比較について説明する。 [10:00-10:25] 「汎用形態素解析システムMeCab」工藤拓 (グーグル合同会社) [発表資料] MeCabは研究、
damehuman 2018/01/12
形態素解析
リンク
「コーパスと自然言語処理」を読んだ - EchizenBlog-Drei
コーパスと自然言語処理を読みました。これは記憶の失われを防ぐためのメモです。概要どういうコーパスが使えるの、っていう視点で自然言語処理の概要を説明した本。入門書としてもよさそう。手法に関してはあっさりめ近年だと細かい手法は気にしなくても、深に入れて「はわわ〜っ」ていう感じでできちゃうのでこういう切り口の本はよさそうといいつつこの本には深の話題はほとんど出てこないけど・・・メモ第1章コーパスと自然言語処理前置き的なやつ第2章コーパスアノテーション基準アノテーション間の互換性は大切人間の読みやすさ、機械の読みやすさ、どちらも大切 XML形式、スタンドオフ形式（本文の外に本文の位置とアノテーションを書く）短単位・長単位主なコーパス：BCCWJ、京大コーパス、NAISTコーパス、GDAコーパス第3章形態素解析・品詞タグ付与・固有表現解析コーパスっていうより一般的
damehuman 2018/01/03
自然言語処理

形態素解析

nlp

本
リンク
可変次数 N-gram デコードのアルゴリズム - アスペ日記
前に書いた N-gram 漢字-かな変換 - アスペ日記のアルゴリズムについて。かなり縦に長いエントリになると思う。途中までは一般的な日本語自然言語処理にかかわること。例として、「かれがくるまでまつ」というひらがなの文をデコードして、対応する漢字かな混じり文にすることを考える。こういう時に使われるのが「ラティス構造」。こういうやつ↓ （この図は一回しか出てきません。ちなみにこのために Keynote 買ったようなもの）それぞれのノードで、そこに入ってくるエッジの中で一番確率が高いものとその確率を覚えていくことで、動的計画法によって最適なパスを導くことができる。これをプログラム上でどう実現するか。まず、共通接頭辞検索というものを使う。これは、あるキーを渡すと、そのキーに前から一致するようなキーを持つ候補を列挙してくれるというもの。例えば、「くるまで」をキーとして使うと、「く
damehuman 2011/08/08
自然言語処理

アルゴリズム

形態素解析
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx