タグ

形態素解析に関するohnishiakiraのブックマーク (7)

  • 形態素解析の過去・現在・未来

    NLP コロキウム https://nlp-colloquium-jp.github.io/ で発表した際のスライドです。 論文: https://arxiv.org/abs/2205.01954 GitHub: https://github.com/joisino/wordtour 概要 単語埋め込みは現代の自然言語処理の中核技術のひとつで、文書分類や類似度測定をはじめとして、さまざまな場面で使用されていることは知っての通りです。しかし、ふつう埋め込み先は何百という高次元であり、使用する時には多くの時間やメモリを消費するうえに、高次元埋め込みを視覚的に表現できないため解釈が難しいことが問題です。そこで研究では、【一次元】の単語埋め込みを教師なしで得る方法を提案します。とはいえ、単語のあらゆる側面を一次元で捉えるのは不可能であるので、研究ではまず単語埋め込みが満たすべき性質を健全性と完

    形態素解析の過去・現在・未来
  • 可変次数 N-gram デコードのアルゴリズム - アスペ日記

    前に書いた N-gram 漢字-かな変換 - アスペ日記 のアルゴリズムについて。 かなり縦に長いエントリになると思う。途中までは一般的な日語自然言語処理にかかわること。 例として、「かれがくるまでまつ」というひらがなの文をデコードして、対応する漢字かな混じり文にすることを考える。 こういう時に使われるのが「ラティス構造」。こういうやつ↓ (この図は一回しか出てきません。ちなみにこのために Keynote 買ったようなもの) それぞれのノードで、そこに入ってくるエッジの中で一番確率が高いものとその確率を覚えていくことで、動的計画法によって最適なパスを導くことができる。 これをプログラム上でどう実現するか。 まず、共通接頭辞検索というものを使う。 これは、あるキーを渡すと、そのキーに前から一致するようなキーを持つ候補を列挙してくれるというもの。 例えば、「くるまで」をキーとして使うと、「く

    可変次数 N-gram デコードのアルゴリズム - アスペ日記
  • Sign in - Google Accounts

    Not your computer? Use a private browsing window to sign in. Learn more

  • 日本語係り受けコーパス(JDC)

    概要 日語ウェブコーパス2010(NWC2010)(約1億ウェブページ)より CaboChaを用いて, 助詞を介した語と語の係り受けを抽出したものです. 類似のコーパスとしてALAGINの日語係り受けデータベースがあります. コーパスでは次のような形で収録されています. NCV (名詞) (助詞) (動詞) 338,092,129種類(約3.3億ユニークペア) レビュー を お送りする 496 テレクラ で いる 6 大気 が 存続する 1 化量 を 言う 1 Private と 定義する 1 けんぎゅうか が 伝来される 2 プロテスタンティズム を 生み出す 1 脳内 で アップされる 6 NCN (名詞) (助詞) (名詞) 166,724,808種類(約1.6億ユニークペア) 司会 が 仕事 25 こころ という ちよ 1 場所 から 大筒 1 見直し へ 訴訟 3 ここ

  • ヽ(´・肉・`)ノログ(2010-12-08)

    _ [ruby][planet] Ruby で日語を簡単にバラバラにする方法 (この記事はRuby Advent Calendar jp: 2010 : ATNDの8日目です。前日はtakano32さんでした。) 日語をバラバラにする方法っていくつかあるみたいですが,そのうちn-gramと形態素解析を簡単に使えるようにしてみました.形態素解析を使う場合にはYahooの日形態素解析を内部で用いているのでYahooのアプリケーションIDを登録して下さいね.Ruby1.9 で動きます. # -*- coding: utf-8 -*- module StringTokenizer require 'uri' require 'net/http' require 'rexml/document' class IdIsNotSetException < Exception; end def

  • ヽ( ・∀・)ノくまくまー(2010-01-03)

    ● [Ruby] chawan chasen (形態素解析システム)を Ruby から使うには、yu-yan 作の gyokuro ライブラリが便利でずっと愛用していたのだが、最近の UTF-8 な chasen だと相性が悪いみたい。困ってても仕方ないので、とりあえず自作。chasen の受け皿として chawan と命名。 http://github.com/maiha/chawan インストール

  • 教師なし形態素解析 - mots quotidiens.

    LaTeXのメモ。 LaTeXのtabularを見やすくするために, セルに色をつけたい時は colortblパッケージ を使えばよいらしい。 \usepackage{colortbl}してから, \cellcolor[gray]{0.7} 内容 & .. とか \cellcolor[rgb]{0.2,0.7,0.9} 内容 & .. のようにすればOK。 ただし, こうすると\clineを使って罫線を部分的に引いている時に, 罫線が色で上書きされてしまう(!)。 これは難しいですね的議論があったが, さらに調べるとCTANの colortblのページ の文書に対処法が書いてあって, そもそも \cline を使わずに, hhlineパッケージ を使えとのこと。 \usepackage{hhline}しておいてから, \cline{2-4}(たとえば) の代わりに, \hhline{~--

  • 1