[B! 形態素解析] labgaのブックマーク

labga id:labga

形態素解析に関するlabgaのブックマーク (15)

論文紹介「ベイズ階層言語モデルによる教師なし形態素解析」 - 西尾泰和のはてなダイアリー
形態素解析しなくても単語に分割できる、しかも教師データがいらないので古文や未知の言語でもOK、という論文。 Deep Learningの勉強をアウトプットしながらやるために始めた「Deep Learning論文紹介」企画だけども、いきなりDeep Learningではない論文になってしまったのでタイトルからDeep Learningを削りました。文脈は陸続きなのだけどね。まず階層的Pitman-Yor言語モデル(HPYLM)の説明。 Pitman-Yorはある確率分布「基底測度」を元に、似た確率分布を生成する確率過程。バイグラムの分布はユニグラムに似てるし、トライグラムの分布はバイグラムに似ているので、階層的にPitman-Yorを積み重ねたらいいんじゃないの、という話。実装としては中華料理店過程(CRP)で実現。Trie木みたいに中華料理店のテーブルが連なっていて、お客さんが末端のテ
labga 2016/02/11
形態素解析
リンク
日本語解析ツール MeCab, CaboCha の紹介工藤拓 (PDF)
labga 2013/08/13
自然言語処理

形態素解析
リンク
形態素解析ツールの品詞体系
ChaSen 品詞体系 (IPA品詞体系) ChaSen の品詞体系は任意の階層化を許している。いわゆる形容動詞は名詞の形容動詞語幹として含まれ、形容詞には含まれない。Juman の指示詞というカテゴリは「連体詞」に含まれている。判定詞「だ」は助動詞とされている。 Type1 Type2 Type3 Type4 Examples Description
labga 2013/08/12
自然言語処理

形態素解析
リンク
形態素解析 - Wikipedia
日本語の代表的な形態素解析の手法[編集] 英語の場合と異なり、文節を得るのが目的となることが多い。大まかに言えば文から切り出した単語が属する品詞を辞書（自然言語処理用の）を用いて調べていき、結果得られた並びから正しく文節が構成される並びであるものを正解であるとするといったような方法を取る。日本語文法では、たとえば動詞のあとに格助詞がくることはできない（「ドアを開けるを」などは不可）といったように、ほとんどの付属語について「このようなものの後には付く」「このようなものの後には付かない」という規則性があり、また動詞の活用はその後に来る品詞を制限することがある（たとえば連体形の後は名詞）。このような性質を利用することによって単語の境界の判別を行う。具体的にこの性質を利用する方法には以下の2つがある: 規則による方法確率的言語モデルをもちいる方法規則による形態素解析[編集] 長尾真らの197
labga 2013/08/07
形態素解析
リンク
Kuromoji(ピュアJavaでナイスなライセンスの形態素解析エンジン)を試してみる
職場の人の繋がりでお声がけいただいて、Kuromojiという形態素解析エンジンを紹介していただきました。 ■ Kuromoji ATILIKAという某検索エンジン会社に勤めていた人の会社で作っている ApacheライセンスなピュアJavaな形態素解析エンジンです。 Javaって言う事でMavenでホゲホゲできるそうです。 http://atilika.org/こちらで紹介されています。＃黒文字ってのは植物の名前で、そっからできたつまようじの事を言うんだそうで、＃これがモチーフになんだよーと見せていただきましたｗ ■ 形態素解析 / N-Gram 形態素解析とN-Gram〜とかコレ系だとよくある感じですが、その辺のサポートもされてます。＃詳しい話を聞かせてもらったのですが、そもそもの知識不足と英語力不足でイマイチ…orz ■ 辞書 IPAのヤツがベースになっていて、拡張する事も出来ます
labga 2013/03/18
形態素解析

java
リンク
Java製形態素解析器「Kuromoji」を試してみる
概要 Javaの比較的新しい形態素解析器、Kuromoji。 lucene-gosenやGomokuのように辞書内包で、jarを落とせばその場で利用でき、Unidicに対応していて、ソースがLuceneのtrunkにコミットされているという、何かと気になる特徴の持ち主。複数のモードを持っているようで、Searchモードを使うと「日本経済新聞」を「日本 | 経済 | 新聞」のように検索で利用しやすい形にばらして解析してくれたり、Extendedモードを使うと未知語をuni-gramにしてくれたりもするらしい。今日はそんなKuromojiさんの導入から簡易な使い方までをさらっと追いかけてみた。導入まずは下記ページからダウンロード。今回はkuromoji-0.7.5.tar.gzを利用。 Downloads - atilika/kuromoji https://github.com/at
labga 2013/03/18
形態素解析

java
リンク
【形態素解析】Igoを改造して品詞IDを取得する - はと
Javaで日本語解析するのにIgoを使っていますが解析結果から各単語がどの品詞IDなのか欲しくなるときがあります。 igoの使い方辞書登録の方法 Igoをそのまま使ってもsurfaceとfeatureとstartくらいしか情報がとれません。「私は日本生まれです」これを解析してみます。 Tagger tagger = new Tagger("ipadic"); List<Morpheme> list = tagger.parse("私は日本生まれです"); for (Morpheme m : list) { String str = m.surface + "\t"+ m.feature + "\t"+ m.start ; System.out.println(str); } 私名詞,代名詞,一般,*,*,*,私,ワタシ,ワタシ 0 surface　私 feature　名詞,代名詞,一
labga 2013/03/15
形態素解析

java
リンク
KyTea (京都テキスト解析ツールキット)
English 京都テキスト解析ツールキット(KyTea、「キューティー」)は、日本語など、単語(または形態素)分割を必要とする言語のための一般的なテキスト解析器です。特徴ダウンロード・インストールプログラム仕様解析：手法の詳細, 入出力の形式, API 学習：モデル学習, 入手可能なモデル KyTeaを使った分野適応開発情報特徴 KyTeaには以下の機能が揃っています：単語分割：分かち書きされていないテキストを適当な単語または形態素に分割する。読み推定・品詞推定：かな漢字変換や音声認識、音声生成のために単語の発音を推定することができ、品詞を推定することもできます。線形SVMやロジスティック回帰などを用いてそれぞれの分割点や読みを個別に推定するため、部分的にアノテーションされたデータを利用してモデルを学習することも可能です。分類器の学習にはLIBLINEARを使用してい
labga 2013/03/14
KyTea

自然言語処理

ツール

形態素解析
リンク
形態素解析エンジン言語郎 - とは？
自然言語で書かれた文を、形態素（言語で意味を持つ最小単位）に分割する技術です。この際、辞書 (「品詞」などの情報つきの単語リスト)中の情報を参照することで、「品詞」、「活用形」、「読み」等の情報を得ることが可能です。
labga 2013/03/13
自然言語処理

形態素解析

ViterbiAlgorithm
リンク
No.14 医学的知識の抽出
目次１．はじめに２．Support Vector Machine(SVM)を用いた医学的知識の抽出３．実験４．まとめと課題謝辞参考文献１．はじめに目次 | 次の項目近年、病院内の情報システム化が進んで大量のデータを蓄積することが可能となりつつある。しかし、現在の情報システムではサブシステム間におけるデータの相互関係が定義されていないので、相互に関連する知識を効率的に抽出することができない。そこで我々は、様々なデータソースからデータエレメントを抽出し、「RDF（Resource Description Framework）」を用いて各データエレメント間の相互関係を定義することにより、ユーザーに有用な情報を提供するシステムの開発を行っている1)。その一例として、過去のレポートから医学的知識を抽出し、これを用いて入力支援情報を提示することが可能なレポーティングシステムの開発に
labga 2013/03/10
形態素解析

SVM

意味解析
リンク
Python による日本語自然言語処理
はじめにこの文書は、 Steven Bird, Ewan Klein, Edward Loper 著萩原正人、中山敬広、水野貴明　訳『入門自然言語処理』 O'Reilly Japan, 2010. の第12章「Python による日本語自然言語処理」を、原書 Natural Language Processing with Python と同じ Creative Commons Attribution Noncommercial No Derivative Works 3.0 US License の下で公開するものです。原書では主に英語を対象とした自然言語処理を取り扱っています。内容や考え方の多くは言語に依存しないものではありますが、単語の分かち書きをしない点や統語構造等の違いから、日本語を対象とする場合、いくつか気をつけなければいけない点があります。日本語を扱う場合にも
labga 2013/03/10
形態素解析

自然言語処理

python
リンク
IPADIC(IPA辞書)とはなにものか？
※私は言語処理に関する知識は無いので、あくまで「IPADICとは何ものなのか？」という点に絞ってのみ記述しています。まあ、ここまで突っ込んだのは戯れですが、一応の目的として現在から未来にわたって無料で入手できる形態素解析を使うに当たり、「メンテナンスが継続されている辞書」が入手できるかを調べたかったという意図もあります。日本語を処理する上で形態素解析というのはわりと欠かせないものです。 Webのサービスでよく用いられている形態素解析器にはChaSenとmecabがありますが、これらのエンジンは何らかの辞書を利用して日本語を解析します。ちなみに形態素解析器と言うのはChaSenの表現を帰りれば「形態素解析器とは、入力文を単語単位に分割し品詞を付与するツールである。」ということです。形態素解析器の開発の歴史はMeCab の開発経緯をご覧ください。ここでChaSenにもMeCabにも、標準
labga 2013/03/01
形態素解析

言語処理
リンク
MeCab: Yet Another Part-of-Speech and Morphological Analyzer
MeCab に至るまでの形態素解析器開発の歴史等はこちらをご覧くださいメーリングリスト一般ユーザ向けメーリングリスト開発者向けメーリングリスト新着情報 2012-01-27 MeCab 0.993 MeCab::Tagger::formatNode()が正しく動いていなかった問題の修正スタックの消費を抑えるため、ほとんどのローカル変数(配列)をヒープ上に退避 2012-01-14 MeCab 0.992 ソースコード中のTypoの修正 2012-01-14 MeCab 0.991 空文字列もしくは空白文字列を解析した時に解析エラーとなる問題を修正ユーザ辞書の作成に失敗する場合がある問題を修正 2011-12-24 MeCab 0.99 MeCab::Model, MeCab::Lattice クラスを追加マルチスレッド環境でのユーザビリティの向上。複数スレッドが同一
labga 2012/12/04
形態素解析

MeCab
リンク
キーワード抽出に手をつけてみた - KoshigoeBLOG
Pythonでコーディングするネタとして、キーワード抽出に手をつけてみました。"キーワード抽出"のアルゴリズムや作法などに詳しくないので、以下のページをなぞる形で実装しました。 [を] 形態素解析と検索APIとTF-IDFでキーワード抽出 MeCabの用意 MacPorts経由で以下をインストールしました。 mecab mecab-ipadic-eucjp mecab-ipadic-sjis mecab-ipadic-utf8 mecab-jumandic-eucjp mecab-jumandic-sjis mecab-jumandic-utf8 py-mecab 辞書を根こそぎインストールしていますが、"port search mecab"の結果であきらかに(今回は)不要であろうもの以外は全て入れておきました。また、細かい事は考えず、/opt/local/etc/mecabrcで"di
labga 2012/12/04
形態素解析
リンク
Igo - a morphological analyzer
目次概要/特徴リリースノートインストール/使い方 jarファイル解析用辞書作成形態素解析コマンド BuildDic Igo Java API Tagger Morpheme サンプルコード MeCabとの相違点解析結果機能辞書ファイル単語エントリフォーマット制限/注意点禁則文字バイナリ辞書エンディアンライセンスバグ報告など概要/特徴 Javaで実装された形態素解析器。→ Common Lisp版辞書フォーマット及び解析結果は、ほぼMeCab互換。単機能。 Javaの形態素解析器としては比較的高速。スレッドセーフ。リリースノート version 0.4.3: 2011年06月17日形態素解析部の微細なパフォーマンスチューニングインストール/使い方 1) jarファイルの取得/作成 jarファイルは以下のいずれかの方法で取得/作成する。ダウンロード
labga 2012/12/04
自然言語処理

形態素解析
リンク
1