タグ

形態素解析に関するlabgaのブックマーク (15)

  • 論文紹介「ベイズ階層言語モデルによる教師なし形態素解析」 - 西尾泰和のはてなダイアリー

    形態素解析しなくても単語に分割できる、しかも教師データがいらないので古文や未知の言語でもOK、という論文。 Deep Learningの勉強をアウトプットしながらやるために始めた「Deep Learning論文紹介」企画だけども、いきなりDeep Learningではない論文になってしまったのでタイトルからDeep Learningを削りました。文脈は陸続きなのだけどね。 まず階層的Pitman-Yor言語モデル(HPYLM)の説明。 Pitman-Yorはある確率分布「基底測度」を元に、似た確率分布を生成する確率過程。バイグラムの分布はユニグラムに似てるし、トライグラムの分布はバイグラムに似ているので、階層的にPitman-Yorを積み重ねたらいいんじゃないの、という話。 実装としては中華料理店過程(CRP)で実現。Trie木みたいに中華料理店のテーブルが連なっていて、お客さんが末端のテ

    論文紹介「ベイズ階層言語モデルによる教師なし形態素解析」 - 西尾泰和のはてなダイアリー
  • 日本語解析ツール MeCab, CaboCha の紹介 工藤 拓 (PDF)

  • 形態素解析ツールの品詞体系

    ChaSen 品詞体系 (IPA品詞体系) ChaSen の品詞体系は任意の階層化を許している。 いわゆる形容動詞は名詞の形容動詞語幹として含まれ、 形容詞には含まれない。Juman の指示詞という カテゴリは「連体詞」に含まれている。 判定詞「だ」は助動詞とされている。 Type1 Type2 Type3 Type4 Examples Description

  • 形態素解析 - Wikipedia

    語の代表的な形態素解析の手法[編集] 英語の場合と異なり、文節を得るのが目的となることが多い。大まかに言えば文から切り出した単語が属する品詞を辞書(自然言語処理用の)を用いて調べていき、結果得られた並びから正しく文節が構成される並びであるものを正解であるとするといったような方法を取る。 日語文法では、たとえば動詞のあとに格助詞がくることはできない(「ドアを開けるを」などは不可)といったように、ほとんどの付属語について「このようなものの後には付く」「このようなものの後には付かない」という規則性があり、また動詞の活用はその後に来る品詞を制限することがある(たとえば連体形の後は名詞)。このような性質を利用することによって単語の境界の判別を行う。具体的にこの性質を利用する方法には以下の2つがある: 規則による方法 確率的言語モデルをもちいる方法 規則による形態素解析[編集] 長尾真らの197

    形態素解析 - Wikipedia
  • Kuromoji(ピュアJavaでナイスなライセンスの形態素解析エンジン)を試してみる

    職場の人の繋がりでお声がけいただいて、Kuromojiという形態素解析エンジンを紹介していただきました。 ■ Kuromoji ATILIKAという某検索エンジン会社に勤めていた人の会社で作っている ApacheライセンスなピュアJava形態素解析エンジンです。 Javaって言う事でMavenでホゲホゲできるそうです。 http://atilika.org/こちらで紹介されています。 #黒文字ってのは植物の名前で、そっからできたつまようじの事を言うんだそうで、 #これがモチーフになんだよーと見せていただきましたw ■ 形態素解析 / N-Gram 形態素解析とN-Gram〜とかコレ系だとよくある感じですが、その辺のサポートもされてます。 #詳しい話を聞かせてもらったのですが、そもそもの知識不足と英語力不足でイマイチ…orz ■ 辞書 IPAのヤツがベースになっていて、拡張する事も出来ます

    Kuromoji(ピュアJavaでナイスなライセンスの形態素解析エンジン)を試してみる
  • Java製形態素解析器「Kuromoji」を試してみる

    概要 Javaの比較的新しい形態素解析器、Kuromoji。 lucene-gosenやGomokuのように辞書内包で、jarを落とせばその場で利用でき、Unidicに対応していて、ソースがLuceneのtrunkにコミットされているという、何かと気になる特徴の持ち主。 複数のモードを持っているようで、Searchモードを使うと「日経済新聞」を「日 | 経済 | 新聞」のように検索で利用しやすい形にばらして解析してくれたり、Extendedモードを使うと未知語をuni-gramにしてくれたりもするらしい。 今日はそんなKuromojiさんの導入から簡易な使い方までをさらっと追いかけてみた。 導入 まずは下記ページからダウンロード。今回はkuromoji-0.7.5.tar.gzを利用。 Downloads - atilika/kuromoji https://github.com/at

  • 【形態素解析】Igoを改造して品詞IDを取得する - はと

    Javaで日語解析するのにIgoを使っていますが解析結果から各単語がどの品詞IDなのか欲しくなるときがあります。 igoの使い方 辞書登録の方法 Igoをそのまま使ってもsurfaceとfeatureとstartくらいしか情報がとれません。 「私は日生まれです」これを解析してみます。 Tagger tagger = new Tagger("ipadic"); List<Morpheme> list = tagger.parse("私は日生まれです"); for (Morpheme m : list) { String str = m.surface + "\t"+ m.feature + "\t"+ m.start ; System.out.println(str); } 私 名詞,代名詞,一般,*,*,*,私,ワタシ,ワタシ 0 surface 私 feature 名詞,代名詞,一

    【形態素解析】Igoを改造して品詞IDを取得する - はと
  • KyTea (京都テキスト解析ツールキット)

    English 京都テキスト解析ツールキット(KyTea、「キューティー」)は、日語など、単語(または形態素)分割を必要とする言語のための一般的なテキスト解析器です。 特徴 ダウンロード・インストール プログラム仕様 解析:手法の詳細, 入出力の形式, API 学習:モデル学習, 入手可能なモデル KyTeaを使った分野適応 開発情報 特徴 KyTeaには以下の機能が揃っています: 単語分割:分かち書きされていないテキストを適当な単語または形態素に分割する。 読み推定・品詞推定:かな漢字変換や音声認識、音声生成のために単語の発音を推定することができ、品詞を推定することもできます。 線形SVMやロジスティック回帰などを用いてそれぞれの分割点や読みを個別に推定するため、部分的にアノテーションされたデータを利用してモデルを学習することも可能です。 分類器の学習にはLIBLINEARを使用してい

  • 形態素解析エンジン言語郎 - とは?

    自然言語で書かれた文を、形態素(言語で意味を持つ最小単位)に分割する技術です。この際、辞書 (「品詞」などの情報つきの単語リスト)中の情報を参照することで、「品詞」、「活用形」、「読み」等の情報を得ることが可能です。

  • No.14 医学的知識の抽出

    目次 1.はじめに 2.Support Vector Machine(SVM)を用いた医学的知識の抽出 3.実験 4.まとめと課題 謝辞 参考文献 1.はじめに 目次 | 次の項目 近年、病院内の情報システム化が進んで大量のデータを蓄積することが可能となりつつある。しかし、現在の情報システムではサブシステム間におけるデータの相互関係が定義されていないので、相互に関連する知識を効率的に抽出することができない。 そこで我々は、様々なデータソースからデータエレメントを抽出し、「RDF(Resource Description Framework)」を用いて各データエレメント間の相互関係を定義することにより、ユーザーに有用な情報を提供するシステムの開発を行っている1)。その一例として、過去のレポートから医学的知識を抽出し、これを用いて入力支援情報を提示することが可能なレポーティングシステムの開発に

  • Python による日本語自然言語処理

    はじめに この文書は、 Steven Bird, Ewan Klein, Edward Loper 著 萩原 正人、中山 敬広、水野 貴明 訳 『入門 自然言語処理』 O'Reilly Japan, 2010. の第12章「Python による日語自然言語処理」を、原書 Natural Language Processing with Python と同じ Creative Commons Attribution Noncommercial No Derivative Works 3.0 US License の下で公開するものです。 原書では主に英語を対象とした自然言語処理を取り扱っています。内容や考え方の多くは言語に依存しないものではありますが、単語の分かち書きをしない点や統語構造等の違いから、日語を対象とする場合、いくつか気をつけなければいけない点があります。日語を扱う場合にも

  • IPADIC(IPA辞書)とはなにものか?

    ※私は言語処理に関する知識は無いので、あくまで「IPADICとは何ものなのか?」という点に絞ってのみ記述しています。まあ、ここまで突っ込んだのは戯れですが、一応の目的として現在から未来にわたって無料で入手できる形態素解析を使うに当たり、「メンテナンスが継続されている辞書」が入手できるかを調べたかったという意図もあります。 日語を処理する上で形態素解析というのはわりと欠かせないものです。 Webのサービスでよく用いられている形態素解析器にはChaSenとmecabがありますが、これらのエンジンは何らかの辞書を利用して日語を解析します。 ちなみに形態素解析器と言うのはChaSenの表現を帰りれば「形態素解析器とは、入力文を単語単位に分割し品詞を付与するツールである。」ということです。形態素解析器の開発の歴史はMeCab の開発経緯をご覧ください。 ここでChaSenにもMeCabにも、標準

    IPADIC(IPA辞書)とはなにものか?
  • MeCab: Yet Another Part-of-Speech and Morphological Analyzer

    MeCab に至るまでの形態素解析器開発の歴史等はこちらをご覧ください メーリングリスト 一般ユーザ向けメーリングリスト 開発者向けメーリングリスト 新着情報 2012-01-27 MeCab 0.993 MeCab::Tagger::formatNode()が正しく動いていなかった問題の修正 スタックの消費を抑えるため、ほとんどのローカル変数(配列)をヒープ上に退避 2012-01-14 MeCab 0.992 ソースコード中のTypoの修正 2012-01-14 MeCab 0.991 空文字列もしくは空白文字列を解析した時に解析エラーとなる問題を修正 ユーザ辞書の作成に失敗する場合がある問題を修正 2011-12-24 MeCab 0.99 MeCab::Model, MeCab::Lattice クラスを追加 マルチスレッド環境でのユーザビリティの向上。複数スレッドが同一

  • キーワード抽出に手をつけてみた - KoshigoeBLOG

    Pythonでコーディングするネタとして、キーワード抽出に手をつけてみました。"キーワード抽出"のアルゴリズムや作法などに詳しくないので、以下のページをなぞる形で実装しました。 [を] 形態素解析と検索APIとTF-IDFでキーワード抽出 MeCabの用意 MacPorts経由で以下をインストールしました。 mecab mecab-ipadic-eucjp mecab-ipadic-sjis mecab-ipadic-utf8 mecab-jumandic-eucjp mecab-jumandic-sjis mecab-jumandic-utf8 py-mecab 辞書を根こそぎインストールしていますが、"port search mecab"の結果であきらかに(今回は)不要であろうもの以外は全て入れておきました。 また、細かい事は考えず、/opt/local/etc/mecabrcで"di

  • Igo - a morphological analyzer

    目次 概要/特徴 リリースノート インストール/使い方 jarファイル 解析用辞書作成 形態素解析 コマンド BuildDic Igo Java API Tagger Morpheme サンプルコード MeCabとの相違点 解析結果 機能 辞書ファイル 単語エントリフォーマット 制限/注意点 禁則文字 バイナリ辞書エンディアン ライセンス バグ報告など 概要/特徴 Javaで実装された形態素解析器。→ Common Lisp版 辞書フォーマット及び解析結果は、ほぼMeCab互換。 単機能。 Java形態素解析器としては比較的高速。 スレッドセーフ。 リリースノート version 0.4.3: 2011年06月17日 形態素解析部の微細なパフォーマンスチューニング インストール/使い方 1) jarファイルの取得/作成 jarファイルは以下のいずれかの方法で取得/作成する。 ダウンロード

  • 1