[B! 形態素解析] jjzakのブックマーク

jjzak id:jjzak

形態素解析に関するjjzakのブックマーク (23)

Igo - a morphological analyzer
目次概要/特徴リリースノートインストール/使い方 jarファイル解析用辞書作成形態素解析コマンド BuildDic Igo Java API Tagger Morpheme サンプルコード MeCabとの相違点解析結果機能辞書ファイル単語エントリフォーマット制限/注意点禁則文字バイナリ辞書エンディアンライセンスバグ報告など概要/特徴 Javaで実装された形態素解析器。→ Common Lisp版辞書フォーマット及び解析結果は、ほぼMeCab互換。単機能。 Javaの形態素解析器としては比較的高速。スレッドセーフ。リリースノート version 0.4.3: 2011年06月17日形態素解析部の微細なパフォーマンスチューニングインストール/使い方 1) jarファイルの取得/作成 jarファイルは以下のいずれかの方法で取得/作成する。ダウンロード
jjzak 2011/02/20
nlp

programming

自然言語処理

mecab

java

lisp

形態素解析
リンク
形態素解析器IgoのRuby版を作った - 猫背ミジンコ
解析結果がほぼMeCab互換のJavaおよびCommon Lispで実装された形態素解析器IgoのRuby版を作りました。正確にはIgoのエンジン部分をRubyに移植しましたですけれども。ソースソースはGitHubに公開。また、RubyGems.orgにgemを公開してあるので、インターネットに接続している環境ならRubyGemsでインストールできます。インストールコマンドラインで下記を入力。$ gem install igo-rubyigo-rubyは、別途Igoと同じ解析用辞書ファイルが必要です。(igo-pythonと同じ方式。ただし、igo-pythonの方は辞書ファイルの生成機能も実装予定とのことです。) 解析用辞書ファイルの生成方法については、Igoのページを参照してください。使い方 Igo::Taggerクラスのコンストラクタに辞書ファイルが入ったディレクトリを
jjzak 2011/02/20
自然言語処理

形態素解析

nlp

ruby

programming
リンク
ビタビアルゴリズム
ビタビ・アルゴリズム　Ｖｉｔｅｒｂｉ　ａｌｇｏｒｉｔｈｍホーム情報通信のハイパーテキストは下記へ移動しました。 http://www.mnc.toho-u.ac.jp/v-lab/ お探しの内容は、下記の目次にあります。 http://www.mnc.toho-u.ac.jp/v-lab/yobology/index.htm
jjzak 2011/02/20
Ｖｉｔｅｒｂｉ　ａｌｇｏｒｉｔｈｍ

algorithm

機械学習

形態素解析

programming
リンク
コスト最小法によるViterbiアルゴリズムを実装してみた - yasuhisa's blog
前回は単語数最小法によるViterbiアルゴリズムを使って、「猫はうろうろ」を形態素解析しました。 www.yasuhisay.info 単語数最小法では、単語の品詞などは見ておらず、ただただ単語数を最小にするように動的計画法であるViterbiを動かしていきます。品詞を見ていないため、「家におくりました」は「家」、「におくり」、「ました」と間違って形態素解析されていました。コスト最小法による形態素解析そこである単語がある品詞で登場するコストある品詞とある品詞の接続するコストというコストの概念を導入します。「ある単語がある品詞で登場するコスト」というのは、例えば「まし」が助動詞で登場するコスト「まし(増し)」が動詞で登場するコストというような感じで、単一の言葉でも、品詞が違う場合にはそのコストを区別するような考え方です。一方、「ある品詞とある品詞の接続するコスト」というの
jjzak 2011/02/20
algorithm

ruby

viterbi

programming

形態素解析
リンク
mecab辞書にwikipediaのタイトル名を追加 - kokotech
wikipediaのタイトルを追加しようとしたらいくつかハマったので。環境はFedora10。まずはmecabのインストール。 # yum install mecab* とりあえずこれだけでおもむろに形態素解析してみる。 # echo けいおん！のせいでtwitter界隈にギター買うとか宣言してる奴が増えた | mecab けい名詞,一般,*,*,*,*,けい,ケイ,ケイおん名詞,一般,*,*,*,*,おん,オン,オン！記号,一般,*,*,*,*,！,！,！の助詞,連体化,*,*,*,*,の,ノ,ノせい名詞,非自立,一般,*,*,*,せい,セイ,セイで助動詞,*,*,*,特殊・ダ,連用形,だ,デ,デ t * w * i * t * t * e
jjzak 2011/02/20
mecab

programming

形態素解析
リンク
MeCabの辞書をはてなキーワードとWikipediaで鍛える at Lunalog – るなろぐ
LUNA(武藤研究会ソフトウェア研究グループ）の共同更新ブログ作業環境：Lunalice(CentOS 5.5) システムエンコーディング：UTF-8 MeCabのエンコーディング：UTF-8 ◆Wikipedia編 SorAmberが作ってくれたwikipedia.csvを使う。コスト付をして文脈IDを整形しただけで使用完了した。この方法については後述。 (maintain.rb) ◆はてなキーワード編各種ページを参照するも、上手く行くものなし。恐らく原因はテキストファイルが汚い（フォーマットに則っていない、記号等が読み込めない）ことだと思う。最終的に、 http://d.hatena.ne.jp/hirokan55/20100215/p1 のページをベースに使うことにした。ページの通りに進めることで辞書登録を確認。しかし、折角はてなキーワードにはふりがな
jjzak 2011/02/20
mecab

形態素解析

tips
リンク
mecabのユーザ辞書でwikipediaとhatenaキーワードを利用する - てんぷろぐ
（インストールの仕方などはほかの人がいっぱい説明してくれているので割愛）どうやら標準の辞書だけだと限界があるようので、以下の記事などを参考に「wikipediaとhatenaキーワードをユーザ辞書として利用する」ということをやってみました。 http://d.hatena.ne.jp/code46/20090531/p1 http://www.mwsoft.jp/programming/munou/mecab_hatena.html http://deepneko.dyndns.org/kokotech/2009/06/mecabwikipedia.html 作ったのは以下の2つのスクリプト。 webからデータを取ってきて、csv作成コマンド、辞書作成コマンドを呼び出すshell (convWebWordsToDic.sh) #!/bin/sh CSV=../data/words.c
jjzak 2011/02/20
mecab

ruby

形態素解析
リンク
毎日ぴよぴよ【卒研】MeCab辞書にはてなキーワードとwikipediaタイトルを登録
覚え書きみたいな感じ。 Twitterから取得したTLデータをMeCabの形態素解析にかけると、大抵の固有名詞は単語がバラバラになってしまいます。バラバラになってしまった「嵐にしやがれ」これを、固有名詞と判断させるためにどうしたらいいのか。はてなキーワードとwikipediaのタイトルをMeCabの辞書にぶっこんであげればよし。ということでがんばってみた。【主な参考ページ様】 MeCabの辞書をはてなキーワードとWikipediaで鍛える mecab辞書にwikipediaのタイトル名を追加【はてなキーワード編】ここからはてなダイアリーキーワードふりがなリストをダウンロード。(keywordlist_furigana.csv) キーワードIDをついてない方を選んだ。で、このcsvファイルをMeCabの辞書用のcsvに変換しなければならない。例えばこんな感じ。嵐にしやがれ
jjzak 2011/02/20
mecab

形態素解析

tips
リンク
Mecabのインストールと辞書のUTF-8化 - 森薫の日記
Linux | 23:10 | UbuntuのMecab環境を整備します。まず、Mecabをパッケージからインストールします。 $ sudo apt-get install mecab IPA辞書のインストールデフォルトではJUMAN辞書を使って形態素解析をしますが、IPA辞書の方が精度が良いようです。http://d.hatena.ne.jp/mir/20070209/p3IPA辞書は以下のコマンドでインストールします。 $ sudo apt-get install mecab-ipadic IPA辞書をUTF-8に変換パッケージからインストールされるIPA辞書はEUC-JPで構築されているため、Ubuntuの文字コードをUTF-8に設定している場合はいろいろと不便です。以下のコマンドでIPA辞書をUTF-8に変換できます。 $ sudo /usr/lib/mecab/mecab-dic
jjzak 2011/02/20
mecab

tips

形態素解析
リンク
Java製形態素解析エンジン「Igo」を試してみる
IgoはJavaで作られた形態素解析エンジンです。 JavaはJVMという閉じた空間で動作する分、Cなどのネイティブアプリと連携する際の安定性や性能がイマイチ。そのため形態素解析をしたい場合もMeCabを使わずにJava製のものを利用するケースが目立ちます。IgoはJavaで形態素解析をする場合に選択肢の1つとして挙げられます。 @Date 2010/12/18 @Env Igo0.4.2/Fedora14 IgoはMeCabの辞書を利用することができ、ほぼMeCabと同じ解析結果を返すことを意識して作られているそうです（詳細は公式サイト参照）。 Igo - Java 形態素解析器 http://igo.sourceforge.jp/ 下記ページによると、実行速度もMeCabと比べてそれほど大きく劣ることはないようです。 Igo : MeCabと形態素解析速度比較 http://d.hat
jjzak 2011/02/20
java

programming

igo

形態素解析
リンク
Igo-pythonをGAEでも動かす。 - Keep on moving
あいかわらずIgoをいじって遊ばせていただいています。 Igoを使っていて感じたことをかるくまとめておきます。 Igoの辞書変換時の注意点 IgoではMecab形式のファイルをいったんIgoを使って変換する必要がある。ドキュメントには書いてないけど以下の場合には辞書の変換に失敗する。はまったのでメモ的にまとめておきます。辞書に"(ダブルクォート)を含む場合、変換parserのエラーになる。(今回は取り除くことで可能) Mecabの辞書内で出現頻度をスコアで指定するんだけど、Igo側はここをIntegerで解釈しているので,Integerの範囲を超えた値にすると変換エラーになる。辞書の変換には思った以上にメモリを食います。具体的にはスタックオーバーフローエラーがおこります。辞書のファイルサイズが大きい場合にはスタック領域をなるべく増やして実行しましょう。例えば、NAIST Japan
jjzak 2011/02/20
igo

programming

tips

形態素解析
リンク
[O] 日本語意味解析製品「なずき」、か
なずきは、概念辞書や連想知識、感性情報といった文章の意味についての高度な分析を行う辞書データベースを持つ言語処理エンジンで、例えば「私の彼って、最近車買ったんだよぉ？明日は軽井沢へ連れて行ってくれるんだぁ」という文章から、旅行、宿泊、自動車に関連した広告を表示させることができる。この記事で言及していることは、意味を解析しなくても実現できます。大人気無いですが、実際に一緒にやってみましょう。 @ITの記事と同じような処理を実際にやってみようプログラムするまでもないので、手を動かして遊んでみます。入出力入力 : 私の彼って、最近車買ったんだよぉ？明日は軽井沢へ連れて行ってくれるんだぁ出力 : 旅行、宿泊、自動車つかうもの - Chasen（WindowsのGUI版でOK） ChaSen's Wiki - 茶筌の配布 - Yahoo!検索 1、Chasenで名詞を抽出
jjzak 2011/02/20
ストップワード

形態素解析

nlp
リンク
Igo - a morphological analyzer
目次概要/特徴リリースノートインストール/使い方 jarファイル解析用辞書作成形態素解析コマンド BuildDic Igo Java API Tagger Morpheme サンプルコード MeCabとの相違点解析結果機能辞書ファイル単語エントリフォーマット制限/注意点禁則文字バイナリ辞書エンディアンライセンスバグ報告など概要/特徴 Javaで実装された形態素解析器。→ Common Lisp版辞書フォーマット及び解析結果は、ほぼMeCab互換。単機能。 Javaの形態素解析器としては比較的高速。スレッドセーフ。リリースノート version 0.4.3: 2011年06月17日形態素解析部の微細なパフォーマンスチューニングインストール/使い方 1) jarファイルの取得/作成 jarファイルは以下のいずれかの方法で取得/作成する。ダウンロード
jjzak 2011/02/20
java

nlp

形態素解析

igo
リンク
形態素解析と検索APIとTF-IDFでキーワード抽出
形態素解析と検索APIとTF-IDFでキーワード抽出 2005-10-12-1 [Programming][Algorithm] 形態素解析器と Yahoo! Web 検索 API と TF-IDF を使ってキーワード抽出するという先日の検索会議でのデモ、KEYAPI[2005-09-30-3]。教科書に載っているような基本中の基本ですが、あらためてエッセンスを簡単な例で解説したいと思います。目的：キーワード抽出対象テキストから、そのテキストを代表するキーワードを抽出します。TF-IDF という指標を用います。（この値が大きいほどその単語が代表キーワードっぽいということでよろしく。） TF-IDF を計算するためには、 (1) キーワード抽出対象テキスト中の代表キーワード候補出現数 (TF)、 (2) 全てのドキュメント数 (N)、 (3) 代表キーワード候補が含まれるドキュメ
jjzak 2009/02/15
TF-IDF を使ってキーワード抽出

language

自然言語処理

形態素解析

mecab

search

algorithm

tf-idf
リンク
形態素解析・構文解析入門
back 注意: このページの内容には、おそらく多くの間違いがあります。リンクされているので残しておきますが、利用には注意してください。(2008年3月、新山) 目次背景知識形態素解析とは構文解析とは練習問題言語処理関係の論文によく出てくる重要語 1. 背景知識まず「形態素」、「構文」などといった用語は、ほとんどが現在の科学的な「言語学」という分野に帰するものであることを最初に知っておく必要がある。体系だった言語学は、おもにチョムスキー言語学の創始とともに始まった。チョムスキーは 1960年代に、世界じゅうの数多くの言語には、実はそのすべてに共通する「普遍文法 (universal grammer)」がある、と言った。またチョムスキーはそのような文法を数学的な人工言語で厳密に表現する方法をも開発した。彼によれば、言語にはその理想化されたかたち (言語が言い間違
jjzak 2009/01/18
形態素解析

programming

自然言語処理

reference
リンク
きまぐれ日記: Yahoo!の形態素解析をMeCabで無理やり再現してみる
MeCabで形態素解析器を作りたい場合は以下の二つの言語リソースが必要です。 1. 辞書 (単語と品詞のペアの集合) 2. 入力文と、それに対応する正解出力ペア(正解データ) 現在公開している mecab-ipadic は、ipadicとRWCPコーパスという正解データを使っています。ここから分かるとおり、少なくともMeCabを使う場合は、コスト値を丹念にチューニングするといった職人芸は要りません。形態素解析への入力文とそれに対応する(理想)出力があればコスト値を機械学習的なアプローチで構築することができます。さらに、正解データを人手で作る必要は必ずしもありません。すなわち、Yahoo!の形態素解析器の出力結果を「擬似正解」とみなして MeCabの学習プログラムを走らせれば、Yahoo!の出力を高い精度で再現できる MeCab用辞書を作成することが原理的に可能です。ふだんはあま
jjzak 2009/01/18
programming

形態素解析

tips

dictionary

tech

mecab
リンク
形態素解析辞書 UniDic
人気デベロッパー Play’N Go は、2017年にユニークなスロットを発売しましたムーンプリンセス. オンラインスロットゲームムーンプリンセスこのゲームは、そのユニークなオプション、シンプルな操作性、アニメをモチーフにしたカラフルなグラフィックにより、瞬く間にプレイヤーから人気を集めました。スロットマシンのムーンプリンセスは、漫画『美少女戦士セーラームーン』のテーマを明らかにする。第1巻は1992年に発売され、現在も人気があります。を可能にします MoonPrincess は、長年にわたり最高のスロットのリストをリードし、プレイヤーに寛大な配当だけを提供し、ゲームプレイへの関心を保証します。すべてのシンボルが雰囲気を強調するオンラインスロットゲームムーンプリンセス, 心地よいサウンドトラックがゲームプレイを引き立て、音楽をパーソナライズできるため、ユーザーはスロッ
jjzak 2009/01/04
形態素解析

mecab

software

research

database

dictionary

japanese

tool
リンク
IPADIC(IPA辞書)とはなにものか？
※私は言語処理に関する知識は無いので、あくまで「IPADICとは何ものなのか？」という点に絞ってのみ記述しています。まあ、ここまで突っ込んだのは戯れですが、一応の目的として現在から未来にわたって無料で入手できる形態素解析を使うに当たり、「メンテナンスが継続されている辞書」が入手できるかを調べたかったという意図もあります。日本語を処理する上で形態素解析というのはわりと欠かせないものです。 Webのサービスでよく用いられている形態素解析器にはChaSenとmecabがありますが、これらのエンジンは何らかの辞書を利用して日本語を解析します。ちなみに形態素解析器と言うのはChaSenの表現を帰りれば「形態素解析器とは、入力文を単語単位に分割し品詞を付与するツールである。」ということです。形態素解析器の開発の歴史はMeCab の開発経緯をご覧ください。ここでChaSenにもMeCabにも、標準
jjzak 2009/01/04
日本語

形態素解析

dictionary

programming

development
リンク
KH Coder: 計量テキスト分析・テキストマイニングのためのフリーソフトウェア
概要と特長 KH Coderとは、計量テキスト分析またはテキストマイニングのための自由ソフトウェアです。アンケートの自由記述・インタビュー記録・新聞記事など、さまざまなテキストの分析にお使いいただけます。プログラミング不要、マウス操作で本格的な分析安心の分析プロセス完全公開、研究利用も多数 New! 機能紹介（スクリーンショット）スクリーンショット集［旧ページ：言葉・文書・可視化・他］ KH Coder 3 正式版の新機能 New! 機能追加プラグイン「文錦®」シリーズ New! ダウンロードと使い方 KH Coder 3 正式版ダウンロード (Version 3.02) 使い方を知るためのチュートリアルヘルプ質問＆エラー報告用の掲示板 ※投稿にはGitHubへの登録が必要（無料）［旧掲示板］よくある質問（FAQ）開発者が語る公式セミナー & サポート：㈱SCREEN A
jjzak 2009/01/04
形態素解析

日本語

software

algorithm

tool

mysql

text
リンク
Taku Kudo
Profile 名前工藤拓 (くどうたく) 職業研究者写真お台場にてルスツにて暇つぶしウクレレ, スノーボード, ジャグリング, ダーツ Research Topics 統計的自然言語処理形態素解析テキストチャンキング統計的統語解析統計的係り受け解析機械学習 Support Vector Machines Boosting Maximal Margine Classifiers データマイニング半構造化データの高速マイニングテキストマイニング評判分析 Software MeCab (次世代形態素解析エンジン) CaboCha (係り受け解析器) CRF++ (汎用 Tagger,Chunker based on CRF) YamCha (汎用 Tagger,Chunker based on SVM) TinySVM (SVM 学習パッケージ) Tin
jjzak 2008/10/06
[][][search][programming][software][research][svm][機械学習]

形態素解析

自然言語処理

mecab

ajax

c
リンク
1 2 次のページ