[B! 形態素解析] mkawanoのブックマーク

mkawano id:mkawano

形態素解析に関するmkawanoのブックマーク (15)

JUMAN++ - LANGUAGE MEDIA PROCESSING LAB
日本語形態素解析システム Juman++ † Juman++は言語モデルを利用した高性能な形態素解析システムです．言語モデルとして Recurrent Neural Network Language Model (RNNLM) を用いることにより，単語の並びの意味的な自然さを考慮した解析を行います．それにより JUMAN，MeCab に比べ大きく性能が向上しています．文法・辞書・出力フォーマット等は JUMAN から引き継いだものを利用しています．本システムは CREST「知識に基づく構造的言語処理の確立と知識インフラの構築」の支援により開発されました． ↑ 使用方法 † たとえば，次のようなテキストを入力すると， % cat sample.txt 外国人参政権私もあさって日曜最終日以下の解析結果が得られます． % cat sample.txt | jumanpp 外国がいこく外国
mkawano 2016/09/29
language

NLP

形態素解析

juman

自然言語処理

ソフトウェア
リンク
日本語形態素解析の裏側を覗く！MeCab はどのように形態素解析しているか - クックパッド開発者ブログ
こんにちは、買物情報事業部の荒引 (@a_bicky) です。前回、「検索結果の疑問を解消するための検索の基礎」で単語単位でインデキシングする前提で説明しましたが、今回は文などを単語単位で分割するために使う技術である形態素解析について触れます。形態素解析器には色々ありますが、中でもメジャーと思われる MeCab の仕組みについて説明します。 MeCab の解析精度を上げるために辞書に単語を追加したことのある方もいると思いますが、動作原理を理解することで単語を追加する際に適切な生起コストを設定できるようになったり、学習の際に適切なパラメータを設定できるようになったりするはずです。なお、MeCab は汎用テキスト変換ツールとしても使用できますが、簡単のため MeCab + IPA 辞書のデフォルト設定前提で説明します。アジェンダ形態素解析とは MeCab における最適な解析結果の推
mkawano 2016/05/11
MeCab

cookpad

形態素解析

クックパッド

技術

nlp
リンク
R言語 - テキストのネガポジ度を分析する - Qiita
はじめに任意のテキストファイルにどのような特性があるのか？そのテキストファイルに、ネガティブな発言が多いか、それとも、ポジティブな発言が多いかの傾向をざっくりと把握するには、ネガポジ度を分析するとよいです。このTipsでは、とある組織のウィークリーレポートを使って、その内容にどのような特性があるのかを分析してみます。手順としては、①ウィークリーレポートをRMeCabで形態素解析後、②単語感情極性表(注1)からスコアを算出し、③ネガポジ度を三次元円グラフで描画します。単語感情極性とは、その語が一般的に良い印象を持つか（positive）悪い印象を持つか（negative）を表したものです。例えば、「良い」、「美しい」などはpositiveな極性、「悪い」、「汚い」などはnegativeな極性を持ちます。 # 三次元円グラフライブラリを読み込みます library(plotrix) #
mkawano 2015/12/30
tips

R

形態素解析

library
リンク
日本語形態素解析の初歩 - あらびき日記
この記事は abicky.net の日本語形態素解析の初歩に移行しました
mkawano 2014/03/27
japanese

日本語

言語学

形態素解析

自然言語処理

MeCab

nlp

TextMining
リンク
生きたことばをモデル化する統計科学の研究：研究室訪問：統計数理研究所
「いづれの御時にか、女御更衣あまたさぶらひける中にいとやむごとなき際にはあらぬが、すぐれてときめきたまふありけり」で始まる『源氏物語』。平安時代中期（11世紀）に成立した宮廷の恋愛物語は、世界最古の長編小説として有名だが、江戸時代の人々にすら極めて難解なことばの集合で、多くの注釈書が発刊されていた。ことばは時代と共に変化し、それを正しく理解することは失われた意味を復元する作業にも似る。冒頭にかかげた源氏の一節も、教えてくれる人がいなければ、それぞれの単語がどこで切れるのかすら判然としない。言語を確率論的にとらえ、計算式によって解析（処理）するなら現代語も古典も、未知の言語すらも容易に理解できるようになる――このように考えて「計算言語学」の旗をかかげる統計科学者がいる。言語の差異構造を統計的に理解する持橋の専門分野は、「統計的自然言語処理」と「統計的機械学習」。それは簡単に表現するな
mkawano 2014/02/28
統計

NLP

形態素解析

言語
リンク
RでYahoo!の日本語解析APIを使うパッケージを作ってみました - yokkunsの日記
Rでテキストマイニングをする場合、RMecabや、RCaBoChaがあるんですが、事前にMecabやCaBoChaをインストールする必要があり、これから始める人にはちょっと敷居が高いところがあるかと思います。 RMeCabとRCaBoCha - yokkunsの日記 RCaBoChaの64bit版が公開されたので試してみた - yokkunsの日記もっと気軽にRだけで動かしてみるものがあっても良いかなと思い、Yahoo! Japanが提供しているテキスト解析APIを使うパッケージを作成してみました。CRANにコミット済みです。 CRAN - Package YjdnJlp 以下の機能をサポートしています。形態素解析係り受け解析キーフレーズ抽出インストールと読み込み > install.packages("YjdnJlp") > library(YjdnJlp) 要求されたパッケー
mkawano 2011/03/24
形態素解析

yahoo!

api

R
リンク
大規模テキスト処理を支える形態素解析技術（工藤拓氏・Google） - Cafe Babe
第80回知識ベースシステム研究会を開催したが，二日間で58名の方々に参加して頂き，積極的に議論に加わって頂いた．この場を借りて，参加してくれた方々に感謝したい．大変遅くなった（爆）が，Googleの工藤拓氏による招待講演「大規模テキスト処理を支える形態素解析技術」の概要を，このブログで報告しておきたい．工藤氏の専門分野は統計的自然言語処理と機械学習であるが，日本語形態素解析エンジンMeCabの開発者であり，他にも自然言語処理関連の有益なツールや，Webベースの日本語入力を可能にするAjax IMEのようなユニークなサービスを提供しているなど，時代をリードする研究開発者の一人である．彼の活動に興味があれば，彼のブログ「きまぐれ日記」は必見だろう．なお，当日は弊社側の不手際で，予定していた工藤氏の重要なデモをおこなうことができなかった．弊社はネットワーク会社であるにもかかわらず，ネットワーク
mkawano 2008/02/15
mecab

nlp

google

形態素解析

自然言語処理

日本語
リンク
「圧縮新聞」を作った - phaの日記
僕は昔からロボットがロボットなりに変な文章を生成して喋ったりする人工無脳とかそういう仕組みが好きで、最近はそのへんの仕組みを勉強していました。それで大体仕組みの基本はわかったので簡単なスクリプトを書いてみたよ。圧縮新聞このスクリプトはウェブ上にある新聞社とかのニュースの文章を元にして、バラバラにして圧縮してまとめた文章を作るので、ざっと眺めるだけでその日起こった事件の全体が何となくわかるかもしれません。リロードするたび文章は変わります。生成例しょうゆ・みそ業界大手のＮＯＶＡ（大阪市）が入った郵便小包は、北朝鮮の鉄道網を連結する計画だったらしいことが２１日、わかった。タンクに灯油を補給した。検案の結果、財政難などをほとんど与えずに６者協議の外相会議の早期再開に期待を表明した国と製薬会社に賠償を求めた。その後、死亡した。しくみこういった人工無脳みたいな文章生成をするには形態素解析と
mkawano 2007/11/27
人工無脳

形態素解析

nlp

programming

プログラミング

マルコフ連鎖

webサービス

webservice

ウェブサービス
リンク
[を] 形態素解析と検索APIとTF-IDFでキーワード抽出
形態素解析と検索APIとTF-IDFでキーワード抽出 2005-10-12-1 [Programming][Algorithm] 形態素解析器と Yahoo! Web 検索 API と TF-IDF を使ってキーワード抽出するという先日の検索会議でのデモ、KEYAPI[2005-09-30-3]。教科書に載っているような基本中の基本ですが、あらためてエッセンスを簡単な例で解説したいと思います。目的：キーワード抽出対象テキストから、そのテキストを代表するキーワードを抽出します。TF-IDF という指標を用います。（この値が大きいほどその単語が代表キーワードっぽいということでよろしく。） TF-IDF を計算するためには、 (1) キーワード抽出対象テキスト中の代表キーワード候補出現数 (TF)、 (2) 全てのドキュメント数 (N)、 (3) 代表キーワード
mkawano 2007/02/14
形態素解析

nlp

tf-idf
リンク
[を] キーワード抽出モジュール Lingua-JA-Summarize
キーワード抽出モジュール Lingua-JA-Summarize 2006-04-26-2 [Programming][NLP] Kazuho@Cybozu Labs: キーワード抽出モジュールを作ってみた http://labs.cybozu.co.jp/blog/kazuho/archives/2006/04/summarize.php サイボウズラボの奥一穂さんによるキーワード抽出を行うPerlモジュール。形態素辞書にある単語コスト（解析に使用するやつ）を TF-IDF っぽく使ってキーワード抽出する手法。手軽にさくっと使えて非常に良い感じです！これを使っていろいろアサマシいことなどもやってみようかと思います！以下、コピペしたら動くサンプルです。threshold がデフォルトのままの値だとキーワードが抽出されないことがあるので、1 にしています。 #!/
mkawano 2007/02/14
形態素解析

nlp
リンク
zuzara : 文章からキーワードを抜き出すAPI: KOSHIAN
エラー<error> <message>GET/POST param q is invalid.</message> </error>米Y!の同じ機能を持ったAPIを参考にしています。 Term Extraction Documentation for Yahoo! Search Web Services サンプルレスポンス http://zuzara.dyndns.org/api/koshian?q=Microsoft+マイクロソフト <ResultSet> <Result id="2454">MICROSOFT</Result> <Result id="2454">マイクロソフト</Result> </ResultSet>デモフォーム適当な文章を入力してください。注意点サーバの回線が細いのが不安です。将来的にドメイン名が変わる可能性が高いです。蹴飛ばしてケーブルが抜ける等の生活に
mkawano 2006/12/13
api

nlp

形態素解析
リンク
YappoLogs: Lingua::JA::Summarize::Extract - 日本語文章のサマリ抽出
Lingua::JA::Summarize::Extract - 日本語文章のサマリ抽出なんとなくPlaggerドリブンで日本語の文章の中から特徴的な文節を抽出するモジュールを書きました。具体的にはGetSenというWebサービスをCPANモジュールで使いたかったという感じです。 CPANに上げてあります。 Lingua::JA::Summarize::Extract 簡単な使い方は use strict; use warnings; use utf8; use Lingua::JA::Summarize::Extract; my $extracter = Lingua::JA::Summarize::Extract-&gr;new; my $text = "日本語の文章を沢山書きます"; my $result = $extracter-&gr;extract($text); my $
mkawano 2006/11/20
形態素解析

plagger

summarize

summary
リンク
Voice of Stone #1469 無駄に長い文章を要約するツール
hidew 2006.11.20 #1469 無駄に長い文章を要約するツールはてなブックマーク - 無駄にエロいブックマーク / 転載問題「無駄に長い」記事こそ圧縮してくれるツールはないんでしょうか…ぱわー＃「無駄に長い」記事こそ圧縮してくれる「機械要約ツール」は前に興味があって、メモが残っていた。 YappoLogs: Lingua::JA::Summarize::Extract - 日本語文章のサマリ抽出 - Perl プログラムによる要約は、たいてい ChaSen, MeCab, などの面倒な処理（形態素解析）が入ったりするが、Lingua::JA::Summarize::Extract は、辞書ファイルが必要なくて、お手軽に使うことができる。まさに Hack（大雑把だが要領の良い仕事）という感じ。 Lingua::JA::Summarize::Extract の CGI ht
mkawano 2006/11/20
形態素解析

これはすごい

tool
リンク
エブログ JavaScript で形態素解析もどき
JavaScript で形態素解析もどき JavaScript で形態素解析のようなものを。 totonの日記 - すべての漢字を取り出す正規表現「すべての漢字を取り出す正規表現」をPHPで試す:phpspot開発日誌これらの記事を参考にして JavaScript で漢字、ひらがな、カタカナ、英数字に区切ることをしています。ただ、文字コード的にちゃんとできるのか、よくわかりません。Seesaa はShift_jis なのでおかしくなる場合もあるかも知れないです。下のテキストエリアに文章を入力して解析ボタンを押すと解析結果が表示されます。解析というか、単純に改行で区切っているだけですが。サンプルは青空文庫の太宰治走れメロスの冒頭部分。メロスは激怒した。必ず、かの邪智暴虐（じゃちぼうぎゃく）の王を除かなければならぬと決意した。メロスには政治がわからぬ。メロスは、村の牧人である。笛
mkawano 2006/08/22
javascript

形態素解析
リンク
Kazuho@Cybozu Labs: キーワード抽出モジュールを作ってみた
« IIS のログを tail -f | メイン | Lingua::JA::Summarize 0.02 » 2006年04月26日キーワード抽出モジュールを作ってみた一昨日、同僚の竹迫さんに、文書内からのキーワード抽出技術について教えてもらっていた時、わざわざ TF-IDF注1 用に別のコーパスを用意しなくても、MeCab だったら生起コストを辞書内に持っているんだから、それを使えばいいのではないか、という話になりました。竹迫さんがその日のうちに作ってくれたプロトタイプで、アルゴリズムの改善とパラメータのチューニングを行ったところ、十分な品質が出そうなので、書き直して公開することにしました。普通の Perl モジュールなので、 perl Makefile.PL && make && make install すれば使うことができます (15:50追記: すみません。 MeCab
mkawano 2006/07/07
perl

キーワード抽出

形態素解析

MeCab
リンク
1