NLP2018のワークショップに行ってきたのですが、そこで聞いてきたことのうち、形態素解析ツールに関することを大雑把にまとめておきます。聞いたことをまとめることが目的なので、詳細は各ツールのWebサイトやgithubページへ行ってください。 間違っている部分、追加したい内容があればコメントでお願いします。 追記: 2018/04/02 nlp2018の発表資料が公開されました。 Juman++ (リンク) MeCab (リンク) KyTea (リンク) Unidic (リンク) https://sites.google.com/view/nlp2018ws/ NLP2018 形態素解析の今とこれから 趣旨: どういう手法・ツールをどのようなタスクに対して使うべきかを選べるように、各ツールの開発者の発表を基に比較してもらうこと。 さまざまな発表がありましたが、形態素解析ツールに焦点を当ててま
日本語形態素解析システム Juman++ † Juman++は言語モデルを利用した高性能な形態素解析システムです.言語モデルとして Recurrent Neural Network Language Model (RNNLM) を用いることにより,単語の並びの意味的な自然さを考慮した解析を行います.それにより JUMAN,MeCab に比べ大きく性能が向上しています.文法・辞書・出力フォーマット等は JUMAN から引き継いだものを利用しています.本システムは CREST「知識に基づく構造的言語処理の確立と知識インフラの構築」の支援により開発されました. ↑ 使用方法 † たとえば,次のようなテキストを入力すると, % cat sample.txt 外国人参政権 私もあさって日曜最終日 以下の解析結果が得られます. % cat sample.txt | jumanpp 外国 がいこく 外国
Loading… Flash Player 9 (or above) is needed to view presentations. We have detected that you do not have it on your computer. To install it, go here. Mozcソースコード徹底解説 #TokyoTextMining - Presentation Transcript Mozcソースコード徹底解説 #tokyotextmining @nokuno 自己紹介 2 Twitter: @nokuno はてな:id:nokuno 自然言語処理勉強会を主催 PRML/R/Python/Hadoopなど 2002~2006:コミケで同人ゲーム売ってた 2007~2008:未踏でSocial IMEの開発 2009~現在:Web業界勤務 今日
※私は言語処理に関する知識は無いので、あくまで「IPADICとは何ものなのか?」という点に絞ってのみ記述しています。まあ、ここまで突っ込んだのは戯れですが、一応の目的として現在から未来にわたって無料で入手できる形態素解析を使うに当たり、「メンテナンスが継続されている辞書」が入手できるかを調べたかったという意図もあります。 日本語を処理する上で形態素解析というのはわりと欠かせないものです。 Webのサービスでよく用いられている形態素解析器にはChaSenとmecabがありますが、これらのエンジンは何らかの辞書を利用して日本語を解析します。 ちなみに形態素解析器と言うのはChaSenの表現を帰りれば「形態素解析器とは、入力文を単語単位に分割し品詞を付与するツールである。」ということです。形態素解析器の開発の歴史はMeCab の開発経緯をご覧ください。 ここでChaSenにもMeCabにも、標準
カーネギーメロン大学が、インターネット上で公開されている画像から学習を行う人工知能「NEIL」を開発しているそうだ。このプロジェクトの目的は、人工知能に指示を出して教えることなく、入力した情報だけから「常識」を判断することだという(本家/.、The Washington Post)。 NEILは画像を分析し、その画像と画像内の物体との関連性を見つけていくという。これにより、たとえば「サバンナにはシマウマがよくいる」といったような情報を認識できるという。実験開始から4ヶ月が経った時点では、2500の「関連性」を発見できているそうだ。 しかし、実際には間違った情報を学ぶこともあるという。記事ではその例として「サイはアンテロープ(ウシ科の動物)の一種だ」「俳優は独房で見つかる」「ニュースキャスターはオバマ大統領に似ている」などが挙げられている。
自然言語処理まわりのDeep Learningを自分なりにまとめてみた “自然言語処理のためのDeep Learning”というスライドを公開しました. 自然言語処理のためのDeep Learning from Yuta Kikuchi カジュアルな感じで自然言語処理まわりのDeep Learningの話題をまとめた感じになっています. きっかけは,勉強会をしていることを知ったOBのbeatinaniwaさんにお願いされたことで, 株式会社Gunosyの勉強会の場で,発表の機会を頂きました. それが,9/11で,その後9/26に研究室内で同じ内容で発表しました. どちらも思った以上に好評を頂け,公開してはと進めて頂いたので,公開することにしました. もちろん間違いが含まれている可能性も多分にあるので.気づいた方はご指摘頂けると幸いです. 内容ざっくり 前半は,ニューラルネットワークを図を使
mecabのホームページに従ってインストールを行ったのですが、 端末で起動すると次のようなエラーが表示されます。 $ mecab param.cpp(69) [ifs] no such file or directory: /usr/local/lib/mecab/dic/ipadic/dicrc たぶん、mecabが入っているディレクトリが違うとのことだと思うのですが、 どのように対処すれば良いのでしょうか? 回答よろしくお願いします。
MeCab に至るまでの形態素解析器開発の歴史等はこちらをご覧ください メーリングリスト 一般ユーザ向けメーリングリスト 開発者向けメーリングリスト 新着情報 2012-01-27 MeCab 0.993 MeCab::Tagger::formatNode()が正しく動いていなかった問題の修正 スタックの消費を抑えるため、ほとんどのローカル変数(配列)をヒープ上に退避 2012-01-14 MeCab 0.992 ソースコード中のTypoの修正 2012-01-14 MeCab 0.991 空文字列もしくは空白文字列を解析した時に解析エラーとなる問題を修正 ユーザ辞書の作成に失敗する場合がある問題を修正 2011-12-24 MeCab 0.99 MeCab::Model, MeCab::Lattice クラスを追加 マルチスレッド環境でのユーザビリティの向上。複数スレッドが同一
MeCabはオープンソースの形態素解析エンジンで、奈良先端科学技術大学院大学出身、現GoogleソフトウェアエンジニアでGoogle 日本語入力開発者の一人である工藤拓[1][2]によって開発されている。名称は開発者の好物「和布蕪(めかぶ)」から取られた。 開発開始当初はChaSenを基にし、ChaSenTNGという名前で開発されていたが、現在はChaSenとは独立にスクラッチから開発されている。ChaSenに比べて解析精度は同程度で、解析速度は平均3-4倍速い。 品詞情報を利用した解析・推定を行うことができる。MeCabで利用できる辞書はいくつかあるが、ChaSenと同様にIPA品詞体系で構築されたIPADICが一般的に用いられている。 MeCabはGoogleが公開した大規模日本語n-gramデータの作成にも使用された[3]。 Mac OS X v10.5及びv10.6のSpotlig
件名: 主人がオオアリクイに殺されて1年が過ぎました。 差出人: 久光 いきなりのメール失礼します。 久光さやか、29歳の未亡人です。 お互いのニーズに合致しそうだと思い、連絡してみました。 自分のことを少し語ります。 昨年の夏、わけあって主人を亡くしました。 自分は…主人のことを…死ぬまで何も理解していなかったのが とても悔やまれます。 主人はシンガポールに頻繁に旅行に向っていたのですが、 それは遊びの為の旅行ではなかったのです。 収入を得るために、私に内緒であんな危険な出稼ぎをしていたなんて。 一年が経過して、ようやく主人の死から立ち直ってきました。 ですが、お恥ずかしい話ですが、毎日の孤独な夜に、 身体の火照りが止まらなくなる時間も増えてきました。 主人の残した財産は莫大な額です。 つまり、謝礼は幾らでも出きますので、 私の性欲を満たして欲しいのです。 お返事を頂けましたら、もっと詳
はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28
12月にさくさくテキストマイニングで発表したpure Rubyによる形態素解析エンジンをgem化しました。 まだ発展途上で機能が少なかったりパフォーマンスが悪かったりしますが、いちおう動くレベル*1になったので公開します。 注意事項 バージョン0.0.xのうちは、インタフェースや辞書フォーマットは頻繁に変更される予定です。 ある程度安定したら0.1.0出します。 今のところ、Ruby1.9系専用です。 取得 gem install okuraでインストールできます。 ソースは https://github.com/todesking/okura 使い方 MeCabフォーマットの辞書データを使用します。 動作確認はMeCab用NAIST辞書で行いました。 最初にokura compileコマンドで辞書をコンパイルします $ okura compile mecab-naist-jdic-0.6
出力に何か書くと入力をもとに何か出します. 途中で止めたりできます. たとえば,ペンキと書くと何か出ます. 入力は学習用のテキストなので,好きな文章をコピペしてきます. 1文字ずつにすると変な文章が出ます. 入力 一 「おい地獄さぐんだで!」 二人はデッキの手すりに寄りかかって、が背のびをしたように延びて、海をえ込んでいるの街を見ていた。――漁夫は指元まで吸いつくしたをと一緒に捨てた。巻煙草はおどけたように、色々にひっくりかえって、高いをすれずれに落ちて行った。彼は一杯酒臭かった。 赤い太鼓腹を広く浮かばしている汽船や、積荷最中らしく海の中からをグイと引張られてでもいるように、思いッ切り片側に傾いているのや、黄色い、太い煙突、大きな鈴のようなヴイ、のように船と船の間をせわしく縫っているランチ、寒々とざわめいている油煙やパンや腐った果物の浮いている何か特別な織物のような波……。風の工合で煙が
以前,latticelmで教師なし形態素解析を試して,人間の単語分割基準とは異なることを確認しました. 教師なし形態素解析ライブラリlatticelmを使ってみた - nokunoの日記人間の単語分割基準に近づけるには半教師あり学習などの方法が考えられますが,ここでは既存の形態素解析器を使える簡単なやり方として,mecabで分かち書き済みのコーパスにlatticelmを適用してみることにしてみます.これは,1つの単語を1つの文字とみなして教師なし形態素解析を適用することに相当します.mecabのような形態素解析器は未知語に遭遇すると単漢字に分解してしまう傾向があるため,それをくっつけ直す効果が期待できると考えられます.というわけで,Wikipediaから1000文をmecabで分かち書きした結果をlatticelmにかけてみた結果がこちら.$ head out/samp.100 アンパサン
自然言語処理を活用したwebサービス開発に関わって5年以上経った。いい機会なのでこれまでを振り返って役に立ったと思う5冊をメモしておく。 1.珠玉のプログラミング―本質を見抜いたアルゴリズムとデータ構造 まずはこれ。有名な本なので知っている人も多いと思う。簡単に説明するとちょっと前に「フェルミ推定」という名前で流行ったような、データから必要な数値を概算する方法や、問題が起きたときに問題点がどこにあるのか?最小の労力で解決するにはどこをいじればよいのか?などが書いてある。「webサービスで自然言語処理だ!」というと無限に夢が広がりがちなので、どういうデータが使えるのか、それをどういう形にもっていけばイケてるサービスになるのか、それはどのくらいの期間で実現できるか、ということを考える必要がある。そういうわけで本書は真っ先に読むべき一冊なのでは(余談だけれど、以前M << Nなデータに対してO(
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く