[B! 自然言語処理] Itisangoのブックマーク

Itisango id:Itisango

自然言語処理に関するItisangoのブックマーク (41)

TIS、機械学習で感情解析を行うためのデータセット「chABSA-dataset」を無償公開
Itisango 2018/04/11
自然言語処理

機械学習

学習

nlp

あとで読む

日本

programming

software

development

プログラミング
リンク
形態素解析ツールの比較 (NLP2018) - Qiita
NLP2018のワークショップに行ってきたのですが、そこで聞いてきたことのうち、形態素解析ツールに関することを大雑把にまとめておきます。聞いたことをまとめることが目的なので、詳細は各ツールのWebサイトやgithubページへ行ってください。間違っている部分、追加したい内容があればコメントでお願いします。追記: 2018/04/02 nlp2018の発表資料が公開されました。 Juman++ (リンク) MeCab (リンク) KyTea (リンク) Unidic (リンク) https://sites.google.com/view/nlp2018ws/ NLP2018 形態素解析の今とこれから趣旨: どういう手法・ツールをどのようなタスクに対して使うべきかを選べるように、各ツールの開発者の発表を基に比較してもらうこと。さまざまな発表がありましたが、形態素解析ツールに焦点を当ててま
Itisango 2018/03/19
自然言語処理

形態素解析

nlp

api

programming

プログラミング

software

development

ネタ
リンク
JUMAN++ - LANGUAGE MEDIA PROCESSING LAB
日本語形態素解析システム Juman++ † Juman++は言語モデルを利用した高性能な形態素解析システムです．言語モデルとして Recurrent Neural Network Language Model (RNNLM) を用いることにより，単語の並びの意味的な自然さを考慮した解析を行います．それにより JUMAN，MeCab に比べ大きく性能が向上しています．文法・辞書・出力フォーマット等は JUMAN から引き継いだものを利用しています．本システムは CREST「知識に基づく構造的言語処理の確立と知識インフラの構築」の支援により開発されました． ↑ 使用方法 † たとえば，次のようなテキストを入力すると， % cat sample.txt 外国人参政権私もあさって日曜最終日以下の解析結果が得られます． % cat sample.txt | jumanpp 外国がいこく外国
Itisango 2016/09/28
形態素解析

自然言語処理

NLP

あとで読む

juman

ネタ

software

development

開発

仕事
リンク
https://jp.techcrunch.com/2016/07/21/20160720google-launches-new-api-to-help-you-parse-natural-language/
Itisango 2016/07/21
google

自然言語処理

自然言語

あとで読む

api
リンク
Mozcソースコード徹底解説 #TokyoTextMining
Loading… Flash Player 9 (or above) is needed to view presentations. We have detected that you do not have it on your computer. To install it, go here. Mozcソースコード徹底解説 #TokyoTextMining - Presentation Transcript Mozcソースコード徹底解説 #tokyotextmining @nokuno 自己紹介 2  Twitter: @nokuno  はてな：id:nokuno  自然言語処理勉強会を主催  PRML/R/Python/Hadoopなど 2002～2006：コミケで同人ゲーム売ってた 2007～2008：未踏でSocial IMEの開発 2009～現在：Web業界勤務今日
Itisango 2015/01/26
@nokuno さんの #tokyotextmining での発表らしい。

Mozc

自然言語処理

形態素解析

tokyonlp

nlp

辞書

im

software

IME

source
リンク
IPADIC(IPA辞書)とはなにものか？
※私は言語処理に関する知識は無いので、あくまで「IPADICとは何ものなのか？」という点に絞ってのみ記述しています。まあ、ここまで突っ込んだのは戯れですが、一応の目的として現在から未来にわたって無料で入手できる形態素解析を使うに当たり、「メンテナンスが継続されている辞書」が入手できるかを調べたかったという意図もあります。日本語を処理する上で形態素解析というのはわりと欠かせないものです。 Webのサービスでよく用いられている形態素解析器にはChaSenとmecabがありますが、これらのエンジンは何らかの辞書を利用して日本語を解析します。ちなみに形態素解析器と言うのはChaSenの表現を帰りれば「形態素解析器とは、入力文を単語単位に分割し品詞を付与するツールである。」ということです。形態素解析器の開発の歴史はMeCab の開発経緯をご覧ください。ここでChaSenにもMeCabにも、標準
Itisango 2015/01/04
形態素解析

自然言語処理

mecab

ipadic

dictionary

nlp

言語処理

辞書

日本語

2008年
リンク
まとめよう、あつまろう - Togetter
コミュニケーションが生まれるツイートまとめツール
Itisango 2014/08/05
Togetter

NLP

language

comparison

言語

研究

自然言語処理

論

2014年

語順
リンク
コンピュータは「常識」を学べるか | スラド IT
カーネギーメロン大学が、インターネット上で公開されている画像から学習を行う人工知能「NEIL」を開発しているそうだ。このプロジェクトの目的は、人工知能に指示を出して教えることなく、入力した情報だけから「常識」を判断することだという（本家/.、The Washington Post）。 NEILは画像を分析し、その画像と画像内の物体との関連性を見つけていくという。これにより、たとえば「サバンナにはシマウマがよくいる」といったような情報を認識できるという。実験開始から4ヶ月が経った時点では、2500の「関連性」を発見できているそうだ。しかし、実際には間違った情報を学ぶこともあるという。記事ではその例として「サイはアンテロープ（ウシ科の動物）の一種だ」「俳優は独房で見つかる」「ニュースキャスターはオバマ大統領に似ている」などが挙げられている。
Itisango 2013/11/27
“カーネギーメロン大学が、インターネット上で公開されている画像から学習を行う人工知能「NEIL」を開発しているそうだ。”“このプロジェクトの目的は”“入力した情報だけから「常識」を判断することだ”

AI

captcha

2013年

anonymous

自然言語処理

確率

機械学習

人工無脳

CMU

NEIL
リンク
人工頭脳が代ゼミ東大模試で偏差値約60達成～「ロボットは東大に入れるか」数学チーム
Itisango 2013/11/25
人工知能

研究

自然言語処理

数学

科学

ネタ

ロボット

business

2011年

2016年
リンク
自然言語処理まわりのDeep Learningを自分なりにまとめてみた — KiyuHub
自然言語処理まわりのDeep Learningを自分なりにまとめてみた “自然言語処理のためのDeep Learning”というスライドを公開しました．自然言語処理のためのDeep Learning from Yuta Kikuchi カジュアルな感じで自然言語処理まわりのDeep Learningの話題をまとめた感じになっています．きっかけは，勉強会をしていることを知ったOBのbeatinaniwaさんにお願いされたことで，株式会社Gunosyの勉強会の場で，発表の機会を頂きました．それが，9/11で，その後9/26に研究室内で同じ内容で発表しました．どちらも思った以上に好評を頂け，公開してはと進めて頂いたので，公開することにしました．もちろん間違いが含まれている可能性も多分にあるので．気づいた方はご指摘頂けると幸いです．内容ざっくり前半は，ニューラルネットワークを図を使
Itisango 2013/09/29
うーん、難しい。 ““自然言語処理のためのDeep Learning”というスライドを公開しました．”

2006年

2013年

NLP

自然言語処理

ニューラルネットワー

computing

language
リンク
Ubuntu日本語フォーラム / mecabのインストールについて
mecabのホームページに従ってインストールを行ったのですが、端末で起動すると次のようなエラーが表示されます。 $ mecab param.cpp(69) [ifs] no such file or directory: /usr/local/lib/mecab/dic/ipadic/dicrc たぶん、mecabが入っているディレクトリが違うとのことだと思うのですが、どのように対処すれば良いのでしょうか？回答よろしくお願いします。
Itisango 2013/02/01
" #MeCab は #京都大学情報学研究科− #日本電信電話株式会社コミュニケーション科学基礎研究所共同研究ユニットプロジェクトを通じて開発された #オープンソース #形態素解析エンジンです。 "

MeCab

形態素解析

自然言語処理

OSS

Google

software

coding

api

FLOSS

Ubuntu日本語フォーラム
リンク
MeCab: Yet Another Part-of-Speech and Morphological Analyzer
MeCab に至るまでの形態素解析器開発の歴史等はこちらをご覧くださいメーリングリスト一般ユーザ向けメーリングリスト開発者向けメーリングリスト新着情報 2012-01-27 MeCab 0.993 MeCab::Tagger::formatNode()が正しく動いていなかった問題の修正スタックの消費を抑えるため、ほとんどのローカル変数(配列)をヒープ上に退避 2012-01-14 MeCab 0.992 ソースコード中のTypoの修正 2012-01-14 MeCab 0.991 空文字列もしくは空白文字列を解析した時に解析エラーとなる問題を修正ユーザ辞書の作成に失敗する場合がある問題を修正 2011-12-24 MeCab 0.99 MeCab::Model, MeCab::Lattice クラスを追加マルチスレッド環境でのユーザビリティの向上。複数スレッドが同一
Itisango 2013/02/01
" #MeCab は #京都大学情報学研究科− #日本電信電話株式会社コミュニケーション科学基礎研究所共同研究ユニットプロジェクトを通じて開発された #オープンソース #形態素解析エンジンです。 "

MeCab

形態素解析

自然言語処理

OSS

Google

software

coding

api

FLOSS

OpenSource
リンク
MeCab - Wikipedia
MeCabはオープンソースの形態素解析エンジンで、奈良先端科学技術大学院大学出身、現GoogleソフトウェアエンジニアでGoogle 日本語入力開発者の一人である工藤拓[1][2]によって開発されている。名称は開発者の好物「和布蕪（めかぶ）」から取られた。開発開始当初はChaSenを基にし、ChaSenTNGという名前で開発されていたが、現在はChaSenとは独立にスクラッチから開発されている。ChaSenに比べて解析精度は同程度で、解析速度は平均3-4倍速い。品詞情報を利用した解析・推定を行うことができる。MeCabで利用できる辞書はいくつかあるが、ChaSenと同様にIPA品詞体系で構築されたIPADICが一般的に用いられている。 MeCabはGoogleが公開した大規模日本語n-gramデータの作成にも使用された[3]。 Mac OS X v10.5及びv10.6のSpotlig
Itisango 2013/02/01
#MeCab は #オープンソースの #形態素解析エンジンで、奈良先端科学技術大学院大学出身、現 #Google ソフトウェアエンジニアでGoogle 日本語入力開発者の一人である #工藤拓によって開発されている。

MeCab

形態素解析

自然言語処理

ime

Wikipedia

opensource

OSS

FLOSS
リンク
なぜ「主人がオオアリクイに殺されて1年が過ぎました」なのか？ - あんちべ！
件名：主人がオオアリクイに殺されて1年が過ぎました。差出人：久光いきなりのメール失礼します。久光さやか、29歳の未亡人です。お互いのニーズに合致しそうだと思い、連絡してみました。自分のことを少し語ります。昨年の夏、わけあって主人を亡くしました。自分は…主人のことを…死ぬまで何も理解していなかったのがとても悔やまれます。主人はシンガポールに頻繁に旅行に向っていたのですが、それは遊びの為の旅行ではなかったのです。収入を得るために、私に内緒であんな危険な出稼ぎをしていたなんて。一年が経過して、ようやく主人の死から立ち直ってきました。ですが、お恥ずかしい話ですが、毎日の孤独な夜に、身体の火照りが止まらなくなる時間も増えてきました。主人の残した財産は莫大な額です。つまり、謝礼は幾らでも出きますので、私の性欲を満たして欲しいのです。お返事を頂けましたら、もっと詳
Itisango 2012/10/07
自然言語処理

spam

技術

メール

スパム

NLP

ネット

言語

ネタ

2012年
リンク
はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知
はてなグループの終了日を2020年1月31日(金)に決定しました以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記はてなグループ日記のエクスポートデータは2020年2月28
Itisango 2012/09/08
日本語

自然言語処理

英語

翻訳

人工知能

nlp

2010年
リンク
Rubyによる形態素解析エンジンokura 0.0.1をリリースしました - <s>gnarl,</s>技術メモ”’<marquee><textarea>￥
12月にさくさくテキストマイニングで発表したpure Rubyによる形態素解析エンジンをgem化しました｡まだ発展途上で機能が少なかったりパフォーマンスが悪かったりしますが､いちおう動くレベル*1になったので公開します｡注意事項バージョン0.0.xのうちは､インタフェースや辞書フォーマットは頻繁に変更される予定です｡ある程度安定したら0.1.0出します｡今のところ､Ruby1.9系専用です｡取得 gem install okuraでインストールできます｡ソースは https://github.com/todesking/okura 使い方 MeCabフォーマットの辞書データを使用します｡動作確認はMeCab用NAIST辞書で行いました｡最初にokura compileコマンドで辞書をコンパイルします $ okura compile mecab-naist-jdic-0.6
Itisango 2012/03/20
okura

Ruby

形態素解析

日本語

自然言語処理
リンク
「日本語入力を支える技術」本日発売！ #ステマ - nokunoの日記
Itisango 2012/02/08
IT

日本語入力

日本語

自然言語処理
リンク
テキストジェネレーター
出力に何か書くと入力をもとに何か出します．途中で止めたりできます．たとえば，ペンキと書くと何か出ます．入力は学習用のテキストなので，好きな文章をコピペしてきます． 1文字ずつにすると変な文章が出ます．入力一「おい地獄さぐんだで！」二人はデッキの手すりに寄りかかって、が背のびをしたように延びて、海をえ込んでいるの街を見ていた。――漁夫は指元まで吸いつくしたをと一緒に捨てた。巻煙草はおどけたように、色々にひっくりかえって、高いをすれずれに落ちて行った。彼は一杯酒臭かった。赤い太鼓腹を広く浮かばしている汽船や、積荷最中らしく海の中からをグイと引張られてでもいるように、思いッ切り片側に傾いているのや、黄色い、太い煙突、大きな鈴のようなヴイ、のように船と船の間をせわしく縫っているランチ、寒々とざわめいている油煙やパンや腐った果物の浮いている何か特別な織物のような波……。風の工合で煙が
Itisango 2011/10/16
nlp

日本語

自然言語処理

テキストジェネレータ
リンク
教師なし形態素解析を人間の単語分割基準に近づける - nokunoの日記
以前，latticelmで教師なし形態素解析を試して，人間の単語分割基準とは異なることを確認しました．教師なし形態素解析ライブラリlatticelmを使ってみた - nokunoの日記人間の単語分割基準に近づけるには半教師あり学習などの方法が考えられますが，ここでは既存の形態素解析器を使える簡単なやり方として，mecabで分かち書き済みのコーパスにlatticelmを適用してみることにしてみます．これは，1つの単語を1つの文字とみなして教師なし形態素解析を適用することに相当します．mecabのような形態素解析器は未知語に遭遇すると単漢字に分解してしまう傾向があるため，それをくっつけ直す効果が期待できると考えられます．というわけで，Wikipediaから1000文をmecabで分かち書きした結果をlatticelmにかけてみた結果がこちら．$ head out/samp.100 アンパサン
Itisango 2011/10/15
自然言語処理

形態素解析

日本語情報処理

日本語

情報処理
リンク
自然言語処理を活用したwebサービスをつくるときに参考になる5冊の書籍 - EchizenBlog-Zwei
自然言語処理を活用したwebサービス開発に関わって5年以上経った。いい機会なのでこれまでを振り返って役に立ったと思う5冊をメモしておく。 1.珠玉のプログラミング―本質を見抜いたアルゴリズムとデータ構造まずはこれ。有名な本なので知っている人も多いと思う。簡単に説明するとちょっと前に「フェルミ推定」という名前で流行ったような、データから必要な数値を概算する方法や、問題が起きたときに問題点がどこにあるのか？最小の労力で解決するにはどこをいじればよいのか？などが書いてある。「webサービスで自然言語処理だ！」というと無限に夢が広がりがちなので、どういうデータが使えるのか、それをどういう形にもっていけばイケてるサービスになるのか、それはどのくらいの期間で実現できるか、ということを考える必要がある。そういうわけで本書は真っ先に読むべき一冊なのでは(余談だけれど、以前M << Nなデータに対してO(
Itisango 2011/10/10
自然言語処理

言語

book

書評

本

web
リンク
1 2 3 次のページ