Code Archive Skip to content Google About Google Privacy Terms
We propose a new benchmark corpus to be used for measuring progress in statistical language modeling. With almost one billion words of training data, we hope this benchmark will be useful to quickly evaluate novel language modeling techniques, and to compare their contribution when combined with other advanced techniques. We show performance of several well-known types of language models, with the
chapas-0.742.tar.gz (全ファイル, size: 1.13GB)ChaPASはフリーソフトウェアです。修正BSDライセンスに従って利用または再配布することができます。ただし、付属のモデルファイル(models以下)、解析に利用している京都大学格フレームver1.0 (resources/kucf以下)、ALAGIN文脈類似語データベース付属の確率的クラスタリングの結果データ(resources/sw以下)、大規模コーパスから得られた確率的クラスタリングの結果データ(resources/ncv以下)はこのライセンスには含まれません。 モデルファイルは、ipa品詞体系のデータで学習したものです。 確率的クラスタリングの結果データは、オリジナルから30%以上改変したものです。 chapas-models.tar.bz2 (学習済みモデルファイルのみ, size: 125MB)c
人工知能のクイズ王、APIが一般公開。あらゆるデベロッパーから利用可能に2013.11.18 21:00 福田ミホ ショッピングサイトでお買い物を手伝ってもらったり、など。 IBMが開発した人工知能のワトソンは、米国のクイズ番組で人間のクイズ王に勝利しただけじゃなく、お医者さんのサポートしたりパティシエになったり、いろんな仕事をこなしてきました。そして今彼は、頼まれた仕事は誰からでも、どんな分野でも引き受けてしまおうとしています。IBMがワトソンをクラウドに載せて一般公開しようとしているんです。 IBMが、2014年にワトソンを一般のデベロッパーに公開することを発表しました。そこでは新しいオープンなAPIが使われ、デベロッパーがワトソンの自然言語処理能力を直接使うコードを書けるようになる予定です。デベロッパーからワトソン君に自然言語で質問の文字列を送ると、リアルタイムで回答を得られる仕組み
⾃ࠞ然⾔ࢠ語処理ྞ分野における ディープラーニングの現状 渡邉 ̀陽太郎ྒ 東北ྖ⼤֒学⼤֒学院情報科学研究科 IBIS2013 企画セッション2:ディープラーニング 2013/11/12 NLPにおけるディープラーニング 2 ⾔ࢠ語モデル の構築 ⾔ࢠ語の構成性 のモデル化 構成的意味論ྔ ⾔ࢠ語解析 (構造予測) Recursive Neural Networks Autoencoders (Socher et al., 2011, 2012, 2013) RBM (Minh and Hinton 2007) Feed-forward Deep NN (Bengio et al., 2003, Arisoy et al., 2012) Recurrent NN (Mikolov et al., 2010) (Wang and Manning 2013) (Mansur et al.,
"ビジネスでもほとんど使われていない最新の統計モデル"とかいう謎なレッテルをはられてしまったことで話題の隠れマルコフモデル(Hidden Markov Model)を実装した。 NLPでのHMMは教師ありデータに対して使う場合が多いが、完全に品詞がわかっている場合はCRFとか使ったほうが良い。なので隠れ状態が本当に隠れている場合のHMMはあまりNLPで使う機会がない。 というわけで隠れ状態をEMで推測する本当のHMMを実装した。HMMの実装で力尽きたのでスケーリングとかViterbiとかはサボっていてまだやっていない(ので長い系列を入れると確率がやばい感じになるし、系列の推定部分は適当)。 https://github.com/echizentm/HiddenMarkovModel $$ cat sample.txt She is Kazumi . She is Alice . : n v
本発表では Perl と自然言語処理技術を使った日本語を含むデータのクリーニングや、データの質を高める運用ルールについて、例を挙げつつお話いたします。 きれいで無駄が少なく便利なデータをゼロから、または、既存のデータから作り、さらにそれを維持するためには多くの人件費がかかります。 そして、その人件費はソフトウェアと自然言語処理技術により人間の作業をサポートすることや、運用時のルール作りを工夫することで少なからず削減できます。 本発表でお話する内容を理解するのに必要な Perl や自然言語処理関連の知識はありません。事前にお手元のアプリケーションで使われている"きれいにしたいデータ"を見つけてから本発表をお聞きいただけると、より円滑に内容を理解できると思います。
テキストデータの言語的な特徴を知りたい場合、そのデータを使ってNgram統計を取ることがよくある。Ngram統計というのはテキスト中の連続したN文字それぞれが何回出現したかの統計をとること。 といわれてもピンとこない人もいるかも知れない。実例を見るのが早いので当ブログの昨年12月の記事タイトルを使ってNgram統計を取ってみる。 まず記事タイトルを一行一列でテキストファイルに書き出す。 $$ cat blog-title.txt 「PIANO OPERA FINAL FANTASY I/II/III」がとても気になる そっくりヒロインなラノベ「おおコウスケよ、えらべないとはなさけない!」を読みました PSP「探偵オペラ ミルキィホームズ1.5」第5話(最終話)だよ? 簡潔ビットベクトル性能評価実験のソースコード(rx-trie編) 簡潔ビットベクトル性能評価実験のソースコード(ux-tri
機械学習の3大有名手法といえばSVM、CRF、LDAではないだろうか(と勝手に思っている)。 SVM(Support Vector Machine)については以前記事を書いたので今回はCRF(Conditional Random Fields)について書いてみたい。 機械学習超入門IV 〜SVM(サポートベクターマシン)だって30分で作れちゃう☆〜 - EchizenBlog-Zwei といっても今回はさくっと読んでもらうのを目的にしているので手法の具体的な解説は行わない。具体的な部分は@uchumik氏の資料がとても詳しい。 uchiumi log: 間違ってるかもしれないCRFの説明 また、実装方法については高村本(言語処理のための機械学習入門)がとても詳しい。 さて、具体的な解説をしないなら何をするの?ということだが、今回はそもそもCRFとは何かという話をする。過去の経験上この、そも
第7回自然言語処理勉強会で文書要約に関するお話をさせていただきました。その際に用いましたスライドを公開します。今回は入門編(初級編)なので、そのうち中級編をやるかもしれません。 Introduction to Automatic Summarization View more presentations from Hitoshi NISHIKAWA 毎回、スライドのレイアウトがおかしくなっていましたが、今回はpdfに変換してアップロードしました。こうすれば良かったのですね。今回はレイアウトが乱れていないはずです。過去のスライドもpdf化してアップロードしなおすつもりです。 次はグーグルによるザガットサーベイ買収の話か、NLP若手の会第6回シンポジウムの話を書きます。
先日まで勉強のためにerika-trieというLOUDSを用いたトライ木を作っていた。ある程度考えがまとまったので実用版を作り始めた。 erika-trie(実用版)はmarisa-trieやtx/ux/rx等と同等の操作を備えたトライ木。またerika-trieを用いてテキストからキーワードを高速に抽出するためのツールerika_extractが付属している。 DSIRNLP#1で発表しました「TRIEにトライ!〜今日からはじめるTRIE入門〜」 - EchizenBlog-Zwei 海風に揺れる一輪のTRIEライブラリ erikaを作ってみたよ - EchizenBlog-Zwei erika-trie: succinct trie library - Google Project Hosting はじめに。なんとなくツールをerika-trieにしたのだが、意味のない名前というのもア
ACL HLT 2011 の3日目の最初は認知言語学に関するHow do the languages we speak shape the ways we think? という基調講演。時間、性(ドイツ語やフランス語で女性名詞や男性名詞がある)、因果関係に関していろんな言語でどのように表現され、それが人間の認識にどのように影響を与えているか、というトーク。おもしろい。 たとえば、時間軸の過去と現在を前後と言う(思う)か上下と言うかは言語によって違い、たとえば日本語では「6月下旬」は6月の先の時間(未来)を指すが、英語では上下でなく前後で表現したり(たとえば "back in '90s" のように過去を指す)、アイマラ語は前後でも過去が前で未来が後ろだったりとか。 それで、言語が認識に影響を与えるかの調査の実験として、英語と中国語のバイリンガルに対し、「月曜日と火曜日がどのように位置関係にな
まだ生きてます。 ここしばらくはちと研究のまねごとなどを会社でしている事もあって、あんまりブログに書ける事も無い日々です。 とりあえず対外的に問題ない範囲だと、去年の11月にACMLという会議でポスター発表をしてみました。 ポスターはアブストの提出だけだったのですが、参考文献が後で見直したら壊れていたという大失敗。 後、同じ11月にNL研でクエリの訂正手法についての発表をしてきました。 広島のお好み焼きはおいしかったです。 あと、 NetWalker を活用するべくいくつか実装したものもあるのですが、そちらはまだしばらく非公開。 とりあえず生存報告はこんな所。 最近忙しいですが何となく以前よりは楽しく過ごせている気がします。 で、久しぶりに書いた記事がこれで終わりというのもなんなので、近々 TokyoNLP で発表しようかなと思っている CRF の素性テンプレート周りの話に関連して少々追記
というわけで、第2回さくさくテキストマイニング勉強会にさくさく参加してきました。会場は前回に引き続きオラクルさん、の大会議室。200人入るらしい。節電中にも関わらず変わらずに無償のドリンクをご提供頂きありがとうございます(そこか。 言語処理学会へ遊びに行ったよ! 〜不自然言語処理へのお誘い〜 by @AntiBayesianさん 自己紹介 発表の目的 学会で得た実務に使えそうな内容を紹介 不自然言語処理へのお誘い 学会へ遊びに行こう! 学会に行けば、最新の情報がわんさか手に入る! 仕事してもらったり仕事もらったり 必ずチェックすべき10のブログ(易しい順) id:langstat, id:a_bicky, id:sleepy_yoshi, id:echizen_tm, id:overlast, id:isseing333, id:phosphor_m, id:nokuno, id:mick
というわけで、第5回自然言語処理勉強会を開催します!第5回 自然言語処理勉強会 #TokyoNLP : ATND参加登録は上記ATNDからお願いします。 概要自然言語処理(Natural Language Processing, NLP)に関する勉強会です。理論と実践の両面から深く学び、発表と議論を通じて共有していくことを目的としています。 発表内容第5回の発表内容です。今回もいつも通り濃い内容となっております。気合を入れて勉強しましょう! 発表者 発表タイトル @machyさん n-gramを小さくする話を調べてみた @tsubosakaさん Infer.NETを使ってLDAを実装してみた @sleepy_yoshiさん パーセプトロンで楽しい仲間がぽぽぽぽーん @shuyoさん はじめての生成文法@nokuno スペル訂正エンジンについてのサーベイ 参加条件連絡のため、Googleグル
2011/11/8-13にタイのチェンマイで開催される、アジア最大の自然言語処理に関する国際会議「IJCNLP」において、テキスト入力のワークショップが行われます。IJCNLP2011 The 5th International Joint Conference on Natural Language Processing - Front Workshop on Advances in Text Input Methodsというわけでワークショップの情報を翻訳してみました。 論文募集(投稿締切:2011年6月17日)テキスト入力の技術は新しい時代に入りました。母国語の文字を直接タイプして入力できない地域では、コンピュータやモバイルデバイスを利用する人が急増しています。またキーボード以外の方法、例えば音声認識や手書き認識によってテキストを入力することも徐々に一般的になってきました。キーボード
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く