タグ

nlpに関するnhayatoのブックマーク (537)

  • Kylm - 京都言語モデルツールキット

    English これはJava実装の京都言語モデルツールキット(Kylm)のホームページです。 Kylmに以下のような機能が揃っています: 様々な言語モデルを比較するツール 文字ベースの未知語モデルを構築する機能 Kneser-Ney、Modified Kneser-Ney、Witten-Bell、Good-Turingなどの平滑化 OpenFstやKyfdなどで利用できるWFST形式での出力 ダウンロード 仕様 CountNgrams CrossEntropy FAQ 開発情報 ダウンロード・インストール 最新版: Kylm 0.0.7 ソースコードはgithubにて。 プログラム仕様 CountNgrams コーパスから平滑化されたn-gramモデルを構築するプログラムです。 使用例: java -cp kylm.jar kylm.main.CountNgrams training.t

    nhayato
    nhayato 2013/10/07
  • 文章の変換ミスや誤字脱字エラーをチェックしてくれるサービス「Enno」 | ライフハッカー・ジャパン

    「Enno」は日語のタイポ/変換ミス/誤字脱字エラーをチェックしてくれるサービスです。入力した日語の文章を解析、ミスを見つけてハイライト表示してくれます。長文を書いたあとに一度チェックしてみると、ミスに気付けるかと思います。 以下に使ってみた様子を載せておきます。まずEnnoへアクセスしましょう。チェックしたい文章を入れて解析にかけます。 こちらが検索結果です。黄色でハイライトされている部分が、エラーとして検出されました。詳しい説明は解析結果の下部に書かれています。 試しに、他にも文法ミスや変換ミスをたくさん混ぜましたが、検出されないものもありました。ただ、無駄なスペースを見つけたり、明らかな文法ミスは発見できそうです。ぜひ論文やメールなどで長文を書いたあとのチェックとしてご活用ください。 Enno (カメきち) Photo by Thinkstock/Getty Images.

    文章の変換ミスや誤字脱字エラーをチェックしてくれるサービス「Enno」 | ライフハッカー・ジャパン
    nhayato
    nhayato 2013/10/05
  • Language Log » On Interdisciplinary Collaboration and "Latent Personas"

    « previous post | next post » This is a guest post by David Bamman, in response to the post by Dan Garrette ("Computational linguistics and literary scholarship", 9/12/2013). The critique by Hannah Alpert-Abrams and Dan Garrette of our recent ACL paper ("Learning Latent Personas of Film Characters") and the ensuing discussion is raising interesting questions on the nature of interdisciplinary rese

    nhayato
    nhayato 2013/10/05
  • Google Code Archive - Long-term storage for Google Code Project Hosting.

    Code Archive Skip to content Google About Google Privacy Terms

    nhayato
    nhayato 2013/10/05
  • word2vec in yhat: Word vector similarity | Daniel Rodriguez

    A few weeks ago Google released some code to convert words to vectors called word2vec. The company I am currently working on does something similar and I was quite amazed by the performance and accuracy of Google's algorithm so I created a simple python wrapper to call the C code for training and read the training vectors into numpy arrays, you can check it out on pypi (word2vec). At the same time

    nhayato
    nhayato 2013/10/05
  • 論文感想: "Automatically Constructing a Normalisation Dictionary for Microblogs"(EMNLP-CoNLL 2012) - 唯物是真 @Scaled_Wurm

    "Automatically Constructing a Normalisation Dictionary for Microblogs" 概要 Twitterとかでの単語の正規化用の辞書を作る話。 例、2morw→tomorrow 手法 文脈類似度の似た、辞書にない単語(OOV)と辞書にある単語(IVのペア)を集める 集めたペアを文字列的な類似度でリランキング 一定の長さと頻度以上の単語のみを対象とする。 文脈類似度 ある単語が出てきた時に周りに出てくる単語。 これが似ている単語は意味が似ていると考えられる。 文脈類似度を測る時の設定 窓幅(単語の周りの何個までを文脈として考えるか) n-gramのnをいくつにするか インデックス: 文脈に相対的な位置情報をつけるか IV or All: IV だけを文脈に登場した単語としてみなすかどうか 品詞や構文的な情報は使っていない。 類似度の測

    論文感想: "Automatically Constructing a Normalisation Dictionary for Microblogs"(EMNLP-CoNLL 2012) - 唯物是真 @Scaled_Wurm
  • Japanese Parallel Data

    This is a list of data that can be used for creating machine translation systems to-from Japanese. It focuses on Japanese-English, but at the bottom there is info on data sets for Japanese aligned with other languages as well. If I am missing any data, please tell me! If you want a general purpose list of parallel texts, there are several others: 1 2 3. Japanese-English Parallel Corpora These corp

    nhayato
    nhayato 2013/10/02
  • 形態素解析システム相互接続ドライバモデル�及び�解析支援GUIツールの設計

    形態素解析システム相互接続ドライバモデル�及び�解析支援GUIツールの設計 98/12/14 ここをクリックして開始 目次 形態素解析システム相互接続ドライバモデル�及び�解析支援GUIツールの設計 形態素解析とは? 幅広い応用分野 PPT Slide 解析支援 GUI ツールの現状 ドライバモデルの必要性�(Morphological Analyzer Connectivity Driver-model) ドライバの要求仕様 ドライバモデルの実装 通信インフラに Java RMI を採用�(Remote Method Invocation) RMI 解説 その1 RMI 解説 その2 RMI 解説 その3 RMI 解説 その4 MACD-model の階層構造 Server Side Model Client Side Model 進捗状況 今後の予定 参考文献・URL 作成者 :松田

    nhayato
    nhayato 2013/10/01
  • 自然言語処理まわりのDeep Learningを自分なりにまとめてみた — KiyuHub

    自然言語処理まわりのDeep Learningを自分なりにまとめてみた “自然言語処理のためのDeep Learning”というスライドを公開しました. 自然言語処理のためのDeep Learning from Yuta Kikuchi カジュアルな感じで自然言語処理まわりのDeep Learningの話題をまとめた感じになっています. きっかけは,勉強会をしていることを知ったOBのbeatinaniwaさんにお願いされたことで, 株式会社Gunosyの勉強会の場で,発表の機会を頂きました. それが,9/11で,その後9/26に研究室内で同じ内容で発表しました. どちらも思った以上に好評を頂け,公開してはと進めて頂いたので,公開することにしました. もちろん間違いが含まれている可能性も多分にあるので.気づいた方はご指摘頂けると幸いです. 内容ざっくり 前半は,ニューラルネットワークを図を使

  • Deep Learning : Bengio先生のおすすめレシピ - a lonely miner

    先日,身内の勉強会(&ラボの勉強会)で,Deep Learningについてお話してきました.これまで興味がなさそうだったのに何故急に?というのはおいておいて. 紹介したのは,Deep Learningの第一人者のひとり, Yoshua Bengio先生自身が執筆された,以下の論文. Yoshua Bengio, Practical recommendations for gradient-based training of deep architectures, arXiv:1206.5533v2, 2012 どうやら書籍の草稿のようで,Bengio先生の長年の研究で得られたさまざまなノウハウ(最近の手法まで)がぎっしり詰め込まれています.すごい. 以前から気にはなりつつも,ちょっと分量が多い(30ページくらいある)ので,なかなか手を出すことができなかったのですが,ようやくヤル気が出てきた

    nhayato
    nhayato 2013/09/27
  • 100ninmap project

    "100ninmap project"とは、 1.ぷらぷらと街を歩いて、 2.その場で感じたことをスマートフォンで位置情報とともに発信し、 3.その情報を集めることで、みんなの「街の感じ方の地図」をつくろう という研究プロジェクトです。 街歩きにモバイル機器や自然言語処理などのICT技術を導入し、「位置情報付き自然言語データ」の収集および分析・活用を図るべく、京都大学で2013年にスタートしました。 現在は活動を全国に広げながら、イベント開催やスマートフォンアプリ開発を通じてプロジェクトを進めています。 News

    nhayato
    nhayato 2013/09/27
  • 人々の語彙を調べるサービスを作った | 774::Blog

    ひとでくんさんという人の日記によると、近年、若者の語彙が貧弱になって、便利とか最高みたいな言葉しか発しなくなっているとのことである。そこで、人々の語彙を調査するウェブサービスを作った。 語彙抽出器 http://vocabulary.id774.net/vocabulary/ 「スクリーンネーム」に Twitter の名前を入れて送信すると、その人の語彙がよく使う順に一覧表示される。 たとえば上の日記を書いている hitode909 さんの語彙を調べてみよう。上記サービスのスクリーンネーム欄に hitode909 と入力し送信する。すると彼が使う語彙が一覧表示され、最高または便利という単語のみ赤く強調表示される。よく見ると便利という単語はよく使われているようだが、最高という単語のほうはそれほどでもないようだ。 他の人はどうだろうと今度は fuba という人の語彙を調べてみた。すると最高も便

    nhayato
    nhayato 2013/09/25
  • 極大部分文字列を使った twitter 言語判定(中谷 NLP2012) - 木曜不足

    来たる 3/13〜16 に広島で行われる言語処理学会年次大会(NLP2012)にて発表する「極大部分文字列を使った twitter 言語判定」の論文を公開。 中谷 秀洋, 極大部分文字列を使った twitter 言語判定, 言語処理学会第18年次大会, 2012 http://ivoca.31tools.com/misc/nlp2012_nakatani.pdf 【注】 言語処理学会の公開規定が「大会での発表後」であったため、一旦公開を取り下げていましたが、発表終了したので再公開しました。 http://www.anlp.jp/rules/repository.html 【/注】 第8回 TokyoNLP で発表した「∞-gram を使った短文言語判定」と基線は同じ。ただしその発表の時にお約束していたとおり、17言語の判定精度で 99.1% を達成している。99% 越えは作り始める前から

    極大部分文字列を使った twitter 言語判定(中谷 NLP2012) - 木曜不足
  • Sign in - Google Accounts

    Sign in - Google Accounts
    nhayato
    nhayato 2013/09/24
  • 形態素解析辞書UniDicを使おう - 次世代3Dコンテントパイプライン開発室

    形態素解析辞書として広く使われているIPA辞書ですが、いわゆる口語(話し言葉)を解析対象とするなら、UniDicがお勧めです。いきなり実例ですが、以下の感想文。 ここのケーキは、けた外れに美味しかったヽ(´ー`)ノ IPA辞書ではこうなっちゃうのが↓ * 0 1D 0/1 1.380119 ここ 名詞,代名詞,一般,*,*,*,ここ,ココ,ココ O の 助詞,連体化,*,*,*,*,の,ノ,ノ O * 1 4D 0/1 0.000000 ケーキ 名詞,一般,*,*,*,*,ケーキ,ケーキ,ケーキ O は 助詞,係助詞,*,*,*,*,は,ハ,ワ O 、 記号,読点,*,*,*,*,、,、,、 O * 2 3D 1/2 1.538769 けた 名詞,接尾,助数詞,*,*,*,けた,ケタ,ケタ O 外れ 名詞,一般,*,*,*,*,外れ,ハズレ,ハズレ O に 助詞,格助詞,一般,*,*,*,

    形態素解析辞書UniDicを使おう - 次世代3Dコンテントパイプライン開発室
    nhayato
    nhayato 2013/09/24
  • takayanの雑記帳: さらにUnidicを使って、日本語にアクセントをつけてみる

    プログラミングとか、見た番組とか、興味を持っていろいろ調べてみたこととか、そういうものを書き留めるためのもの MBROLAについてのエントリーを書こうと思っていたのですが、Unidicを使ったらどうなるだろうかと好奇心が沸いてしまって、前回作った mmtts.py を修正して使えるようにしてみました。 Unidic というのは、ChaSen や MeCab で使える 形態素解析辞書です。無料でダウンロードして使えるのですが、再配布は不可です。 http://www.tokuteicorpus.jp/dist/ Unidicは、国立国語研究所で規定した「短単位」という揺れがない斉一な単位で設計されているという特徴を持ちますが、今回興味を持ったのはアクセントや音変化の情報が付加されていることです。この情報はGalateaTalkでも利用されているようです。そういうことを知ると、前回作った棒読み

    takayanの雑記帳: さらにUnidicを使って、日本語にアクセントをつけてみる
    nhayato
    nhayato 2013/09/24
  • 形態素解析 - Wikipedia

    形態素解析(けいたいそかいせき、Morphological Analysis)とは、文法的な情報の注記の無い自然言語のテキストデータ(文)から、対象言語の文法や、辞書と呼ばれる単語の品詞等の情報にもとづき、形態素(Morpheme, おおまかにいえば、言語で意味を持つ最小単位)の列に分割し、それぞれの形態素の品詞等を判別する作業である。 自然言語処理の分野における主要なテーマのひとつであり、機械翻訳やかな漢字変換など応用も多い(もちろん、かな漢字変換の場合は入力が通常の文と異なり全てひらがなであり、その先に続く文章もその時点では存在しないなどの理由で、内容は機械翻訳の場合とは異なったものになる)。 もっぱら言語学的な観点を主として言語学で研究されている文法にもとづく解析もあれば、コンピュータ上の自然言語処理としてコンピュータでの扱いやすさに主眼を置いた解析もある。以下は後者のためのツールを

    形態素解析 - Wikipedia
    nhayato
    nhayato 2013/09/24
  • 授業資料/形態素解析 - OGI-Wiki

    形態素解析とは† どんなものか デモ: Web茶まめ (MeCab + UniDic) https://chamame.ninjal.ac.jp/ 日語の自然言語処理の基礎技術 今ではかなり枯れた技術 機械学習による言語処理のはしり 形態素解析の解析単位は言語学で言う「形態素」ではないことに注意 「形態素解析」= "Morphological analysis" morphologicalな(形態論上の)単位は形態素だけではない(訳語に問題がある) 日語の形態素解析の単位は一般に「語」(語をどう定義するかという問題は残る) 形態素解析の仕組み 生起コストと連接コスト その語はどれくらい出てくるか、どんな語とつながりやすいか コーパスから統計的に取得(機械学習) 経路の選択(参考:ビタビアルゴリズム) ↑ 形態素解析用ソフトウェア† 以前から使われているソフトウェア 形態素解析器(解析エ

    nhayato
    nhayato 2013/09/24
  • 河南快三预测-在线投注平台

    通讯地址:贵州省安顺市开发区学院路25号  邮编:561000 Copyright © 2012-2014 黔ICP09002237号 版权所有: 体彩排列5走势图 电话:0851-32214230  传真:0851-32214631  网络管理员 E-mail: 体彩排列5走势图

    nhayato
    nhayato 2013/09/24
  • GitHub - tarowatanabe/expgram: expgram: an ngram toolkit with succinct storage

    expgram is an ngram toolkit which can efficiently handle large ngram data: A succinct data structure for compactly represent ngram data [1]. Among ngram compression methods mentioned in [1], we do not implement block-wise compression (or zlib every 8k-byte) for computational efficiency reason. Language model is estimated by MapReduce proposed by [2] using pthread and/or MPI. Better rest cost estim

    GitHub - tarowatanabe/expgram: expgram: an ngram toolkit with succinct storage
    nhayato
    nhayato 2013/09/24