[B! nlp] [8ページ] nhayatoのブックマーク

Kylm - 京都言語モデルツールキット

English これはJava実装の京都言語モデルツールキット（Kylm）のホームページです。 Kylmに以下のような機能が揃っています：様々な言語モデルを比較するツール文字ベースの未知語モデルを構築する機能 Kneser-Ney、Modified Kneser-Ney、Witten-Bell、Good-Turingなどの平滑化 OpenFstやKyfdなどで利用できるWFST形式での出力ダウンロード仕様 CountNgrams CrossEntropy FAQ 開発情報ダウンロード・インストール最新版： Kylm 0.0.7 ソースコードはgithubにて。プログラム仕様 CountNgrams コーパスから平滑化されたn-gramモデルを構築するプログラムです。使用例： java -cp kylm.jar kylm.main.CountNgrams training.t

nhayato 2013/10/07

nlp

リンク

文章の変換ミスや誤字脱字エラーをチェックしてくれるサービス「Enno」 | ライフハッカー・ジャパン

「Enno」は日本語のタイポ／変換ミス／誤字脱字エラーをチェックしてくれるサービスです。入力した日本語の文章を解析、ミスを見つけてハイライト表示してくれます。長文を書いたあとに一度チェックしてみると、ミスに気付けるかと思います。以下に使ってみた様子を載せておきます。まずEnnoへアクセスしましょう。チェックしたい文章を入れて解析にかけます。こちらが検索結果です。黄色でハイライトされている部分が、エラーとして検出されました。詳しい説明は解析結果の下部に書かれています。試しに、他にも文法ミスや変換ミスをたくさん混ぜましたが、検出されないものもありました。ただ、無駄なスペースを見つけたり、明らかな文法ミスは発見できそうです。ぜひ論文やメールなどで長文を書いたあとのチェックとしてご活用ください。 Enno （カメきち） Photo by Thinkstock/Getty Images.

nhayato 2013/10/05

nlp

リンク

Language Log » On Interdisciplinary Collaboration and "Latent Personas"

« previous post | next post » This is a guest post by David Bamman, in response to the post by Dan Garrette ("Computational linguistics and literary scholarship", 9/12/2013). The critique by Hannah Alpert-Abrams and Dan Garrette of our recent ACL paper ("Learning Latent Personas of Film Characters") and the ensuing discussion is raising interesting questions on the nature of interdisciplinary rese

nhayato 2013/10/05

nlp

リンク

Google Code Archive - Long-term storage for Google Code Project Hosting.

Code Archive Skip to content Google About Google Privacy Terms

nhayato 2013/10/05

nlp

リンク

word2vec in yhat: Word vector similarity | Daniel Rodriguez

A few weeks ago Google released some code to convert words to vectors called word2vec. The company I am currently working on does something similar and I was quite amazed by the performance and accuracy of Google's algorithm so I created a simple python wrapper to call the C code for training and read the training vectors into numpy arrays, you can check it out on pypi (word2vec). At the same time

nhayato 2013/10/05

nlp

リンク

論文感想: "Automatically Constructing a Normalisation Dictionary for Microblogs"(EMNLP-CoNLL 2012) - 唯物是真 @Scaled_Wurm

"Automatically Constructing a Normalisation Dictionary for Microblogs" 概要 Twitterとかでの単語の正規化用の辞書を作る話。例、2morw→tomorrow 手法文脈類似度の似た、辞書にない単語(OOV)と辞書にある単語(IVのペア)を集める集めたペアを文字列的な類似度でリランキング一定の長さと頻度以上の単語のみを対象とする。文脈類似度ある単語が出てきた時に周りに出てくる単語。これが似ている単語は意味が似ていると考えられる。文脈類似度を測る時の設定窓幅(単語の周りの何個までを文脈として考えるか) n-gramのnをいくつにするかインデックス: 文脈に相対的な位置情報をつけるか IV or All: IV だけを文脈に登場した単語としてみなすかどうか品詞や構文的な情報は使っていない。類似度の測

nhayato 2013/10/04

nlp
twitter

リンク

Japanese Parallel Data

This is a list of data that can be used for creating machine translation systems to-from Japanese. It focuses on Japanese-English, but at the bottom there is info on data sets for Japanese aligned with other languages as well. If I am missing any data, please tell me! If you want a general purpose list of parallel texts, there are several others: 1 2 3. Japanese-English Parallel Corpora These corp

nhayato 2013/10/02

nlp

リンク

形態素解析システム相互接続ドライバモデル�及び�解析支援GUIツールの設計

形態素解析システム相互接続ドライバモデル�及び�解析支援GUIツールの設計 98/12/14 ここをｸﾘｯｸして開始目次形態素解析システム相互接続ドライバモデル�及び�解析支援GUIツールの設計形態素解析とは？幅広い応用分野 PPT Slide 解析支援 GUI ツールの現状ドライバモデルの必要性�(Morphological Analyzer Connectivity Driver-model) ドライバの要求仕様ドライバモデルの実装通信インフラに Java RMI を採用�(Remote Method Invocation) RMI 解説　その１ RMI 解説　その２ RMI 解説　その３ RMI 解説　その４ MACD-model の階層構造 Server Side Model Client Side Model 進捗状況今後の予定参考文献・URL 作成者 :松田

nhayato 2013/10/01

nlp

リンク

自然言語処理まわりのDeep Learningを自分なりにまとめてみた — KiyuHub

自然言語処理まわりのDeep Learningを自分なりにまとめてみた “自然言語処理のためのDeep Learning”というスライドを公開しました．自然言語処理のためのDeep Learning from Yuta Kikuchi カジュアルな感じで自然言語処理まわりのDeep Learningの話題をまとめた感じになっています．きっかけは，勉強会をしていることを知ったOBのbeatinaniwaさんにお願いされたことで，株式会社Gunosyの勉強会の場で，発表の機会を頂きました．それが，9/11で，その後9/26に研究室内で同じ内容で発表しました．どちらも思った以上に好評を頂け，公開してはと進めて頂いたので，公開することにしました．もちろん間違いが含まれている可能性も多分にあるので．気づいた方はご指摘頂けると幸いです．内容ざっくり前半は，ニューラルネットワークを図を使

nhayato 2013/09/30

リンク

Deep Learning : Bengio先生のおすすめレシピ - a lonely miner

先日，身内の勉強会(&ラボの勉強会)で，Deep Learningについてお話してきました．これまで興味がなさそうだったのに何故急に？というのはおいておいて．紹介したのは，Deep Learningの第一人者のひとり， Yoshua Bengio先生自身が執筆された，以下の論文． Yoshua Bengio, Practical recommendations for gradient-based training of deep architectures, arXiv:1206.5533v2, 2012 どうやら書籍の草稿のようで，Bengio先生の長年の研究で得られたさまざまなノウハウ(最近の手法まで)がぎっしり詰め込まれています．すごい．以前から気にはなりつつも，ちょっと分量が多い(30ページくらいある)ので，なかなか手を出すことができなかったのですが，ようやくヤル気が出てきた

nhayato 2013/09/27

nlp

リンク

100ninmap project

"100ninmap project"とは、１．ぷらぷらと街を歩いて、２．その場で感じたことをスマートフォンで位置情報とともに発信し、３．その情報を集めることで、みんなの「街の感じ方の地図」をつくろうという研究プロジェクトです。街歩きにモバイル機器や自然言語処理などのICT技術を導入し、「位置情報付き自然言語データ」の収集および分析・活用を図るべく、京都大学で2013年にスタートしました。現在は活動を全国に広げながら、イベント開催やスマートフォンアプリ開発を通じてプロジェクトを進めています。 News

nhayato 2013/09/27

nlp

リンク

人々の語彙を調べるサービスを作った | 774::Blog

ひとでくんさんという人の日記によると、近年、若者の語彙が貧弱になって、便利とか最高みたいな言葉しか発しなくなっているとのことである。そこで、人々の語彙を調査するウェブサービスを作った。語彙抽出器 http://vocabulary.id774.net/vocabulary/ 「スクリーンネーム」に Twitter の名前を入れて送信すると、その人の語彙がよく使う順に一覧表示される。たとえば上の日記を書いている hitode909 さんの語彙を調べてみよう。上記サービスのスクリーンネーム欄に hitode909 と入力し送信する。すると彼が使う語彙が一覧表示され、最高または便利という単語のみ赤く強調表示される。よく見ると便利という単語はよく使われているようだが、最高という単語のほうはそれほどでもないようだ。他の人はどうだろうと今度は fuba という人の語彙を調べてみた。すると最高も便

nhayato 2013/09/25

nlp

リンク

極大部分文字列を使った twitter 言語判定(中谷 NLP2012) - 木曜不足

来たる 3/13〜16 に広島で行われる言語処理学会年次大会(NLP2012)にて発表する「極大部分文字列を使った twitter 言語判定」の論文を公開。中谷秀洋, 極大部分文字列を使った twitter 言語判定, 言語処理学会第18年次大会, 2012 http://ivoca.31tools.com/misc/nlp2012_nakatani.pdf 【注】言語処理学会の公開規定が「大会での発表後」であったため、一旦公開を取り下げていましたが、発表終了したので再公開しました。 http://www.anlp.jp/rules/repository.html 【／注】第8回 TokyoNLP で発表した「∞-gram を使った短文言語判定」と基本線は同じ。ただしその発表の時にお約束していたとおり、17言語の判定精度で 99.1% を達成している。99% 越えは作り始める前から

nhayato 2013/09/24

twitter
nlp

リンク

Sign in - Google Accounts

nhayato 2013/09/24

nlp

リンク

形態素解析辞書UniDicを使おう - 次世代3Dコンテントパイプライン開発室

形態素解析辞書として広く使われているIPA辞書ですが、いわゆる口語（話し言葉）を解析対象とするなら、UniDicがお勧めです。いきなり実例ですが、以下の感想文。ここのケーキは、けた外れに美味しかったヽ（´ー｀）ノ IPA辞書ではこうなっちゃうのが↓ * 0 1D 0/1 1.380119 ここ名詞,代名詞,一般,*,*,*,ここ,ココ,ココ O の助詞,連体化,*,*,*,*,の,ノ,ノ O * 1 4D 0/1 0.000000 ケーキ名詞,一般,*,*,*,*,ケーキ,ケーキ,ケーキ O は助詞,係助詞,*,*,*,*,は,ハ,ワ O 、記号,読点,*,*,*,*,、,、,、 O * 2 3D 1/2 1.538769 けた名詞,接尾,助数詞,*,*,*,けた,ケタ,ケタ O 外れ名詞,一般,*,*,*,*,外れ,ハズレ,ハズレ O に助詞,格助詞,一般,*,*,*,

nhayato 2013/09/24

nlp

リンク

takayanの雑記帳: さらにUnidicを使って、日本語にアクセントをつけてみる

プログラミングとか、見た番組とか、興味を持っていろいろ調べてみたこととか、そういうものを書き留めるためのもの MBROLAについてのエントリーを書こうと思っていたのですが、Unidicを使ったらどうなるだろうかと好奇心が沸いてしまって、前回作った mmtts.py を修正して使えるようにしてみました。 Unidic というのは、ChaSen や MeCab で使える形態素解析辞書です。無料でダウンロードして使えるのですが、再配布は不可です。 http://www.tokuteicorpus.jp/dist/ Unidicは、国立国語研究所で規定した「短単位」という揺れがない斉一な単位で設計されているという特徴を持ちますが、今回興味を持ったのはアクセントや音変化の情報が付加されていることです。この情報はGalateaTalkでも利用されているようです。そういうことを知ると、前回作った棒読み

nhayato 2013/09/24

nlp

リンク

形態素解析 - Wikipedia

形態素解析（けいたいそかいせき、Morphological Analysis）とは、文法的な情報の注記の無い自然言語のテキストデータ（文）から、対象言語の文法や、辞書と呼ばれる単語の品詞等の情報にもとづき、形態素（Morpheme, おおまかにいえば、言語で意味を持つ最小単位）の列に分割し、それぞれの形態素の品詞等を判別する作業である。自然言語処理の分野における主要なテーマのひとつであり、機械翻訳やかな漢字変換など応用も多い（もちろん、かな漢字変換の場合は入力が通常の文と異なり全てひらがなであり、その先に続く文章もその時点では存在しないなどの理由で、内容は機械翻訳の場合とは異なったものになる）。もっぱら言語学的な観点を主として言語学で研究されている文法にもとづく解析もあれば、コンピュータ上の自然言語処理としてコンピュータでの扱いやすさに主眼を置いた解析もある。以下は後者のためのツールを

nhayato 2013/09/24

nlp

リンク

授業資料/形態素解析 - OGI-Wiki

形態素解析とは† どんなものかデモ: Web茶まめ　(MeCab + UniDic） https://chamame.ninjal.ac.jp/ 日本語の自然言語処理の基礎技術今ではかなり枯れた技術機械学習による言語処理のはしり形態素解析の解析単位は言語学で言う「形態素」ではないことに注意「形態素解析」= "Morphological analysis" morphologicalな（形態論上の）単位は形態素だけではない（訳語に問題がある）日本語の形態素解析の単位は一般に「語」（語をどう定義するかという問題は残る）形態素解析の仕組み生起コストと連接コストその語はどれくらい出てくるか、どんな語とつながりやすいかコーパスから統計的に取得（機械学習）経路の選択（参考：ビタビアルゴリズム） ↑ 形態素解析用ソフトウェア† 以前から使われているソフトウェア形態素解析器（解析エ

nhayato 2013/09/24

nlp

リンク

河南快三预测-在线投注平台

nhayato 2013/09/24

nlp

リンク

GitHub - tarowatanabe/expgram: expgram: an ngram toolkit with succinct storage

expgram is an ngram toolkit which can efficiently handle large ngram data: A succinct data structure for compactly represent ngram data [1]. Among ngram compression methods mentioned in [1], we do not implement block-wise compression (or zlib every 8k-byte) for computational efficiency reason. Language model is estimated by MapReduce proposed by [2] using pthread and/or MPI. Better rest cost estim

nhayato 2013/09/24

nlp

リンク

はてなブックマーク

タグ

関連タグで絞り込む (37)

nlpに関するnhayatoのブックマーク (537)

お知らせ

月間はてなブックマーク数ランキング（2024年9月）

今週のはてなブックマーク数ランキング（2024年9月第5週）

今週のはてなブックマーク数ランキング（2024年9月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス