タグ

nlpに関するccoのブックマーク (16)

  • Deep Learning for NLP - NAACL 2013 Tutorial

    Deep Learning for Natural Language Processing (without Magic) A tutorial given at NAACL HLT 2013. Based on an earlier tutorial given at ACL 2012 by Richard Socher, Yoshua Bengio, and Christopher Manning. By Richard Socher and Christopher Manning Slides NAACL2013-Socher-Manning-DeepLearning.pdf (24MB) - 205 slides. Abstract Machine learning is everywhere in today's NLP, but by and large machine lea

    cco
    cco 2015/12/19
  • 「高速文字列解析の世界」を読む前に知っておくと良いこと - EchizenBlog-Zwei

    「高速文字列解析の世界」という大変すばらしいが発売された。わりと敷居が高いではあるので読む前に知っておくとよさそうなことを書いておく。 「高速文字列解析」とは 書でいう高速文字列解析というのは主に2つのことを指している。ひとつはデータを圧縮して小さくしてディスクよりメモリ、メモリよりキャッシュというようにより高速な記憶装置で扱いましょう、という話。もうひとつはデータ構造を工夫することで複雑な操作もそこそこ高速に扱えますよ、という話。つまり「圧縮」の話と「効率的なデータ構造」の話があると考えておくと良い。 キーワードは3つ オビにも書いてあるけれど、書が主に扱うのは「BWT」「簡潔データ構造」「ウェーブレット木」の3つ。具体的には「BWT」が「圧縮」に関わっていて「ウェーブレット木」が「効率的なデータ構造」に関わっている。「簡潔データ構造」は基的な道具として書の色々なところで出て

    「高速文字列解析の世界」を読む前に知っておくと良いこと - EchizenBlog-Zwei
    cco
    cco 2014/03/29
  • どの言語でつぶやかれたのか、機械が知る方法

    8. スパムフィルタ • 「スパムっぽい単語」があると スパム確率up • フィルタは言語ごとに必要 無料 バイアグラ オオアリクイ : free mastercard account : 日語用フィルタ 英語用フィルタ ※ベイジアンフィルタなどを利用したモデルの場合。 他にルールベース(ホワイト&ブラックリスト)のアプローチなどもあります 12 9. 言語判定とは • 入力テキストの記述言語を推定 – Time fries like arrow → 英語 – Buona sera! → イタリア語 • 多くの言語処理での前提タスク – 言語モデルは言語ごとに構築 – 検索、分類、抽出、翻訳、…… • 言語判定を間違えると、後も全部こける! 13 10. ニューステキストに対する言語判定 (後述する langdetect による評価) af ar bg bn cs da de el en

    どの言語でつぶやかれたのか、機械が知る方法
    cco
    cco 2013/11/28
    言語判定 / "なぜか日本だけ「ちょwwwwwおまwwwwww」"
  • GitHub - saffsd/langid.py: Stand-alone language identification system

    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

    GitHub - saffsd/langid.py: Stand-alone language identification system
    cco
    cco 2013/11/28
    言語判定
  • 自然言語処理分野における ディープラーニングの現状

    ⾃ࠞ然⾔ࢠ語処理ྞ分野における ディープラーニングの現状 渡邉 ̀陽太郎ྒ 東北ྖ⼤֒学⼤֒学院情報科学研究科 IBIS2013 企画セッション2:ディープラーニング 2013/11/12 NLPにおけるディープラーニング 2 ⾔ࢠ語モデル の構築 ⾔ࢠ語の構成性 のモデル化 構成的意味論ྔ ⾔ࢠ語解析 (構造予測) Recursive Neural Networks Autoencoders (Socher et al., 2011, 2012, 2013) RBM (Minh and Hinton 2007) Feed-forward Deep NN (Bengio et al., 2003, Arisoy et al., 2012) Recurrent NN (Mikolov et al., 2010) (Wang and Manning 2013) (Mansur et al.,

    cco
    cco 2013/11/13
  • kuromoji - japanese morphological analyzer

    About Kuromoji Kuromoji is an open source Japanese morphological analyzer written in Java. Kuromoji has been donated to the Apache Software Foundation and provides the Japanese language support in Apache Lucene and Apache Solr 3.6 and 4.0 releases, but it can also be used separately. Downloading Download Apache Lucene or Apache Solr if you want to use Kuromoji with Lucene or Solr. See below for so

  • 能動学習システムDUALISTを日本語テキストに適用する - 自然言語処理 on Mac

    機械学習手法に基づくテキスト分類は十分な学習データがあれば高い精度が期待できますが、分類ラベルを人手でつける作業に手間がかかります。そこで、効率的に分類器を学習させる手法として、効果的な分類対象を優先的にラベル付けさせる能動学習(active learning)というアプローチがあります。 DUALISTは、アノテータに対象のラベル付けと同時に、素性であるキーワードが適切かどうかの判定を委ねる能動学習システムで、7月に開催されるEMNLP 2011に採択された論文で提案されており、実装も公開されています。 Google Code Archive - Long-term storage for Google Code Project Hosting. DUALISTのインストールと実行は簡単です。システムはJavaで実装されていて、機械学習パッケージのMALLETが同梱されています。他に、W

    能動学習システムDUALISTを日本語テキストに適用する - 自然言語処理 on Mac
    cco
    cco 2012/01/05
  • Apache Giraph で Label propagation を実装した - Standard ML of Yukkuri

    Label propagation (ラベル伝播アルゴリズム) は半教師あり学習モデルの基的な手法のひとつです. こいつを Pregel のオープンソース実装であるところの Apache Giraph で実装しました. ref: https://github.com/smly/java-Giraph-LabelPropagationLabel propagation algorithm は半教師あり学習モデルの基的な手法のひとつです. 少量の vertex に class label が割り当てられた状態で, グラフ上の unlabeled な vertex に class label を割り当てることができます. 自然言語処理でよく活用されていて, どのくらい活用されているかというと, 今年の自然言語処理のトップカンファレンスである ACL のベストペーパーでも使われましたし, PF

    cco
    cco 2011/12/29
  • 東京大学 講義 UT OpenCourseWare

    東京大学の講義や公開講座の映像・音声をポッドキャストでもお楽しみいただけます。東京大学が誇る「世界の叡智」をいつでも、どこでも、より多くの方々に体験していただきたいと考えています。 MIMA Search とは、UT OCW、MIT OCWに公開されている各授業のシラバスの関係を構造的に見ることができる検索システムです。MIMA Searchは、シラバスに含まれている各種の情報をもとに、検索結果を「点」と「線」でネットワーク表現します。

    cco
    cco 2011/12/16
  • MIT 6.863J/9.611J Natural Language Processing - Home

    Staff Prof. Robert C. Berwick berwick@csail.mit.edu 32-D728, x3-8918 Office hours:  Th 2-3 Course Support Lynne Dell lynne@mit.edu 32-D724, 617-324-1543 TA: Igor Malioutov igorm@mit.edu 32D-740 Office hrs: Fri 10-12pm Course Time & Place Lectures: M, W 3-4:30 PM Room: 4-145,  map Level & Prerequisites Undergrad/Graduate; 6.034 or permission of instructor Policies Textbooks & readings Grading marks

    cco
    cco 2011/12/16
  • Machine Translation

    Informatics Forum, 10 Crichton Street, Edinburgh, EH8 9AB, Scotland, UK Tel: +44 131 651 5661, Fax: +44 131 651 1426, E-mail: school-office@inf.ed.ac.uk Please contact our webadmin with any comments or corrections. Unless explicitly stated otherwise, all material is copyright © The University of Edinburgh

    cco
    cco 2011/12/16
  • 自然言語処理

    cco
    cco 2011/03/02
  • テキスト圧縮はこれ一冊でOK!?な優良書籍「The Burrows-Wheeler Transform」を読んだ - EchizenBlog-Zwei

    以前より気になっていた書籍「The Burrows-Wheeler Transform Data Compression, Suffix Arrays, and Pattern matching」を読む機会を得ることができた。それなりに高額なだったので購入が躊躇っていたのだけど、これは自分用に購入してもいいかも。というくらいの良書だったので紹介しておく。 書はタイトルのとおりBWT(Burrows-Wheeler変換)に関する書籍。サブタイトルにあるようにデータ圧縮やSuffixArrayによる全文検索についても充実した内容になっている。最後のPattern matchingはテキストから検索キーとexactにマッチした、もしくは類似した箇所を取り出すよ、という話。2008年のなので比較的新しい話題も扱っていて満足度が高い。 また書の特色は圧縮ありきで始まり、そこから全文検索可能な

    テキスト圧縮はこれ一冊でOK!?な優良書籍「The Burrows-Wheeler Transform」を読んだ - EchizenBlog-Zwei
    cco
    cco 2011/01/16
  • スペル訂正エンジンを作ってみた - nokunoの日記

    紫蘇カンファレンス2010というイベントでLTをしました。紫蘇カンファレンス 2010 - しソ部Togetter - 「紫蘇カンファレンス 2010」内容は、StaKKのスペル訂正機能についての解説です。統計的自然言語処理エンジンStaKK - nokunoの日記shisoconf 2010 Spelling CorrectionView more presentations from nokuno. 他の人は画像会話用の画像検索エンジン「tiqav(ちくわぶ)」や、Flickrのお気に入りをふぁぼったー的に表示してくれる「flistr」など、幅広いサービスや技術やネタが満載の楽しいイベントでした。tiqav / ちくわぶFlistr - View Flickr Photos Favorited by Your ContactsWWSみんなが頑張っているのを見ると刺激になりますし、今の環

    cco
    cco 2010/11/29
  • 統計的自然言語処理エンジンStaKK - nokunoの日記

    統計的自然言語処理エンジンStaKK を開発しました。nokuno’s stakk at master - GitHub 以下、READMEからの引用です。 現在の機能 かな漢字変換 予測変換 または サジェスト スペル訂正 形態素解析 HTTPによるAPIサーバ Trieの直接操作現在は、StaKK は辞書として Mozc (Google日本語入力のOSS版)のデータを使っています。 リバースモードについてStaKK はノーマルモードとリバースモードの2つのモードを持っています。 ノーマルモードでは、かなを入力し、単語(主に漢字)を出力します。 リバースモードでは、単語を入力し、読みや品詞を出力します。これらの2つのモードの応用例をまとめると、次の表のようになります。 機能 ノーマルモード リバースモード Convert かな漢字変換 形態素解析 Predict 予測変換 検索ワードのサ

    cco
    cco 2010/11/24
  • kisa12012の日記

    こんにちは.Machine Learning Advent Calendar (MLAC) 2013の14日目を担当します,[twitter:@kisa12012]です.普段は博士学生として,各地を放浪しながら機械学習の研究をしてます.今回の記事はボストンで執筆しています.現地時間(EST)での締切は守ったのでセーフ…ですよね? 日は機械学習技術的な内容の話ではなく,筆者が実践している機械学習関連の情報収集方法について纏めます*1.大きく分けて,学会情報の管理・論文情報の収集・その他の三種について述べたいと思います.今回のトピックの多くは他の分野にも通用する話になっているかと思います.他の分野の方がどのように情報収集されているのかも気になるところです. 学会情報の管理 まずは学会情報の管理についてです.機械学習に関連するカンファレンスは(特に近年乱立気味で)非常に沢山あります.全てをチ

    kisa12012の日記
    cco
    cco 2010/08/13
  • 1