タグ

NLPに関するhrsttのブックマーク (5)

  • 言語処理100本ノック - 東北大学 乾研究室 / Inui Lab, Tohoku University

    FrontPage / 言語処理100ノック 3 秒後に NLP 100 Drill Exercises に移動します。 (移動しない場合は、上のリンクをクリックしてください。) © Inui Laboratory 2010-2018 All rights reserved. 研究室紹介/About Us 過去に在籍したメンバー Members 研究室環境 Lab Facilities ↑研究会/Research Meetings 概要 Overview 総合研究会 Research Seminar 意味研究会 SIG Semantics 談話研究会 SIG Discourse 知識獲得研究会 SIG Knowledge Acquisition Embedding研究会 SIG Embedding KIAI Knowledge-Intensive Artificial Intellige

  • 情報系修士にもわかるダブル配列 - アスペ日記

    最近話題の「日本語入力を支える技術」を途中まで読んだ。 3章がものすごく気合いが入っている。 trie(トライ)というデータ構造の2つの実装、「ダブル配列」と「LOUDS」について詳しく説明がされている。 ダブル配列については、ぼくは以前論文を読んで勉強しようとしたのだが、その時は難しくてあきらめた覚えがある。しかし、このの説明を読むことで理解ができた。 ありがたい。 感銘を受けたので、このを教材に友達と2人勉強会をした。 この2人勉強会というのは、ぼくが復習を兼ねて友達に教えるというのがだいたいのスタイル。 しかし、いざやってみるといろいろと難しい。 次のようなところでひっかかるようだ。 例のサイズが小さく、イメージを喚起するのが難しい。 最初の図のノード番号と、最終的なダブル配列上の位置が異なるため、混乱する。 単語終端について言及がないので、どのノードが単語を表しているかがわから

    情報系修士にもわかるダブル配列 - アスペ日記
  • 大規模コーパスを無料で手に入れることのできるサイトまとめ - nokunoの日記

    大規模コーパスを無料で手に入れることのできるサイトについて、Quoraで質問したところ回答があったのでまとめてみました。質問してから気づいたのですが、QuoraにはText Corporaというカテゴリがあってその中に似た質問がいくつかあったので、合わせてまとめています。Text Corpora - Quora今回のエントリは主に英語のコーパスに関するものなので、日語コーパスの情報については以下のエントリをご覧ください。NLP関係のリソースまとめ - nokunoの日記大規模データのエントリが伸びており、この問題に関心のある人の多さが伺えますね。NLP屋としてはやはり、大規模データの中でもテキストデータ(コーパス)に興味のあるところです。 大規模データを無料で手に入れることのできるサイトまとめ - nokunoの日記 タグ付きコーパス(ツリーバンク)Penn Tree bankWSJ C

  • NLP関係のリソースまとめ - nokunoの日記

    先日オープンソースのtrieライブラリについてまとめましたが、それ以外にも家での開発に使えるリソースが増えてきました。 コーパス WikipediaコーパスTwitterコーパスBaiduコーパスWebコーパスWikipedia対訳コーパスオープンソース対訳コーパスMS-IMEコーパス 辞書 WikipediaタイトルはてなキーワードIPAdicUnidicalt-cannadicSKK評判辞書

  • 日本語の単語分割 - 自然言語処理 on Mac

    語の単語分割処理は、一般に、単語辞書と単語間連接の規則や学習データに基づいて行われます。オープンソースとして有名なものがいくつもあります。 KAKASI - 漢字→かな(ローマ字)変換プログラム JUMAN - KUROHASHI-KAWAHARA LAB chasen legacy -- an old morphological analyzer http://mecab.sourceforge.net/ これらのツールは主に新聞記事のような一般的なテキストが対象です。単語辞書に登録されていない語は未知語として処理されますが、特定分野のテキストを対象として解析精度を保つためには、専門用語や新語などを適宜登録する必要があります。 他方、文字間に単語境界があるかどうかを機械学習の2値分類問題として解く手法があり、ツールも公開されています。 KyTea (京都テキスト解析ツールキット) 次

    日本語の単語分割 - 自然言語処理 on Mac
  • 1