タグ

自然言語処理に関するDrFaustのブックマーク (3)

  • word2vecによる自然言語処理

    Tomas Mikolovらによって提案されたニューラルネットワーク(CBOW, Skip-gram)のオープンソース実装word2vecについて、基的な使い方を体験し、さらにその仕組みを学ぶ書籍です。 基的な使い方から、自分の好きなコーパスの作り方、登場の背景、仕組み、さらには応用例や弱点についてもコンパクトなボリュームで概観できます。付録にはword2vecの出力結果を主成分分析を使って可視化する方法について解説しています。 著者の西尾さんによる書の解題[リンク] はじめに 1章 word2vecを使ってみる 書き換えてみよう 2章 コーパスを変えてみる text8 単語に分割する(MeCab) CSVからのコーパス作成 Facebook EPWING Wikipedia PDFからの抜き出し まとめ 3章 word2vecの生まれた理由 文章の表現 4章 word2vecの仕組

    word2vecによる自然言語処理
  • Wikipedia日英京都関連文書対訳コーパス

    English Page コーパスについて 『Wikipedia日英京都関連文書対訳コーパス』は、高性能な多言語翻訳、情報抽出システム等の構築を支援することを目的に作成された日英対訳コーパスです。国立研究開発法人情報通信研究機構がWikipediaの日語記事(京都関連)を英語に翻訳し、作成しました。 特徴 人手翻訳による約50万文対を収録した精密かつ大規模なコーパスです。 高性能な多言語翻訳、情報抽出システムの研究・開発等にご活用いただけます。 翻訳の過程(一次翻訳→流暢さ改善のための二次翻訳→専門用語チェックの3段階)が記録されています。 訳文が精緻化されていく過程を観察できるため、翻訳支援ツールの開発、人手翻訳における誤り分析等にもご活用いただけます。 京都に関する内容を中心に、日の伝統文化、宗教、歴史等の分野をカバーしています。 各種観光情報の英訳や通訳ガイドのための用語集作成

  • Python による日本語自然言語処理

    はじめに この文書は、 Steven Bird, Ewan Klein, Edward Loper 著 萩原 正人、中山 敬広、水野 貴明 訳 『入門 自然言語処理』 O'Reilly Japan, 2010. の第12章「Python による日語自然言語処理」を、原書 Natural Language Processing with Python と同じ Creative Commons Attribution Noncommercial No Derivative Works 3.0 US License の下で公開するものです。 原書では主に英語を対象とした自然言語処理を取り扱っています。内容や考え方の多くは言語に依存しないものではありますが、単語の分かち書きをしない点や統語構造等の違いから、日語を対象とする場合、いくつか気をつけなければいけない点があります。日語を扱う場合にも

  • 1