タグ

コーパスに関するyudukikun5120のブックマーク (4)

  • Common Crawl - Open Repository of Web Crawl Data

    Common Crawl maintains a free, open repository of web crawl data that can be used by anyone.Common Crawl is a 501(c)(3) non–profit founded in 2007. ‍ We make wholesale extraction, transformation and analysis of open web data accessible to researchers.Overview Over 250 billion pages spanning 15 years.Free and open corpus since 2007.Cited in over 10,000 research papers.3–5 billion new pages added ea

  • ツリーバンク - Wikipedia

    ツリーバンク(英: Treebank)は、コーパスの一種であり、各文に統語構造の注釈が付与されているものである。統語構造は一般に木構造で表されることが多いため、ツリーバンクと呼ばれる。ツリーバンクはコーパス言語学で文法的現象の研究に使われる他、計算言語学での構文解析器の評価や訓練に使われる。 概要[編集] ツリーバンクは既存の何らかのタグが既に付いたコーパスを使って作成されることが多い。従って、ツリーバンクは意味論的に何らかの拡張をしたり、他の言語学的情報を付与したりしている。 ツリーバンクは、言語学者が文一つ一つに注釈を加えていって構築することもあるし、半自動的に構文解析器で解釈し、その結果を言語学者がチェックするという方式もある。 ツリーバンクは特定の言語学的理論(例えばHPSG)に基づいた文法的注釈を付与している場合もあるが、多くのツリーバンクは特定の理論に依存しないようにしている。

  • Brown Corpus - Wikipedia

    The Department of Cognitive Linguistic & Psychological Sciences at Brown University The Brown University Standard Corpus of Present-Day American English, better known as simply the Brown Corpus, is an electronic collection of text samples of American English, the first major structured corpus of varied genres. This corpus first set the bar for the scientific study of the frequency and distribution

    Brown Corpus - Wikipedia
  • GSK | 特定非営利活動法人 言語資源協会

    What's GSK 特定非営利活動法人 言語資源協会(GSK)は、平成15年6月に設立されました。 言語資源協会は、音声データ、レキシコン、テキストコーパス、ターミノロジー、各種言語処理ツール等の言語資源の流通を促進することにより、言語資源を必要とする音声・自然言語処理分野の学術・研究・産業の発展、さらには、言語学分野の研究の推進に貢献することを目的としています。 このため、言語資源保有者と言語資源利用者の双方にとって意義・メリットのある言語資源の流通の仕組み・サービスの提供を推進します。 また、対象を日国内の言語資源に限定せず、将来的にはアジア地域に拡張することにより、音声・自然言語処理技術、言語研究への国際貢献を目指します。 ●「未公開言語資源に関するアンケート」を実施しています。ぜひご協力ください。

  • 1