■NINJAL-LWP for TWC とは NINJAL-LWP for TWC(ニンジャル・エルダブリュピー・フォー・ティーダブリュシー、略称NLT)は、日本語のウェブサイトから収集して構築した約11億語のコーパス『筑波ウェブコーパス』(Tsukuba Web Corpus: TWC)を検索するためのツールです。検索には、国立国語研究所(以下、国語研)とLago言語研究所が共同開発したコーパス検索システムNINJAL-LWP(NINJAL-LagoWordProfiler)を利用しています。同じシステムを利用したツールに、国語研が構築した1億語の『現代日本語書き言葉均衡コーパス』(Balanced Corpus of Comtemporary Written Japanese: BCCWJ)を検索するNINJAL-LWP for BCCWJ(NLB)があります。 このツールはレキシカル
はじめに 言語処理するのに基となるデータ(言語データ、コーパス)についてまとめてみる。 データ・テキストマイニングなどに。必要に応じてダウンロードして試してみたい。 コーパス(corpus)とは 自然言語処理の研究に用いるために、自然言語の文章(用例)を構造化し大規模に集積したもの(電子データ) 辞書は、言語データだけど用例ではないのでコーパスではない よいコーパスとは、より対象をよくとらえているもの 特定の著者の小説を集めたもの(その著者の言語情報をよくとらえている) 新聞記事(新聞に使われている言語情報をよくとらえている) 例えば「日本語」のコーパスというのは、「日本語」を的確にとらえてなくてはいけない 新聞記事だけでは「日本語」の一部しかとらえられていない(ブログなどはとらえられていない) コーパスの種類 生コーパス:収集したままでなんの情報も付加されていないコーパス タグ付きコーパ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く