エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
C-XML(文字ベースXMLデータ)詳細 現代日本語書き言葉均衡コーパス(BCCWJ)
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
C-XML(文字ベースXMLデータ)詳細 現代日本語書き言葉均衡コーパス(BCCWJ)
ホーム 現代日本語書き言葉均衡コーパス(BCCWJ) C-XML(文字ベースXMLデータ)詳細 C-XML(文字ベース... ホーム 現代日本語書き言葉均衡コーパス(BCCWJ) C-XML(文字ベースXMLデータ)詳細 C-XML(文字ベースXMLデータ)詳細 C-XML C-XML形式のデータはDisc1のC-XMLディレクトリの下に、可変長・固定長に分けてサブコーパスごとのディレクトリで格納されています。ディレクトリ内にそれぞれ一つの圧縮ファイルがあり、これを展開することで1ファイルが1サンプルに対応する多数のXMLファイルが展開されます。ファイル数の多いLB、PB、OC、OYについては、複数のサブディレクトリに分けてXMLファイルが展開されます。 文書構造タグセットの種類とサブコーパスとの関係 BCCWJは複数のサブコーパスから構成されます。文書構造タグのセットは、それぞれのサブコーパスの特性に合わせて、表「サブコーパスとタグセットとの関係」のように規定され、個々のタグセットはXMLの文書型として定義され