タグ

Corpusに関するpcodのブックマーク (12)

  • 日本語係り受けコーパス(JDC)

    概要 日語ウェブコーパス2010(NWC2010)(約1億ウェブページ)より CaboChaを用いて, 助詞を介した語と語の係り受けを抽出したものです. 類似のコーパスとしてALAGINの日語係り受けデータベースがあります. コーパスでは次のような形で収録されています. NCV (名詞) (助詞) (動詞) 338,092,129種類(約3.3億ユニークペア) レビュー を お送りする 496 テレクラ で いる 6 大気 が 存続する 1 化量 を 言う 1 Private と 定義する 1 けんぎゅうか が 伝来される 2 プロテスタンティズム を 生み出す 1 脳内 で アップされる 6 NCN (名詞) (助詞) (名詞) 166,724,808種類(約1.6億ユニークペア) 司会 が 仕事 25 こころ という ちよ 1 場所 から 大筒 1 見直し へ 訴訟 3 ここ

  • Wikipedia日英京都関連文書対訳コーパス

    English Page コーパスについて 『Wikipedia日英京都関連文書対訳コーパス』は、高性能な多言語翻訳、情報抽出システム等の構築を支援することを目的に作成された日英対訳コーパスです。国立研究開発法人情報通信研究機構がWikipediaの日語記事(京都関連)を英語に翻訳し、作成しました。 特徴 人手翻訳による約50万文対を収録した精密かつ大規模なコーパスです。 高性能な多言語翻訳、情報抽出システムの研究・開発等にご活用いただけます。 翻訳の過程(一次翻訳→流暢さ改善のための二次翻訳→専門用語チェックの3段階)が記録されています。 訳文が精緻化されていく過程を観察できるため、翻訳支援ツールの開発、人手翻訳における誤り分析等にもご活用いただけます。 京都に関する内容を中心に、日の伝統文化、宗教、歴史等の分野をカバーしています。 各種観光情報の英訳や通訳ガイドのための用語集作成

  • OpenMWE for Japanese - PukiWiki

    はじめに OpenMWEは、慣用句や複合語といったmultiword expressions(MWEs)関係の言語資源で、オープンソースソフトウェアとして配布しています。 プロジェクトはMWEsに関わる自然言語処理技術の開発を主な目的としており、次のような言語資源を順次リリースする予定です。 コーパス MWEsの用例集。文法的振る舞いを観察したり、機械学習データとして使用する。 辞書 MWEsの言語処理で必要な情報を記述した辞書。 同定システム 文中のMWEsを同定(検出)するシステム。MWEsの中には、例えば慣用句「骨を折る」のように、文字通りの意味と慣用的(比喩的)な意味の両方を持つものがあるが、このシステムは両者を区別して(曖昧性を解消して)MWEsを同定する。 格解析システム 述語として使用されるMWEs(「骨を折る」「頭が痛い」「解決を見る」など)の述語項構造を解析するシステ

  • 国立国語研究所の言語コーパス整備計画KOTONOHA

    モニター公開データの内容 モニター公開データの利用条件等 モニター公開データの申し込み方法 モニター公開データに関するQ&A 現在構築中の「現代日語書き言葉均衡コーパス」のうち、著作権処理が済んだサンプルについて、学術研究利用に限定してデータを公開します。モニター公開の目的は、実際にデータを使ってもらうことにより、コーパスの構築や活用に有益なフィードバックを得ること、及び、コーパスによる言語研究の普及を促すことの二つです。 モニター公開データの内容 モニター公開データは、DVDディスクで提供します。その中には以下の1~4のファイルが納められています。 1. サンプルの種類とファイル形式 書籍 約1,300万語(4,669サンプル)(プレーンテキスト/XMLファイル) 白書 約500万語(1,500サンプル)(プレーンテキスト/XMLファイル) Yahoo!知恵袋 約500万語(45

  • 動詞項構造シソーラス

    使い方 検索について 基的な検索 左上にある「Basic」タブをクリックして表示されるフォームでは基的な検索を行うことができます. 各条件を組み合わせて詳細な検索を行えます.このとき,各条件はandで結合されます. 表層で検索 登録されてある動詞の表層で検索を行います.複数語の検索は行えません. 分類で検索 動詞項構造シソーラスの分類からそれに該当する語義を検索することができます. 各分類は親子関係にあるため,上位の分類に応じて下位の分類のリストが変化します. 意味役割で検索 格フレームの深層格に出現する意味役割で検索することができます. 高度な検索 左上にある「Advanced」タブをクリックして表示されるフォームではBasicに比べて詳細な検索条件を設定することができます. こちらも各条件はandで結合されます. 表層で検索 Basicでの表層で検索と同じです. 分類で検索 分類か

  • Create and search a text corpus | Sketch Engine

    Sketch Engine is the ultimate tool to explore how language works. Its algorithms analyze authentic texts of billions of words (text corpora) to identify instantly what is typical in language and what is rare, unusual or emerging usage. It is also designed for text analysis or text mining applications. Sketch Engine is used by linguists, lexicographers, translators, students and teachers. It is a f

    Create and search a text corpus | Sketch Engine
  • Google Japan Blog: 大規模日本語 n-gram データの公開

    メディア関係者向けお問い合わせ先 メールでのお問い合わせ: pr-jp@google.com メディア関係者以外からのお問い合わせにはお答えいたしかねます。 その他すべてのお問い合わせにつきましては、ヘルプセンターをご覧ください。

    Google Japan Blog: 大規模日本語 n-gram データの公開
  • untitled

    DEWS2007 E8-5 Web 630-0101 8916-47 630-0101 8916-47 E-mail: hironori@ab.jp.nec.com, h-kawai@ab.jp.nec.com, m-tsuchida@cq.jp.nec.com, kusui@ct.jp.nec.com Web Web Web Web 30 1 Web Web Construction of dictionaries from the web by bootstrapping method Hironori MIZUGUCHI Hideki KAWAI Masaaki TSUCHIDA and Dai KUSUI Internet Systems Research Laboratories, NEC Corporation 8916-47 Takayama-cho, Ikoma, Nara

  • https://www.ieice.org/~de/DEWS/DEWS2007/pdf/b9-2.pdf

  • ACP Corpus: Automatically Constructed Polarity-tagged Corpus

    はじめに ACP Corpus は,文単位で評価極性タグが付与された日語コーパスです. コーパスは,(Kaji and Kitsuregawa, 2006; 鍜治, 喜連川 2008) で提案され ている手法を用いて,大規模なウェブデータから自動構築されています.タグ 付け作業を自動化することによって,およそ100万文という大規模なコーパス 構築を可能にしています. データの配布 コーパスに興味をお持ちの方は kaji (-at-) tkl.iis.u-tokyo.ac.jp まで直接ご連絡下さい. データ形式 配布するデータには,以下のような形式で一行に一文が記述されています.評価極性タグは +1/-1 (肯定的/否定的)のいずれかです. 評価極性タグ テキスト 例えば次のようになっています. -1 値段が掛かり過ぎる +1 オークションはお店よりも安く買えるものが多い +1 SC

  • dews.dvi

    ������� �� Ý Ý ������� ���� � � �� � �� ��������� � ���������� ���� � � � ���� � � � � � � ���� ���� ������� � ��� ������� � � ��� � ����� � ������� � Ý � � � �� � ������ � Ý ���� ���� �� �� ���� !� ����� �"� #� $��� �� �� %���� ���� &� ' � (�)������� %���� ������� * � � � � �� � �� ��������� � ���������� ���� ������� � � � � ���� � �� � ��!� "�! � �# � " � $�% ! �� � � � � ���� �& � � � ���� � �

    pcod
    pcod 2007/09/04
    文単位で評価極性タグが付与された日本語コーパス→http://www.tkl.iis.u-tokyo.ac.jp/~kaji/acp/
  • Wikipedia コーパス - odz buffer

    Wikipedia はそのダンプデータを公開しているので、自然言語処理の研究で利用するひとが結構いたりする。 なので、ためしに英語Wikipedia のダンプデータのXMLをパースしながら、適当に書式情報を削除して1項目1ファイルにして HyperEstraier の文書ドラフト形式で出力してみた。 日語版で、抽出に 13 分、インデキシングに 75 分。英語版で、抽出に 60 分、インデキシングに 3 時間というところ。(CPU: Intel Xeon 2.66GHz) #!/usr/bin/env python # -*- coding: utf-8 -*- import sys import os import codecs import re from itertools import izip, count from xml.etree import ElementTree

    Wikipedia コーパス - odz buffer
  • 1