タグ

corpusに関するsuu-gのブックマーク (19)

  • メールけいしちょうオープンデータ

    メールけいしちょうで配信した内容をオープンデータとして公開しています。

    suu-g
    suu-g 2019/03/18
  • 概要 国語研日本語ウェブコーパス(NWJC)

    データの構築手法について ウェブアーカイブの構築で用いられる Heritrix クローラを運用することで1年間にわたって3か月おきに、固定した約1億URLのウェブページを収集しました。 得られたウェブページはnwc-toolkitを用いて、日語文抽出と正規化を行いました。 コピーサイトの問題を緩和するために、文単位の単一化(文の異なりをとること)を行いました。 形態素解析器MeCab-0.996 と形態素解析用辞書UniDic-2.1.2を用いて形態素解析を行い、 さらにUniDic 主辞規則に基づく係り受け解析器CaboCha-0.69により係り受け解析を行っています。 参考文献について 『国語研日語ウェブコーパス』 国際論文誌: Masayuki Asahara, Kikuo Maekawa, Mizuho Imada, Sachi Kato, Hikari Konishi (20

    suu-g
    suu-g 2017/03/06
  • 258億語の日本語コーパスをウェブで公開~国立国語研究所 言語研究や自然言語処理技術開発での基礎資料

    258億語の日本語コーパスをウェブで公開~国立国語研究所 言語研究や自然言語処理技術開発での基礎資料
    suu-g
    suu-g 2017/03/06
  • R Questions from Stack Overflow

    Full text of Stack Overflow Q&A about the R statistical programming language

    R Questions from Stack Overflow
    suu-g
    suu-g 2016/10/21
  • 日本語学習者言語コーパス

    1. プロジェクト名: 学習者コーパス 2. プロジェクトの概要: プロジェクトの目的は、海外教育機関でデータ収集を行い、日語の学習者コーパスを構築することにある。主に2つの活動を実施した。1)E-ラーニングを活用した作文データ収集によるコーパス構築、2)作文データ収集及びオンライン誤用辞書の開発、である。1)のデータは、台湾淡江大学で収集した。これとパラレルのデータとして、英国SOASと学の母語話者のデータも収集した。2)のデータは、英国リーズ大学、ウクライナキエフ国立大学、台湾銘傳大学で収集した。 3. 事業推進担当者: 海野多枝 (東京外国語大学) 4. 協力者: 1) E-ラーニングを活用した日語学習者コーパス構築 学内協力者: 林俊成(東京外国語大学)、岡田昭人(東京外国語大学) 大学院生: 鈴木 綾乃(博士後期課程)、楊 嘉貞(博士後期課程) 井之川 睦美(博士後期課

    suu-g
    suu-g 2014/08/02
  • 機械学習とかに使えそうなデータセット - pixyzehn blog

    photo by Régis Gaidot データセットとかの知見を集めました。 いいデータセットないかと調べる機会があったので、得た知見をまとめてみました。 これについてはすでに良い情報がすでにあったのでそのリンクも紹介します。 奥 健太 - 情報推薦研究ツールボックス grouplensのデータセットは、論文などにも利用されているのを見かけました。 注意点としては ・EachMovieなどは利用できない ・MovieLensやDelicious、Last.fmはdat形式のファイル ・WikiLensはdumpして使うようにされている ・Book-Crossingはcsvsql ・jesterはExcelファイル ということです。 それ以外だと ようこそ - the Datahub 情報学研究データリポジトリ データセット一覧 livedoor グルメの研究用データセットです。 20

    機械学習とかに使えそうなデータセット - pixyzehn blog
    suu-g
    suu-g 2014/07/22
  • コーパス日本語学の情報館

    information 2021.2.20:情報が古いこともあり、サイトとしての役割を果たせてないと判断し、閉鎖することにしました。

    suu-g
    suu-g 2013/05/28
  • 情報学研究データリポジトリ データセット一覧

    2024/06/27 現在 民間企業提供データ Yahoo!データセット 国立情報学研究所がLINEヤフー株式会社(旧社名 ヤフー株式会社)から提供を受けて研究者に提供しているデータセットです。 Yahoo!知恵袋データ(第3版) (2024-04-01 更新) 楽天データセット 楽天グループ株式会社が国立情報学研究所を通じて研究者に提供しているデータセットです。 楽天市場の全商品データ,レビューデータ 楽天トラベルの施設データ,レビューデータ 楽天GORAのゴルフ場データ,レビューデータ 楽天レシピレシピ情報,レシピ画像 アノテーション付きデータ ニコニコデータセット 国立情報学研究所が株式会社ドワンゴから提供を受けて研究者に提供しているデータセットです。 ニコニコ動画コメント等データ ニコニコ大百科データ リクルートデータセット 国立情報学研究所が株式会社リクルートから提供を受けて研

    suu-g
    suu-g 2013/05/28
  • Enron Email Dataset

    This dataset was collected and prepared by the CALO Project (A Cognitive Assistant that Learns and Organizes). It contains data from about 150 users, mostly senior management of Enron, organized into folders. The corpus contains a total of about 0.5M messages. This data was originally made public, and posted to the web, by the Federal Energy Regulatory Commission during its investigation. The emai

    suu-g
    suu-g 2011/02/24
  • HOME|NTCIR

    NTCIR Home NTCIR 18 NTCIR-18 カンファレンス -参加登録 -EVIA2025 -論文投稿案内 -ポスター&デモ案内 -口頭発表案内 -プログラム -プログラム at a glance -ポスターリスト -チュートリアル・基調講演・パネル・招待講演 -カンファレンス論文集 -プレゼンテーション賞 -スポンサー募集 -協賛・スポンサー -会場&旅行案内 -ホテル情報 -VISA -トラベルサポート NTCIR-18の目的 キックオフイベント タスク参加の手引き Task Participation タスクの概要・参加者募集 -参加者用覚書 運営組織 -タスクオーガナイザー -プログラム委員会 重要な日程 お問い合わせ タスク提案募集 NTCIR 17 NTCIR-17 カンファレンス -参加登録 -EVIA2023 -論文投稿案内 -ポスター&デモ案内 -口頭発表案

    suu-g
    suu-g 2011/02/24
  • 単語感情極性対応表

    単語感情極性対応表 日語および英語の単語とその感情極性の対応表を、 研究目的の利用に限り公開します。 感情極性とは、その語が一般的に良い印象を持つか(positive) 悪い印象を持つか(negative)を表した二値属性です。 例えば、「良い」、「美しい」などはpositiveな極性、 「悪い」、「汚い」などはnegativeな極性を持ちます。 感情極性値は、語彙ネットワークを利用して自動的に計算されたものです。 もともと二値属性ですが、-1から+1の実数値を割り当てました。 -1に近いほどnegative、+1に近いほどpositiveと考えられます。 リソースとして、日語は「岩波国語辞書(岩波書店)」を、 英語はWordNet-1.7.1を使わせていただきました。 こちらからダウンロードしてください→[日語] [英語] フォーマットは、各行が一単語に対応し、 見出し語:読み:品

    suu-g
    suu-g 2011/02/24
  • evaluative expressions

    評価値表現辞書 (評価表現辞書) はじめに 近年,blogなどを通して個人がネット上に配信する情報の重要性が広く認知 されるようになり,それにともなって,個人の意見をWeb上のテキストから収集,分析する技術への関心が高まっています. 実際に,ここ数年で意見を扱った多くの研究が発表されています (関連研究についてはこちらをご参照ください). 意見の収集,分析には評価をあらわす表現(以下,評価値表現)が手がかりになると考えられます. 我々は,評価値表現はある程度ドメイン横断的に使用可能だと考え,半自動手法を使用しつつ辞書を作成しました. この辞書が意見情報抽出や分析の研究に携わっていらっしゃる方々の手助けになれば幸いです. 評価値表現辞書とは 評価値表現辞書は,評価を表すために使われる可能性のある表現を集めた辞書です. 我々は評価を以下のように定義しています. 評価の主体が評価対象のクラスに対

    suu-g
    suu-g 2011/02/24
  • NAIST Text Corpus

    We annotated the same portion of Mainichi Shimbun Newspaper, which is used for Kyoto Text Corpus. It contains all articles (ca. 20,000 sentences) which start from 1 January 1995 and end with 17 January 1995, and all editorial articles (ca. 20,000 sentences) from January to December. We annotated predicate-argument relation (surface case: nominative, accusative, and dative cases), event noun and it

    suu-g
    suu-g 2010/09/12
  • Kyoto Text Corpus

    $B5~ET%F%-%9%H%3! $BKhF|?7J9$N5-;v$K3FpJs$r?MpJs$rIUM?$7$F$$$^$9!#$3$l$i$N>pJs$O!" (B $B7ABVAG2r@O%7%9%F%` (BJUMAN $B!" (B $B9=J82r@O%7%9%F%` (BKNP $B$GH1~!&>JN,4X78!"6&;2>H$N>pJs$rIUM?$7$F$$$^$9!# (B $B%3! (7,990,765 bytes) $B7ABVAG!&9=J8>pJs$N%?%0IU$14p=`%^%K%e%"%k (B $B3J4X78!">H1~!&>JN,4X78!"6&;2>H>pJs$N%?%0IU$14p=`%^%K%e%"%k (B $B"( (B $B$3$l$i$N%^%K%e%"%k$O%3! $BCm0UE@!'$3$3$K4^$^$l$k$N$O7A

    suu-g
    suu-g 2010/09/12
  • Baidu Japan(バイドゥ株式会社)

    このページをブックマーク登録されていた方は、 お手数ですがブックマークの変更をお願いいたします。 なお、このページは5秒後に自動的にジャンプします。 自動的にジャンプしない場合は、下記のリンクをクリックして下さい。

    suu-g
    suu-g 2010/08/31
    教育または研究目的で、常識の範囲内で使えば良いらしい
  • Google Japan Blog: 大規模日本語 n-gram データの公開

    メディア関係者向けお問い合わせ先 メールでのお問い合わせ: pr-jp@google.com メディア関係者以外からのお問い合わせにはお答えいたしかねます。 その他すべてのお問い合わせにつきましては、ヘルプセンターをご覧ください。

    Google Japan Blog: 大規模日本語 n-gram データの公開
    suu-g
    suu-g 2010/06/16
    無料と期待したら高価だった
  • Datasets

    GroupLens gratefully acknowledges the support of the National Science Foundation under research grants IIS 05-34420, IIS 05-34692, IIS 03-24851, IIS 03-07459, CNS 02-24392, IIS 01-02229, IIS 99-78717, IIS 97-34442, DGE 95-54517, IIS 96-13960, IIS 94-10470, IIS 08-08692, BCS 07-29344, IIS 09-68483, IIS 10-17697, IIS 09-64695 and IIS 08-12148.

    Datasets
    suu-g
    suu-g 2010/05/16
  • Database dump progress

    If you are reading this on Wikimedia servers, please note that we have rate limited downloaders and we are capping the number of per-ip connections to 2. This will help to ensure that everyone can access the files with reasonable download times. Clients that try to evade these limits may be blocked. Our mirror sites do not have this cap. Data downloads The Wikimedia Foundation is requesting help t

    suu-g
    suu-g 2010/05/11
    mediawiki data
  • The Canterbury Corpus

    This site contains compression results for a variety of compression methods when run on the contents of three corpora: the Canterbury Corpus, the Calgary Corpus, and the Large Corpus. This page provides brief descriptions of the corpora and their constituent files. Contents The Canterbury Corpus The Artificial Corpus The Large Corpus The Miscellaneous Corpus The Calgary Corpus The Canterbury Corpu

    suu-g
    suu-g 2010/02/13
    圧縮用ファイル
  • 1