タグ

Corpusに関するhtktyoのブックマーク (9)

  • はてなブログ | 無料ブログを作成しよう

    ビールとポップコーンと映画 ラストマイルを見た。良い映画だった。 映画館でべそべそ泣いて、鼻を啜りながら車で帰った。感想はこのブログでは書かない。みんな映画館に行って感じてみてほしい。 帰ってからツイッターで感想を漁り、うんうん、わかるわかる、そうだよね、とまた映画を思い出して…

    はてなブログ | 無料ブログを作成しよう
  • コーパス紹介 - コーパス日本語学のための情報館

    はじめに 現在、日国内で比較的に低コストで入手可能なコーパス・言語資源の概要と入手方法を紹介します。 主に現代語の研究を想定したものです. 書き言葉 青空文庫 内容:ネット上の電子図書館青空文庫』の公開作品を一枚に収録しています。 入手方法1:「蔵書○○○○」という形で毎年更新版を500円で販売しています。現在は完売に購入はできないようです。 入手方法2:『インターネット図書館 青空文庫』を購入するとDVD-ROM(青空文庫4843作品ほか収録)が付いてきます。 関連文章:夷石寿賀子, 千葉 庄寿, 陳君慧 (2006)「『青空文庫』を言語コーパスとして使おう―メタデータ構築による歴史的・社会言語学的研究への応用の試み―」(言語処理学会第12回年次大会 (NLP2006) 発表論文集 pp.915-918) 茶漉による青空文庫の検索: 日語用例・コロケーション抽出システム『茶漉』によ

    コーパス紹介 - コーパス日本語学のための情報館
  • 国立国語研究所の言語コーパス整備計画KOTONOHA

    モニター公開データの内容 モニター公開データの利用条件等 モニター公開データの申し込み方法 モニター公開データに関するQ&A 現在構築中の「現代日語書き言葉均衡コーパス」のうち、著作権処理が済んだサンプルについて、学術研究利用に限定してデータを公開します。モニター公開の目的は、実際にデータを使ってもらうことにより、コーパスの構築や活用に有益なフィードバックを得ること、及び、コーパスによる言語研究の普及を促すことの二つです。 モニター公開データの内容 モニター公開データは、DVDディスクで提供します。その中には以下の1~4のファイルが納められています。 1. サンプルの種類とファイル形式 書籍 約1,300万語(4,669サンプル)(プレーンテキスト/XMLファイル) 白書 約500万語(1,500サンプル)(プレーンテキスト/XMLファイル) Yahoo!知恵袋 約500万語(45

  • Google Japan Blog: 大規模日本語 n-gram データの公開

    突然ですが、穴埋めクイズです。下線部に入る単語はなんでしょう? グーグルで_____ おそらく、「検索」「調べる」「探す」といった単語を思いつくのではないでしょうか? 実際に、Webにあるドキュメントをくまなく調べ、「グーグルで」の後にくる単語を調べると、「検索」が1位であるとがわかります。 一般に、直前の(N-1)個の単語を見て、次の単語を予測するモデルをN-gram言語モデルといいます。さきほどは、「グーグル」 と 「で」の2単語から次を予想しているので、3-gram言語モデルの例となります。現時点の単語が、直前の(N-1)個のみに影響を受けるという仮説は、一見現実離れしているようですが、実際には非常に有効な場合も多く、かな漢字変換、OCRのエラー訂正、機械翻訳、音声認識などに広く用いられています。たとえば、音声認識の場合、ノイズ等で現時点の単語をシステムが聞き取れなくても、言語モデル

    Google Japan Blog: 大規模日本語 n-gram データの公開
  • [を] Webとコーパス 第五回「リーズ大学の多言語コーパス検索サイト」

    Webとコーパス 第五回「リーズ大学の多言語コーパス検索サイト」 2007-10-15-3 [WebAndCorpus] Web上のテキストデータをコーパスとして見る、 というテーマでブログ記事を書いていて、今回で5回目になります。 今回はリーズ大学の多言語コーパス検索サイトの話。 こういう活動は頭が下がります。 なお、この記事は「三省堂辞書サイトのブログ」へも転載という形で 提供していますので、そちらでもお楽しみ下さい。 - ウェブコーパス徹底活用 第五回「リーズ大学の多言語コーパス検索サイト」 - Sanseido Word-Wise Web [三省堂辞書サイト] http://dictionary.sanseido-publ.co.jp/wp/ § ■ウェブコーパス徹底活用 第五回 「リーズ大学の多言語コーパス検索サイト」 この連載の第二回[2007-09-03-1]で紹介した拙作「

    [を] Webとコーパス 第五回「リーズ大学の多言語コーパス検索サイト」
  • メディア・パブ: NYTのアーカイブ開放,新聞社サイトが新局面に

    NYT(New York Times)のサイト(NYTimes.com)が,有料サービスTimesSelectに終止符を打った。これは,これからのコンテンツビジネス,中でもニュースサイトの在り方に大きな影響を及ぼしそうだ。 衝撃的な過去記事の無料化 TimesSelectの有料コンテンツとしては,過去記事を除けば,売り物にOp-Edなどのコラム記事くらいしかなかった。最新のニュースコンテンツは以前から無料で開放していた。だから,TimesSelectが終了してコラム記事が無料になったからと言って,一般のニュースユーザーにすれば,とりたてて大騒ぎするようなことではない。 だがサプライズもあった。TimesSelectの終了に合わせて,新聞紙を含めたNYTの過去記事の多くを無料閲覧できるようになったからだ。正確には,1987年以降の過去20年間の記事全てが無料となった。さらに,それ以前の昔の記

  • カイ二乗値で単語間の関連の強さを調べる

    カイ二乗値で単語間の関連の強さを調べる 2007-09-19-1 [Algorithm][Programming] カイ2乗値を使って単語間の関連度を調べる方法。 つまり、関連語を探すときに、χ二乗値を関連度として使う。 perl によるサンプルコード (chiword.pl)。昔、勉強がてら作ったコード。 #!/usr/bin/perl use strict; use warnings; my %cnt; my $pair_num; while (<>) { chomp; next if /^\s*$/; my @list = sort split(/,/, $_); for (my $i = 0; $i < @list; $i++) { for (my $j = $i + 1; $j < @list; $j++) { next if $list[$i] eq $list[$j]; $c

    カイ二乗値で単語間の関連の強さを調べる
  • 聞いてきました:Googleの大規模日本語データ公開に関する特別セッション - のほほん徒然

    第四十七回 写真はGigazineのマネです(笑) 3月に滋賀で行われる言語処理学会全国大会で、グーグルが 特別セッションをやるそうです。大規模日語データについて。 たつをさんのブログで知ったGoogleの特別セッション. グーグル株式会社では、日語の言語処理研究推進のため大規模日語データの公開を検討しています。つきましては仕様を決定するにあたり、実際にデータを御利用頂く研究者 / 技術者の皆様の「生の声」を是非お伺いしたく存じます。今回、言語処理学会様の御好意により、下記のとおりデータ仕様に関する特別セッションを設けて頂ける事になりました。 はてなブックマークでも話題になっているGoogleの大規模日語データ公開に関する特別セッション@NLP2007に,家が近いこともあり参加してきましたので,その詳細を書きます. セッション概要と要旨 Googleは日語の言語処理研究のためにW

    聞いてきました:Googleの大規模日本語データ公開に関する特別セッション - のほほん徒然
    htktyo
    htktyo 2007/03/22
    ふむ,生ではないのか。そりゃそーだよなー。
  • 1