タグ

Corpusに関するhtktyoのブックマーク (8)

  • はてなブログ | 無料ブログを作成しよう

    週報 2024/04/28 川はただ流れている 4/20(土) 初期値依存性 さいきん土曜日は寝てばかり。平日で何か消耗しているらしい。やったことと言えば庭いじりと読書くらい。 ベランダの大改造をした。 サンドイッチ 一年前に引っ越してからこんな配置だったのだけど、さいきん鉢を増やしたら洗濯担当大臣の氏…

    はてなブログ | 無料ブログを作成しよう
  • コーパス紹介 - コーパス日本語学のための情報館

    はじめに 現在、日国内で比較的に低コストで入手可能なコーパス・言語資源の概要と入手方法を紹介します。 主に現代語の研究を想定したものです. 書き言葉 青空文庫 内容:ネット上の電子図書館青空文庫』の公開作品を一枚に収録しています。 入手方法1:「蔵書○○○○」という形で毎年更新版を500円で販売しています。現在は完売に購入はできないようです。 入手方法2:『インターネット図書館 青空文庫』を購入するとDVD-ROM(青空文庫4843作品ほか収録)が付いてきます。 関連文章:夷石寿賀子, 千葉 庄寿, 陳君慧 (2006)「『青空文庫』を言語コーパスとして使おう―メタデータ構築による歴史的・社会言語学的研究への応用の試み―」(言語処理学会第12回年次大会 (NLP2006) 発表論文集 pp.915-918) 茶漉による青空文庫の検索: 日語用例・コロケーション抽出システム『茶漉』によ

    コーパス紹介 - コーパス日本語学のための情報館
  • 国立国語研究所の言語コーパス整備計画KOTONOHA

    モニター公開データの内容 モニター公開データの利用条件等 モニター公開データの申し込み方法 モニター公開データに関するQ&A 現在構築中の「現代日語書き言葉均衡コーパス」のうち、著作権処理が済んだサンプルについて、学術研究利用に限定してデータを公開します。モニター公開の目的は、実際にデータを使ってもらうことにより、コーパスの構築や活用に有益なフィードバックを得ること、及び、コーパスによる言語研究の普及を促すことの二つです。 モニター公開データの内容 モニター公開データは、DVDディスクで提供します。その中には以下の1~4のファイルが納められています。 1. サンプルの種類とファイル形式 書籍 約1,300万語(4,669サンプル)(プレーンテキスト/XMLファイル) 白書 約500万語(1,500サンプル)(プレーンテキスト/XMLファイル) Yahoo!知恵袋 約500万語(45

  • Google Japan Blog: 大規模日本語 n-gram データの公開

    メディア関係者向けお問い合わせ先 メールでのお問い合わせ: pr-jp@google.com メディア関係者以外からのお問い合わせにはお答えいたしかねます。 その他すべてのお問い合わせにつきましては、ヘルプセンターをご覧ください。

    Google Japan Blog: 大規模日本語 n-gram データの公開
  • [を] Webとコーパス 第五回「リーズ大学の多言語コーパス検索サイト」

    Webとコーパス 第五回「リーズ大学の多言語コーパス検索サイト」 2007-10-15-3 [WebAndCorpus] Web上のテキストデータをコーパスとして見る、 というテーマでブログ記事を書いていて、今回で5回目になります。 今回はリーズ大学の多言語コーパス検索サイトの話。 こういう活動は頭が下がります。 なお、この記事は「三省堂辞書サイトのブログ」へも転載という形で 提供していますので、そちらでもお楽しみ下さい。 - ウェブコーパス徹底活用 第五回「リーズ大学の多言語コーパス検索サイト」 - Sanseido Word-Wise Web [三省堂辞書サイト] http://dictionary.sanseido-publ.co.jp/wp/ § ■ウェブコーパス徹底活用 第五回 「リーズ大学の多言語コーパス検索サイト」 この連載の第二回[2007-09-03-1]で紹介した拙作「

    [を] Webとコーパス 第五回「リーズ大学の多言語コーパス検索サイト」
  • メディア・パブ: NYTのアーカイブ開放,新聞社サイトが新局面に

    NYT(New York Times)のサイト(NYTimes.com)が,有料サービスTimesSelectに終止符を打った。これは,これからのコンテンツビジネス,中でもニュースサイトの在り方に大きな影響を及ぼしそうだ。 衝撃的な過去記事の無料化 TimesSelectの有料コンテンツとしては,過去記事を除けば,売り物にOp-Edなどのコラム記事くらいしかなかった。最新のニュースコンテンツは以前から無料で開放していた。だから,TimesSelectが終了してコラム記事が無料になったからと言って,一般のニュースユーザーにすれば,とりたてて大騒ぎするようなことではない。 だがサプライズもあった。TimesSelectの終了に合わせて,新聞紙を含めたNYTの過去記事の多くを無料閲覧できるようになったからだ。正確には,1987年以降の過去20年間の記事全てが無料となった。さらに,それ以前の昔の記

  • カイ二乗値で単語間の関連の強さを調べる

    カイ二乗値で単語間の関連の強さを調べる 2007-09-19-1 [Algorithm][Programming] カイ2乗値を使って単語間の関連度を調べる方法。 つまり、関連語を探すときに、χ二乗値を関連度として使う。 perl によるサンプルコード (chiword.pl)。昔、勉強がてら作ったコード。 #!/usr/bin/perl use strict; use warnings; my %cnt; my $pair_num; while (<>) { chomp; next if /^\s*$/; my @list = sort split(/,/, $_); for (my $i = 0; $i < @list; $i++) { for (my $j = $i + 1; $j < @list; $j++) { next if $list[$i] eq $list[$j]; $c

    カイ二乗値で単語間の関連の強さを調べる
  • 聞いてきました:Googleの大規模日本語データ公開に関する特別セッション - のほほん徒然

    第四十七回 写真はGigazineのマネです(笑) 3月に滋賀で行われる言語処理学会全国大会で、グーグルが 特別セッションをやるそうです。大規模日語データについて。 たつをさんのブログで知ったGoogleの特別セッション. グーグル株式会社では、日語の言語処理研究推進のため大規模日語データの公開を検討しています。つきましては仕様を決定するにあたり、実際にデータを御利用頂く研究者 / 技術者の皆様の「生の声」を是非お伺いしたく存じます。今回、言語処理学会様の御好意により、下記のとおりデータ仕様に関する特別セッションを設けて頂ける事になりました。 はてなブックマークでも話題になっているGoogleの大規模日語データ公開に関する特別セッション@NLP2007に,家が近いこともあり参加してきましたので,その詳細を書きます. セッション概要と要旨 Googleは日語の言語処理研究のためにW

    聞いてきました:Googleの大規模日本語データ公開に関する特別セッション - のほほん徒然
    htktyo
    htktyo 2007/03/22
    ふむ,生ではないのか。そりゃそーだよなー。
  • 1