[B! Corpus] htktyoのブックマーク

はてなブログ | 無料ブログを作成しよう

RTA in Japan Winter 2024 に行ったら頭がリフレッシュできた会場に着くとでかいスクリーンにTwitchで見る配信画面が映っていて、RTA in JAPANを見に来たんだなという感覚が確かなものになった。空いている席に座ってゲームを見ていると、当たり前だがとにかく高速でゲームが進んで行く。この日はポケットモンスターピカチュウ …

htktyo 2011/04/25

Corpus

リンク

はじめに現在、日本国内で比較的に低コストで入手可能なコーパス・言語資源の概要と入手方法を紹介します。主に現代語の研究を想定したものです．書き言葉青空文庫内容:ネット上の電子図書館『青空文庫』の公開作品を一枚に収録しています。入手方法1:「蔵書○○○○」という形で毎年更新版を500円で販売しています。現在は完売に購入はできないようです。入手方法2:『インターネット図書館　青空文庫』を購入するとＤＶＤ-ＲＯＭ（青空文庫4843作品ほか収録）が付いてきます。関連文章:夷石寿賀子, 千葉庄寿, 陳君慧 (2006)「『青空文庫』を言語コーパスとして使おう―メタデータ構築による歴史的・社会言語学的研究への応用の試み―」(言語処理学会第12回年次大会 (NLP2006) 発表論文集 pp.915-918) 茶漉による青空文庫の検索: 日本語用例・コロケーション抽出システム『茶漉』によ

htktyo 2011/03/26

Research

リンク

国立国語研究所の言語コーパス整備計画KOTONOHA

モニター公開データの内容モニター公開データの利用条件等モニター公開データの申し込み方法モニター公開データに関するＱ＆Ａ現在構築中の「現代日本語書き言葉均衡コーパス」のうち、著作権処理が済んだサンプルについて、学術研究利用に限定してデータを公開します。モニター公開の目的は、実際にデータを使ってもらうことにより、コーパスの構築や活用に有益なフィードバックを得ること、及び、コーパスによる言語研究の普及を促すことの二つです。モニター公開データの内容モニター公開データは、DVDディスクで提供します。その中には以下の1～4のファイルが納められています。 1. サンプルの種類とファイル形式書籍約1,300万語（4,669サンプル）（プレーンテキスト／XMLファイル）白書約500万語（1,500サンプル）（プレーンテキスト／XMLファイル） Yahoo!知恵袋約500万語（45

htktyo 2008/09/10

Corpus

リンク

Google Japan Blog: 大規模日本語 n-gram データの公開

突然ですが、穴埋めクイズです。下線部に入る単語はなんでしょう? グーグルで_____ おそらく、「検索」「調べる」「探す」といった単語を思いつくのではないでしょうか？実際に、Webにあるドキュメントをくまなく調べ、「グーグルで」の後にくる単語を調べると、「検索」が1位であるとがわかります。一般に、直前の(N-1)個の単語を見て、次の単語を予測するモデルをN-gram言語モデルといいます。さきほどは、「グーグル」と「で」の2単語から次を予想しているので、3-gram言語モデルの例となります。現時点の単語が、直前の(N-1)個のみに影響を受けるという仮説は、一見現実離れしているようですが、実際には非常に有効な場合も多く、かな漢字変換、OCRのエラー訂正、機械翻訳、音声認識などに広く用いられています。たとえば、音声認識の場合、ノイズ等で現時点の単語をシステムが聞き取れなくても、言語モデル

htktyo 2007/11/02

リンク

[を] Webとコーパス第五回「リーズ大学の多言語コーパス検索サイト」

Webとコーパス第五回「リーズ大学の多言語コーパス検索サイト」 2007-10-15-3 [WebAndCorpus] Web上のテキストデータをコーパスとして見る、というテーマでブログ記事を書いていて、今回で5回目になります。今回はリーズ大学の多言語コーパス検索サイトの話。こういう活動は頭が下がります。なお、この記事は「三省堂辞書サイトのブログ」へも転載という形で提供していますので、そちらでもお楽しみ下さい。 - ウェブコーパス徹底活用　第五回「リーズ大学の多言語コーパス検索サイト」 - Sanseido Word-Wise Web ［三省堂辞書サイト］ http://dictionary.sanseido-publ.co.jp/wp/ § ■ウェブコーパス徹底活用　第五回「リーズ大学の多言語コーパス検索サイト」この連載の第二回[2007-09-03-1]で紹介した拙作「

htktyo 2007/10/16

Corpus

リンク

メディア・パブ: NYTのアーカイブ開放，新聞社サイトが新局面に

NYT（New York Times）のサイト（NYTimes.com)が，有料サービスTimesSelectに終止符を打った。これは，これからのコンテンツビジネス，中でもニュースサイトの在り方に大きな影響を及ぼしそうだ。衝撃的な過去記事の無料化 TimesSelectの有料コンテンツとしては，過去記事を除けば，売り物にOp-Edなどのコラム記事くらいしかなかった。最新のニュースコンテンツは以前から無料で開放していた。だから，TimesSelectが終了してコラム記事が無料になったからと言って，一般のニュースユーザーにすれば，とりたてて大騒ぎするようなことではない。だがサプライズもあった。TimesSelectの終了に合わせて，新聞紙を含めたNYTの過去記事の多くを無料閲覧できるようになったからだ。正確には，1987年以降の過去20年間の記事全てが無料となった。さらに，それ以前の昔の記

htktyo 2007/10/02

Corpus

リンク

カイ二乗値で単語間の関連の強さを調べる

カイ二乗値で単語間の関連の強さを調べる 2007-09-19-1 [Algorithm][Programming] カイ２乗値を使って単語間の関連度を調べる方法。つまり、関連語を探すときに、χ二乗値を関連度として使う。 perl によるサンプルコード (chiword.pl)。昔、勉強がてら作ったコード。 #!/usr/bin/perl use strict; use warnings; my %cnt; my $pair_num; while (<>) { chomp; next if /^\s*$/; my @list = sort split(/,/, $_); for (my $i = 0; $i < @list; $i++) { for (my $j = $i + 1; $j < @list; $j++) { next if $list[$i] eq $list[$j]; $c

htktyo 2007/09/24

Corpus

リンク

聞いてきました：Googleの大規模日本語データ公開に関する特別セッション - のほほん徒然

第四十七回写真はGigazineのマネです(笑) 3月に滋賀で行われる言語処理学会全国大会で、グーグルが特別セッションをやるそうです。大規模日本語データについて。たつをさんのブログで知ったGoogleの特別セッション．グーグル株式会社では、日本語の言語処理研究推進のため大規模日本語データの公開を検討しています。つきましては仕様を決定するにあたり、実際にデータを御利用頂く研究者 / 技術者の皆様の「生の声」を是非お伺いしたく存じます。今回、言語処理学会様の御好意により、下記のとおりデータ仕様に関する特別セッションを設けて頂ける事になりました。はてなブックマークでも話題になっているGoogleの大規模日本語データ公開に関する特別セッション@NLP2007に，家が近いこともあり参加してきましたので，その詳細を書きます．セッション概要と要旨 Googleは日本語の言語処理研究のためにW

htktyo 2007/03/22

ふむ，生ではないのか。そりゃそーだよなー。

リンク

はてなブックマーク

タグ

関連タグで絞り込む (2)

Corpusに関するhtktyoのブックマーク (8)

お知らせ

今週のはてなブックマーク数ランキング（2025年4月第3週）

今週のはてなブックマーク数ランキング（2025年4月第2週）

今週のはてなブックマーク数ランキング（2025年4月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス