hogelogのブックマーク / 2007年3月21日

Google Corpus #2 - odz buffer

ref:のほほん徒然 - 聞いてきました：Googleの大規模日本語データ公開に関する特別セッションまとめお疲れ様です。あー、やっぱオリジナルを復元できないことが前提で、単語 n-gram なんかになるのね。とりあえず機械学習方面には使いにくそうだ。自分も使うかどうかといえば微妙なところだなぁ。大規模Webデータといっても，かなり学術的なデータになるようで，言語処理やそこに関わる研究分野としては，今までになかった*1「書き言葉・話し言葉」での大規模なコーパスデータは歓迎できるものではないでしょうか．なくはない。NTCIR-4 WEBとか、CSJとか。なお，コーパスとか著作権，係り受け解析などの専門的な内容は誰かが解説してくれるのではないかと期待しつつ書いてみるメソッドを発動します．じゃ、とりあえず Wikipedia にリンクしておく。 ref:コーパス - Wikipedia

はてなブックマーク

タグ

2007年3月21日のブックマーク (1件)

Google Corpus #2 - odz buffer

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第3週）

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス