米Twitterは2月5日(現地時間)、公開されているTwitterデータ(いわゆる「Firehose」)を学術研究者に無償で提供する試験的なプロジェクト「Twitter Grants」を発表した。 参加を希望する非営利の学術研究機関はエントリーページから申し込める。締め切りは3月15日。選考後、一部の参加希望者がFirehoseに無償でアクセスできるようになる。 公開ツイートは1日当たり5億件以上投稿されており、累計すると膨大な量になる。Twitterは米Microsoftなどの企業には有償でこのデータへのアクセスを提供している。Twitterが同日発表した2013年10~12月期の決算によると、データライセンスなどの売り上げは2300万ドルだった。 Twitterは社内のエンジニアリングチームで開発したツイートデータを使った幾つかの視覚化動画を発表している。また、これまで一部の学術機関
This is a list of data that can be used for creating machine translation systems to-from Japanese. It focuses on Japanese-English, but at the bottom there is info on data sets for Japanese aligned with other languages as well. If I am missing any data, please tell me! If you want a general purpose list of parallel texts, there are several others: 1 2 3. Japanese-English Parallel Corpora These corp
■NINJAL-LWP for TWC とは NINJAL-LWP for TWC(ニンジャル・エルダブリュピー・フォー・ティーダブリュシー、略称NLT)は、日本語のウェブサイトから収集して構築した約11億語のコーパス『筑波ウェブコーパス』(Tsukuba Web Corpus: TWC)を検索するためのツールです。検索には、国立国語研究所(以下、国語研)とLago言語研究所が共同開発したコーパス検索システムNINJAL-LWP(NINJAL-LagoWordProfiler)を利用しています。同じシステムを利用したツールに、国語研が構築した1億語の『現代日本語書き言葉均衡コーパス』(Balanced Corpus of Comtemporary Written Japanese: BCCWJ)を検索するNINJAL-LWP for BCCWJ(NLB)があります。 このツールはレキシカル
■NINJAL-LWP for BCCWJ とは NINJAL-LWP for BCCWJ(以下、NLB)は、国立国語研究所(以下、国語研)が構築した『現代日本語書き言葉均衡コーパス』(Balanced Corpus of Contemporary Written Japanese: BCCWJ)を検索するために、国語研とLago言語研究所が共同開発したオンライン検索システムです。国語研の共同研究プロジェクト「日本語学習者用基本動詞用法ハンドブックの作成」(リーダー:プラシャント・パルデシ)、「日本語レキシコンの文法的・意味的・形態的特性」(リーダー:影山太郎)、「述語構造の意味範疇の普遍性と多様性」(リーダー:プラシャント・パルデシ)による研究成果の一部です。 国語研からはBCCWJ用のオンラインコンコーダンサとして中納言が公開されていますが、NLBはコンコーダンサとは異なるレキシカルプ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く