タグ

corpusに関するfubaのブックマーク (21)

  • ゆいゆい日記内に出てくる顔文字の一覧です。左の数値は出現回数になっています。

    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

    ゆいゆい日記内に出てくる顔文字の一覧です。左の数値は出現回数になっています。
    fuba
    fuba 2013/11/22
    普通に便利
  • 大相撲 八百長 メール 内容 文章を全文掲載しました!

    大相撲 八百長 大相撲の八百長事件について。現在の「八百長メール事件」や、過去の八百長暴露事件、朝青龍や板井の八百長事件を追いかけます。 相撲協会はどうなるのか?国技・大相撲は存続できるのか? 相撲界に大激震をおよぼした大相撲の「八百長メール事件」ですが、結局唯一の物的証拠になっている「八百長メール」について、全文を掲載してみました。 ●2010.03.17 17:27 春日錦(かすがにしき) → 恵那司(えなつかさ) 俺は誰に借りているかな?貸しは光龍(こうりゅう)と山山だけだよね。豊(豊桜・とよざくら)さんは天狼(翔天狼・しょうてんろう?若天狼・わかてんろう?)と白(白乃波・しろのなみ)だよね。海鵬(かいほう・現谷川親方)は消えてるかな? ●2010.03.17 17:51 春日錦(かすがにしき) → 恵那司(えなつかさ) とりあえず借りていて無理なら星で返すことになっているよ!白(

    大相撲 八百長 メール 内容 文章を全文掲載しました!
    fuba
    fuba 2012/09/11
  • Tweets2011 Twitter Collection

    As part of the TREC 2011 microblog track, Twitter provided identifiers for approximately 16 million tweets sampled between January 23rd and February 8th, 2011. The corpus is designed to be a reusable, representative sample of the twittersphere - i.e. both important and spam tweets are included. The Tweets2011 corpus is unusual in that what you get is a list of tweet identifiers, and the actual twe

    fuba
    fuba 2011/09/02
    TREC 2011 microblog track で使ったコーパス、ID だけくれるので自前でクロール、だるそうだけど作っといた方がいいのかな…
  • ACL 2011 で公開された自然言語処理(言い換え系)データ

    先週オレゴン州ポートランドで行われたACL2011という国際会議で発表されたデータのうち、すぐにダウンロードして面白い実験ができそうな言い換え系のデータを5つを紹介します。(他にもいろいろ面白い発表はあったのですが、テーマを絞ってみました。このブログの読者にどれだけ需要あるかわかりませんが・・・。) 【1】 Session 1-E - Collecting Highly Parallel Data for Paraphrase Evaluation David Chen1 and William Dolan2 1The University of Texas at Austin, 2Microsoft Research 複数のメカニカルターカーが同じ動画に付けた注釈をパラレルコーパスにしたもの。(動画だと画像より解釈のブレが減るとか。)言い換えのみならず同じ事柄の違う解釈を含むため、ぱっと

    ACL 2011 で公開された自然言語処理(言い換え系)データ
  • 大規模コーパスを無料で手に入れることのできるサイトまとめ - nokunoの日記

    大規模コーパスを無料で手に入れることのできるサイトについて、Quoraで質問したところ回答があったのでまとめてみました。質問してから気づいたのですが、QuoraにはText Corporaというカテゴリがあってその中に似た質問がいくつかあったので、合わせてまとめています。Text Corpora - Quora今回のエントリは主に英語のコーパスに関するものなので、日語コーパスの情報については以下のエントリをご覧ください。NLP関係のリソースまとめ - nokunoの日記大規模データのエントリが伸びており、この問題に関心のある人の多さが伺えますね。NLP屋としてはやはり、大規模データの中でもテキストデータ(コーパス)に興味のあるところです。 大規模データを無料で手に入れることのできるサイトまとめ - nokunoの日記 タグ付きコーパス(ツリーバンク)Penn Tree bankWSJ C

  • はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知

    はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28

    はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知
  • WikiLeaks

    "Could become as important a journalistic tool as the Freedom of Information Act." - Time Magazine WikiLeaks is a non-profit media organization dedicated to bringing important news and information to the public. We provide an innovative, secure and anonymous way for independent sources around the world to leak information to our journalists. We publish material of ethical, political and historical

    fuba
    fuba 2010/12/07
    おもしろいのさがすのだるい…
  • HTML アーカイブを Amazon EBS のスナップショット化 - やた@はてな日記

    用途を情報解析研究に限定して,HTML アーカイブを保存した Amazon EBS のスナップショットを公開することにしました.文字コードの統一すらしていないデータなので,取り扱いには苦労すると思います.とりあえず見てみたいという方や,自前で HTML のパーサを用意できる方など,ご連絡いただければ共有の設定をいたします. 詳細は以下のウェブページをご覧ください. HTML アーカイブ - 日語ウェブコーパス 2010 文字コードの統一,テキストの切り出し,Unicode の正規化,文の切り出しなど,N-gram コーパスの作成に用いたツールは後日公開するつもりです. また,N-gram コーパスを保存した Amazon EBS のスナップショットも公開しています.こちらは連絡不要です. N-gram コーパス - 日語ウェブコーパス 2010 # 実はスナップショットの共有機能を試し

    HTML アーカイブを Amazon EBS のスナップショット化 - やた@はてな日記
    fuba
    fuba 2010/09/23
    すごい
  • N-gram コーパス - 日本語ウェブコーパス 2010

    概要 ウェブページに出現する形態素 N-gram と文字 N-gram を頻度とともに収録したコーパスです.各 N-gram コーパスには,頻度 10/100/1000 以上の 1-gram から 7-gram までが収録されています. N-gram コーパスの構築においては,Google N-gram コーパスと同様の前処理を施しています.句点・感嘆符・疑問符を文の区切りとして利用しているので,「モーニング娘。」や「Yahoo!」などの固有名詞については,不適切な文の区切りがおこなわれています.また,文の区切りは削除するようになっているため,コーパス中に句点・感嘆符・疑問符は出現しません. 形態素 N-gram コーパス,文字 N-gram コーパスともに,文境界マーク(<S>,</S>)は採用していますが,未知語トークン(<UNK>)は採用していません.また,文字 N-gram コーパ

  • 今度は文字 N-gram コーパスを作成しました - やた@はてな日記

    追記(2010-09-22):完成版がこちら(N-gram コーパス - 日語ウェブコーパス 2010)にあります. 前回は形態素 N-gram コーパスを作成したので,今回は文字 N-gram コーパスを作成してみました.正確には,Unicode のコードポイント N-gram です. ダウンロード 文字 N-gram コーパス(頻度 100 以上) ファイル名(URL) サイズ [bytes] http://dist.s-yata.jp/2010/0807/over99/1gms/1gm-0000.xz 27,932 http://dist.s-yata.jp/2010/0807/over99/2gms/2gm-0000.xz 3,086,292 http://dist.s-yata.jp/2010/0807/over99/3gms/3gm-0000.xz 21,169,168 ht

    今度は文字 N-gram コーパスを作成しました - やた@はてな日記
  • ウェブコーパスの一部から形態素 N-gram コーパスを作成しました - やた@はてな日記

    追記(2010-09-22):完成版がこちら(N-gram コーパス - 日語ウェブコーパス 2010)にあります. 追記(2010-08-06):文末記号(</S>)を追加したものを作成しました(形態素 N-gram コーパスの修正版 - やた@はてな日記). ダウンロード 頻度が 100 以上の N-gram を収録したもの(over99)と,頻度が 10 以上の N-gram を収録したもの(over9)を用意しました.少しでも圧縮できるように,形態素数によるファイルの分割はおこなっていません. ファイル名 サイズ 展開時のサイズ over99-0000.xz 84,443,192 bytes 459,278,821 bytes ファイル名 サイズ 展開時のサイズ over9-0000.xz 329,101,340 bytes 2,147,483,623 bytes over9-0

    ウェブコーパスの一部から形態素 N-gram コーパスを作成しました - やた@はてな日記
    fuba
    fuba 2010/07/30
    商用利用とかしても大丈夫そうなものなのでしょうか
  • GSK2010-B 甲南大学 こどもコーパス

    こどもコーパスは、児童が書いた文章から成るコーパスである。小学生66人を対象にして、8ヶ月間にわたって収集した言語データを収録している。教育研究活動に限り利用可能である。詳細は、付属のマニュアルを参照のこと。

  • Kiva - Loans that change lives

    Hello! We're Open! Developers worldwide are helping us make it easy and transparent to lend to the working poor via microfinance and the Kiva API. This is the home for all the information and tools you need to join us! Ready to Explore? The documentation section of the site is a manual of sorts for working with the API. We talk about conventions and best practices, and introduce you to some of the

    Kiva - Loans that change lives
  • 鳥バンク(Tori-Bank)

    語表現意味辞書 -重文複文編- Japanese Semantic Pattern Dictionary -Compound and Complex Sentence Eds.- 鳥バンクとは? 意味類型パターン辞書開発の経緯 提供資産の種類と利用方法 デモプログラム 構造検索サービス(パターンパーサ) このデモプログラムは、日本語入力文に対して、意味類型パターン辞書から、構造的に適合する文型パターンのすべてを探して出力するものです。 意味検索サービス(意味検索プログラム) このデモプログラムは、意味類型パターン辞書から、指定した統語的構造や意味を持つパターンのすべてを検索して出力するものです。 利用申し込み 利用申し込みに先立って 申し込み手続き等(研究開発用) 利用合意契約者専用ページ 契約時に通知されたユーザー名とパスワードが必要です。 鳥バンクによる権利侵害等の申し出について

  • 国立国語研究所が大規模コーパスを試験公開 - @IT

    2007/05/28 「風景」と「光景」の意味や使い方の違いは? そんな疑問に答えるためには、用例辞典が役立つ。しかし、文例が少なかったり具体的な使い分けの方法が分からなかったりといったことも少なくない。こうした問題に役立つのは物の文例を集めた実例集だ。人々が実際にどのように言葉を使っているのかを、その言語の母語話者が話したり書いたりした文例を集めることで解明する。 そうした文例集は言語学や情報処理の研究者の間では「コーパス」(corpus)と呼ばれている。コーパスを用いれば、例えば「風景」は、ほかの語彙と結びついて「心象風景」「研修風景」「風景鑑賞」などの合成語を作るのに対して、「光景」のほうは、「日常的光景」「歴史的光景」といった「的」を伴う3例をのぞいて合成語をほとんど作らないという違いが、すぐに分かる。 品詞情報や係り受けといった文法情報を付加することで、言語研究や辞書編纂といっ

  • MUST1: 日本語複合辞用例データベース v1.0

    MUST1とは 日語には、複数の形態素がひとまとまりとなって、ひとつの機能語相当語として働く表現が、数多く存在します。 このような表現は、一般に複合辞と呼ばれます。 日語複合辞用例データベース v1.0(以下では、MUST1と呼びます)は、複合辞の機械処理を研究するための基礎データを提供することを目的として設計・編纂したデータベースです。 - マニュアル(PDF) MUST1の構成 MUST1は、項目の集合(全125項目)として構成されています。 項目は、一つの複合辞(見出し語)に対するデータの総体を表します。 見出し語集合は、国立国語研究所編の『現代語複合辞用例集』に完全に準拠しています。 一つの項目は、複数の小項目から構成されています(全337小項目)。 小項目は、一つの見出し語を表記等に着目して細分化した小見出し語に対するデータの総体を表します。 各小項目には、最大50件の用例デ

  • Googleが大規模日本語データを公開するという話

    Googleが大規模日語データを公開するという話 2007-03-13-1 [NLP] 3月に滋賀で行われる言語処理学会全国大会で、グーグルが 特別セッションをやるそうです。大規模日語データについて。 Google: 大規模日語データ公開に関する特別セッション http://www.google.co.jp/events/anlp2007.html グーグル株式会社では、日語の言語処理研究推進のため大規模日語 データの公開を検討しています。つきましては仕様を決定するにあたり、実際 にデータを御利用頂く研究者 / 技術者の皆様の「生の声」を是非お伺い したく存じます。今回、言語処理学会様の御好意により、下記のとおり データ仕様に関する特別セッションを設けて頂ける事になりました。 日時: 2007年3月20日(火) 18:30 〜 19:00 会場: 龍谷大学 瀬田学舎 言語処理学会

    Googleが大規模日本語データを公開するという話
  • Google: 大規模日本語データ公開に関する特別セッション

    グーグル株式会社では、日語の言語処理研究推進のため大規模日語データの公開を検討しています。つきましては仕様を決定するにあたり、実際にデータを御利用頂く研究者 / 技術者の皆様の「生の声」を是非お伺いしたく存じます。今回、言語処理学会様の御好意により、下記のとおりデータ仕様に関する特別セッションを設けて頂ける事になりました。 講演終了後お疲れのところとは存じますが、是非ディスカッションに参加頂き、忌憚の無い御意見をお聞かせ願いたいと存じ上げます。

  • enron email explorer - information aesthetics

    a network visualization of the social networks generated by the Enron employees & based on the more than 200,000 internal Enron emails from 1999-2002. emails can be read & sorted by theme or people, while the network visualizer clarifies the connections between people. see also vizster & network visualization game. [link: trampolinesystems.com|via boingboing.net|thnkx Andy]

  • Kepo Yuk

    Trampolinesystems, Allianz Indonesia akhirnya angkat bicara mengenai keputusan Otoritas Jasa Keuangan (OJK) yang mencabut izin unit usaha syariah (UUS) milik perusahaan asuransi tersebut. Pencabutan ini menjadi sorotan besar di sektor…

    Kepo Yuk