[B! 言語資源] jnlpのブックマーク

United States

Google is a 'monopolist' that violated antit rust laws, court findsThe court's ruling is likely to change the way Google Search functions and open the door to competition.

jnlp 2011/10/03

リンク

Baidu Japan（バイドゥ株式会社）

このページをブックマーク登録されていた方は、お手数ですがブックマークの変更をお願いいたします。なお、このページは５秒後に自動的にジャンプします。自動的にジャンプしない場合は、下記のリンクをクリックして下さい。

jnlp 2011/09/26

言語資源

リンク

GitHub - whym/wikihadoop: Stream-based InputFormat for processing the compressed XML dumps of Wikipedia with Hadoop

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

jnlp 2011/08/17

リンク

ACI SOKENDAI

小松左京コーパス概要作家小松左京氏の全作品の全文データベースで，現在（2009年5月1日）2,022の作品が収録されています。本データベースは，文部科学省の科学研究費補助金・重点領域研究「人文科学とコンピュータ」（領域代表者：及川昭文，1996～1999年度）の研究会において同氏に招待講演を依頼したのがきっかけで，その構築が始まりました。同氏から提供を受けた電子データ，新たに入力したデータをあわせて約200万文字のコーパスとなっています。このデータベースは，教育及び研究用に利用するということで同氏より許諾を得ていますので，それ以外での利用はできません。著作権者の権利を侵害することのないように利用してください。 2009年5月1日運用責任者氏名及川昭文所属総合研究大学院大学連絡先住所〒240-0193 神奈川県三浦郡葉山町 e-mail a.oikawa(at)soke

jnlp 2011/07/28

言語資源

リンク

日英中基本文データ - LANGUAGE MEDIA PROCESSING LAB

更新履歴 † 2020/03/28 英訳の一部に誤りがあったため、修正(V1-3) 2011/07/26 一部に空行があったため、修正(V1-2) 2011/07/13 公開開始(V1) ↑ データ概要 † 日本語基本文データ (2011/7/13 京都大学黒橋・河原研究室) 京都大学格フレームをベースに日本語の基本的な文を自動抽出し、人手で修正を行った5304文。文中のメタ記号は下記を意味する。 X : 名詞句または「...すること」などの節～: 引用文 (「～と誰かが思った」など) ※ ただし、数量に挟まれた「２～３」などは通常の意味英語中国語基本文データ (2011/7/13 NICTマスタープロジェクト多言語翻訳研究室) 上記日本語基本文データを英語と中国語に翻訳したデータである。 ↑ サンプル † #0001 日: Xではないかとつくづく疑問に思う英: I often wo

jnlp 2011/07/15

リンク

ACL 2011 で公開された自然言語処理（言い換え系）データ

先週オレゴン州ポートランドで行われたACL2011という国際会議で発表されたデータのうち、すぐにダウンロードして面白い実験ができそうな言い換え系のデータを５つを紹介します。（他にもいろいろ面白い発表はあったのですが、テーマを絞ってみました。このブログの読者にどれだけ需要あるかわかりませんが・・・。）【1】 Session 1-E - Collecting Highly Parallel Data for Paraphrase Evaluation David Chen1 and William Dolan2 1The University of Texas at Austin, 2Microsoft Research 複数のメカニカルターカーが同じ動画に付けた注釈をパラレルコーパスにしたもの。（動画だと画像より解釈のブレが減るとか。）言い換えのみならず同じ事柄の違う解釈を含むため、ぱっと

jnlp 2011/07/02

リンク

Loading...

jnlp 2011/07/02

リンク

Amazon Mechanical Turk: Gold Mine or Coal Mine?

Last Words Amazon Mechanical Turk: Gold Mine or Coal Mine? Karën Fort∗ INIST-CNRS/LIPN Gilles Adda∗∗ LIMSI/CNRS K. Bretonnel Cohen† University of Colorado School of Medicine and University of Colorado at Boulder Recently heard at a tutorial in our ﬁeld: “It cost me less than one hundred bucks to annotate this using Amazon Mechanical Turk!” Assertions like this are increasingly common, but we beli

jnlp 2011/06/29

リンク

Apache UIMA - Apache UIMA

Welcome to the Apache UIMA™ project. Our goal is to support a thriving community of users and developers of UIMA frameworks, tools, and annotators, facilitating the analysis of unstructured content such as text, audio and video. What is UIMA? Unstructured Information Management applications are software systems that analyze large volumes of unstructured information in order to discover knowledge t

jnlp 2011/06/17

リンク

大規模データを無料で手に入れることのできるサイトまとめ - nokunoの日記

大規模データが公開されているサイトについて以下のQuoraでid:makimotoさんが質問していました。Data: Where can I get large datasets open to the public? - Quora以下、紹介されているサイトの一覧です。一部有料のものもあるようです。UCI Machine Learning RepositoryPublic Data Sets : Amazon Web ServicesCRAWDADno titleCity of Chicago | Data PortalGovLoop | Social Data Network for Governmentdata.gov.uk | Opening up governmentData.Medicare.GovData.Seattle.Gov | Seattle’s Data SiteOp

jnlp 2011/06/16

リンク

日本語係り受けコーパス(JDC)

概要日本語ウェブコーパス2010(NWC2010)(約1億ウェブページ)より CaboChaを用いて，助詞を介した語と語の係り受けを抽出したものです. 類似のコーパスとしてALAGINの日本語係り受けデータベースがあります. 本コーパスでは次のような形で収録されています. NCV (名詞) (助詞) (動詞) 338,092,129種類(約3.3億ユニークペア) レビューをお送りする 496 テレクラでいる 6 大気が存続する 1 化量を言う 1 Private と定義する 1 けんぎゅうかが伝来される 2 プロテスタンティズムを生み出す 1 脳内でアップされる 6 NCN (名詞) (助詞) (名詞) 166,724,808種類(約1.6億ユニークペア) 司会が仕事 25 こころというちよ 1 場所から大筒 1 見直しへ訴訟 3 ここ

jnlp 2011/06/09

言語資源

リンク

Wikipedia日英京都関連文書対訳コーパス

English Page 本コーパスについて『Wikipedia日英京都関連文書対訳コーパス』は、高性能な多言語翻訳、情報抽出システム等の構築を支援することを目的に作成された日英対訳コーパスです。国立研究開発法人情報通信研究機構がWikipediaの日本語記事（京都関連）を英語に翻訳し、作成しました。特徴人手翻訳による約50万文対を収録した精密かつ大規模なコーパスです。高性能な多言語翻訳、情報抽出システムの研究・開発等にご活用いただけます。翻訳の過程（一次翻訳→流暢さ改善のための二次翻訳→専門用語チェックの3段階）が記録されています。訳文が精緻化されていく過程を観察できるため、翻訳支援ツールの開発、人手翻訳における誤り分析等にもご活用いただけます。京都に関する内容を中心に、日本の伝統文化、宗教、歴史等の分野をカバーしています。各種観光情報の英訳や通訳ガイドのための用語集作成

jnlp 2011/06/01

リンク

Alcohol language corpus: the first public corpus of alcoholized German speech - Language Resources and Evaluation

jnlp 2011/05/28

リンク

言語情報処理ポータル

言語資源・ツールのカタログを更新いたしました。(2008.10.15) 人材募集を2件更新いたしました。(2008.7.29) 新刊案内を2件追加いたしました。(2008.06.22) 言語資源メタデータDB SHACHI へのリンクを追加しました。(2008.03.27) 人材募集を1件更新いたしました。(2007.11.13) Wikiを開設いたしました。(2007.10.29) 今日11月11日は1が4つ並ぶ珍しい日です。これにちなんだ記念日がたくさんあるのではと思って調べたところ、今日は西陣の日、チーズの日、ピーナッツの日、電池の日、靴下の日、鮭の日、折り紙の日、ポッキー＆プリッツの日、だそうです。最後以外は1が並ぶこととはあんまり関係なさそうですね。(し)

jnlp 2011/05/26

リンク

Streaming API Documentation | dev.twitter.com

August 16, 2010 The @twitter api team will be shutting off basic authentication on the Twitter API. All applications, by this date, need to switch to using OAuth. Read more » Don't fret! @twitter api is here to help! Feel free to reach out to us directly, or via our Twitter Development Talk group. The switch to OAuth is a good thing! You, as the application developer, don't have the burden of keepin

jnlp 2011/05/24

リンク

日本語ウェブコーパス 2010

概要本コーパスの HTML アーカイブは，ipadic-2.7.0 の見出し語をシードとして，かつての Yahoo! Web API による検索結果に含まれるウェブページを収集したものです．テキストの抽出においては，文字コードを UTF-8 に統一した後，いくつかの記号をデリミタとして文への分割をおこない，さらに文を構成する文字の種類や数によるフィルタリングを施しています．N-gram コーパスについては，テキストアーカイブに出現する頻度 10 以上の N-gram を収録しています．本コーパスの英語名称は Nihongo Web Corpusn 2010 (NWC 2010) です．謝辞本コーパスの作成においては，様々なウェブサービス，ツール，コーパスを利用させていただきました．開発者・研究者の皆様に感謝いたします．コーパスの作成・保存・配布には Amazon Web Serv

jnlp 2011/05/18

言語資源

リンク

日本語 WordNet (wn-ja)

日本語 WordNet リリース * 画像 * ダウンロード * 今後の予定 * 参考文献 * リンク * English 本プロジェクトでは、 Princeton WordNet や Global WordNet Gridに着想をえて、日本語のワードネットを構築し、オープンで公開します。独立行政法人情報通信研究機構（NICT）では、自然言語処理研究をサポートする一環として、2006年に日本語ワードネットの開発を開始しました。最初の版、version 0.9は、2009年2月にリリースされました。このversion 0.9は、 Princeton WordNetのsynsetに対応して日本語をつけています。もちろん、 Princeton WordNetにはない日本語synsetを付与する必要があり、また、 Princeton WordNetにみられるsynsetの階層構造に、

jnlp 2011/05/13

言語資源

リンク

はてなブックマーク

タグ

関連タグで絞り込む (12)

言語資源に関するjnlpのブックマーク (17)

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第2週）

今週のはてなブックマーク数ランキング（2024年8月第1週）

月間はてなブックマーク数ランキング（2024年7月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス