Google is a 'monopolist' that violated antitrust laws, court findsThe court's ruling is likely to change the way Google Search functions and open the door to competition.
![United States](https://cdn-ak-scissors.b.st-hatena.com/image/square/24ce73e8891d34a55f79965f4ba13ae7f8568fbe/height=288;version=1;width=512/https%3A%2F%2Fwww.computerworld.com%2Fwp-content%2Fuploads%2F2024%2F04%2Fcw-share-image.jpg%3Fquality%3D50%26strip%3Dall%26w%3D1024)
小松左京コーパス 概要 作家小松左京氏の全作品の全文データベースで,現在(2009年5月1日)2,022の作品が収録されています。 本データベースは,文部科学省の科学研究費補助金・重点領域研究「人文科学とコンピュータ」(領域代表者:及川昭文,1996~1999年度)の研究会において同氏に招待講演を依頼したのがきっかけで,その構築が始まりました。同氏から提供を受けた電子データ,新たに入力したデータをあわせて約200万文字のコーパスとなっています。 このデータベースは,教育及び研究用に利用するということで同氏より許諾を得ていますので,それ以外での利用はできません。著作権者の権利を侵害することのないように利用してください。 2009年5月1日 運用責任者 氏名 及川昭文 所属 総合研究大学院大学 連絡先住所 〒240-0193 神奈川県三浦郡葉山町 e-mail a.oikawa(at)soke
更新履歴 † 2020/03/28 英訳の一部に誤りがあったため、修正(V1-3) 2011/07/26 一部に空行があったため、修正(V1-2) 2011/07/13 公開開始(V1) ↑ データ概要 † 日本語基本文データ (2011/7/13 京都大学黒橋・河原研究室) 京都大学格フレームをベースに日本語の基本的な文を自動抽出し、人手で修正を行った5304文。文中のメタ記号は下記を意味する。 X : 名詞句または「...すること」などの節 ~: 引用文 (「~と誰かが思った」など) ※ ただし、数量に挟まれた「2~3」などは通常の意味 英語中国語基本文データ (2011/7/13 NICTマスタープロジェクト多言語翻訳研究室) 上記日本語基本文データを英語と中国語に翻訳したデータである。 ↑ サンプル † #0001 日: Xではないかとつくづく疑問に思う 英: I often wo
先週オレゴン州ポートランドで行われたACL2011という国際会議で発表されたデータのうち、すぐにダウンロードして面白い実験ができそうな言い換え系のデータを5つを紹介します。(他にもいろいろ面白い発表はあったのですが、テーマを絞ってみました。このブログの読者にどれだけ需要あるかわかりませんが・・・。) 【1】 Session 1-E - Collecting Highly Parallel Data for Paraphrase Evaluation David Chen1 and William Dolan2 1The University of Texas at Austin, 2Microsoft Research 複数のメカニカルターカーが同じ動画に付けた注釈をパラレルコーパスにしたもの。(動画だと画像より解釈のブレが減るとか。)言い換えのみならず同じ事柄の違う解釈を含むため、ぱっと
Last Words Amazon Mechanical Turk: Gold Mine or Coal Mine? Karën Fort∗ INIST-CNRS/LIPN Gilles Adda∗∗ LIMSI/CNRS K. Bretonnel Cohen† University of Colorado School of Medicine and University of Colorado at Boulder Recently heard at a tutorial in our field: “It cost me less than one hundred bucks to annotate this using Amazon Mechanical Turk!” Assertions like this are increasingly common, but we beli
Welcome to the Apache UIMA™ project. Our goal is to support a thriving community of users and developers of UIMA frameworks, tools, and annotators, facilitating the analysis of unstructured content such as text, audio and video. What is UIMA? Unstructured Information Management applications are software systems that analyze large volumes of unstructured information in order to discover knowledge t
大規模データが公開されているサイトについて以下のQuoraでid:makimotoさんが質問していました。Data: Where can I get large datasets open to the public? - Quora以下、紹介されているサイトの一覧です。一部有料のものもあるようです。UCI Machine Learning RepositoryPublic Data Sets : Amazon Web ServicesCRAWDADno titleCity of Chicago | Data PortalGovLoop | Social Data Network for Governmentdata.gov.uk | Opening up governmentData.Medicare.GovData.Seattle.Gov | Seattle’s Data SiteOp
概要 日本語ウェブコーパス2010(NWC2010)(約1億ウェブページ)より CaboChaを用いて, 助詞を介した語と語の係り受けを抽出したものです. 類似のコーパスとしてALAGINの日本語係り受けデータベースがあります. 本コーパスでは次のような形で収録されています. NCV (名詞) (助詞) (動詞) 338,092,129種類(約3.3億ユニークペア) レビュー を お送りする 496 テレクラ で いる 6 大気 が 存続する 1 化量 を 言う 1 Private と 定義する 1 けんぎゅうか が 伝来される 2 プロテスタンティズム を 生み出す 1 脳内 で アップされる 6 NCN (名詞) (助詞) (名詞) 166,724,808種類(約1.6億ユニークペア) 司会 が 仕事 25 こころ という ちよ 1 場所 から 大筒 1 見直し へ 訴訟 3 ここ
English Page 本コーパスについて 『Wikipedia日英京都関連文書対訳コーパス』は、高性能な多言語翻訳、情報抽出システム等の構築を支援することを目的に作成された日英対訳コーパスです。国立研究開発法人情報通信研究機構がWikipediaの日本語記事(京都関連)を英語に翻訳し、作成しました。 特徴 人手翻訳による約50万文対を収録した精密かつ大規模なコーパスです。 高性能な多言語翻訳、情報抽出システムの研究・開発等にご活用いただけます。 翻訳の過程(一次翻訳→流暢さ改善のための二次翻訳→専門用語チェックの3段階)が記録されています。 訳文が精緻化されていく過程を観察できるため、翻訳支援ツールの開発、人手翻訳における誤り分析等にもご活用いただけます。 京都に関する内容を中心に、日本の伝統文化、宗教、歴史等の分野をカバーしています。 各種観光情報の英訳や通訳ガイドのための用語集作成
言語資源・ツールのカタログを更新いたしました。(2008.10.15) 人材募集を2件更新いたしました。(2008.7.29) 新刊案内を2件追加いたしました。(2008.06.22) 言語資源メタデータDB SHACHI へのリンクを追加しました。(2008.03.27) 人材募集を1件更新いたしました。(2007.11.13) Wikiを開設いたしました。(2007.10.29) 今日11月11日は1が4つ並ぶ珍しい日です。これにちなんだ記念日がたくさんあるのではと思って調べたところ、今日は西陣の日、チーズの日、ピーナッツの日、電池の日、靴下の日、鮭の日、折り紙の日、ポッキー&プリッツの日、だそうです。最後以外は1が並ぶこととはあんまり関係なさそうですね。(し)
August 16, 2010 The @twitterapi team will be shutting off basic authentication on the Twitter API. All applications, by this date, need to switch to using OAuth. Read more » Don't fret! @twitterapi is here to help! Feel free to reach out to us directly, or via our Twitter Development Talk group. The switch to OAuth is a good thing! You, as the application developer, don't have the burden of keepin
概要 本コーパスの HTML アーカイブは,ipadic-2.7.0 の見出し語をシードとして,かつての Yahoo! Web API による検索結果に含まれるウェブページを収集したものです.テキストの抽出においては,文字コードを UTF-8 に統一した後,いくつかの記号をデリミタとして文への分割をおこない,さらに文を構成する文字の種類や数によるフィルタリングを施しています.N-gram コーパスについては,テキストアーカイブに出現する頻度 10 以上の N-gram を収録しています. 本コーパスの英語名称は Nihongo Web Corpusn 2010 (NWC 2010) です. 謝辞 本コーパスの作成においては,様々なウェブサービス,ツール,コーパスを利用させていただきました.開発者・研究者の皆様に感謝いたします. コーパスの作成・保存・配布には Amazon Web Serv
日本語 WordNet リリース * 画像 * ダウンロード * 今後の予定 * 参考文献 * リンク * English 本プロジェクトでは、 Princeton WordNet や Global WordNet Gridに 着想をえて、日本語のワードネットを構築し、オープンで公開します。 独立行政法人情報通信研究機構(NICT)では、自然言語処理研究をサポー ト する一環として、2006年に日本語ワードネットの開発を開始しました。最初の 版、version 0.9は、2009年2月にリリースされました。このversion 0.9は、 Princeton WordNetのsynsetに対応して日本語をつけています。もちろん、 Princeton WordNetにはない日本語synsetを付与する必要があり、また、 Princeton WordNetにみられるsynsetの階層構造に、
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く