You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
MMD: Towards Building Large Scale Multimodal Domain-Aware Conversation Systems While multimodal conversation agents are gaining importance in several domains such as retail, travel etc., deep learning research in this area has been limited primarily due to the lack of availability of large-scale, open chatlogs. To overcome this bottleneck, in this paper we introduce the task of multimodal, domain-
「ロボットは東大に入れるか」プロジェクトで開発した大学入試センター試験1990年度~2017年度の電子化問題データを公開します。 このデータは、本プロジェクトにおいて、川添愛氏を中心としてXMLによる構造化仕様を策定し、アノテーションを実施したものです。 元データの著作権者である独立行政法人大学入試センターのご厚意により、人工知能などに関する研究のための資源として一般に公開します。 試験問題データ 開発用データ(development data) [1993年以降4年ごとに2017年度までのセンター試験 本試験および追試験] 開発テスト用データ(development test data) [1991年以降4年ごとに2015年度までのセンター試験 本試験および追試験] 最終テスト用データ(final test data) [1990年度以降2年ごとに2016年度までのセンター試験 本試験お
●ここでダウンロード購入できるのは、英辞郎 Ver.144.10(2024年4月7日修正版)のテキストデータです。(データのみであり、検索プログラムは含まれておりません。) 収録項目数: 198万9990 (“項目”の意味 ⇒ https://www.eijiro.jp/faq2.htm) ※ 2024年4月7日までに発見された間違いは修正されています。 ※ 漢字に読み仮名は付けられていません。 ※ 例辞郎、和英辞郎、略語郎は含まれていません。 ●この圧縮ファイル(EIJIRO144-10.ZIP)(サイズ=48,718,900バイト)をダウンロードして、ZIPを用いて展開すると、以下のテキストファイルが復元されます。 ファイル名: EIJIRO144-10.TXT サイズ: 153,327,921バイト 論理行数: 2,577,796 改行コード: CR+LF 日本語文字コード: Shi
CoQA is a large-scale dataset for building Conversational Question Answering systems. The goal of the CoQA challenge is to measure the ability of machines to understand a text passage and answer a series of interconnected questions that appear in a conversation. CoQA is pronounced as coca . CoQA paper CoQA contains 127,000+ questions with answers collected from 8000+ conversations. Each conversati
単語感情極性対応表 日本語および英語の単語とその感情極性の対応表を、 研究目的の利用に限り公開します。 感情極性とは、その語が一般的に良い印象を持つか(positive) 悪い印象を持つか(negative)を表した二値属性です。 例えば、「良い」、「美しい」などはpositiveな極性、 「悪い」、「汚い」などはnegativeな極性を持ちます。 感情極性値は、語彙ネットワークを利用して自動的に計算されたものです。 もともと二値属性ですが、-1から+1の実数値を割り当てました。 -1に近いほどnegative、+1に近いほどpositiveと考えられます。 リソースとして、日本語は「岩波国語辞書(岩波書店)」を、 英語はWordNet-1.7.1を使わせていただきました。 こちらからダウンロードしてください→[日本語] [英語] フォーマットは、各行が一単語に対応し、 見出し語:読み:品
Cookieについて/Privacy Overview 本ウェブサイトは、利便性、品質維持・向上を目的に、Cookieを使用しております。詳しくはプライバシーポリシーをご覧ください。 This website uses cookies for the purpose of maintaining and improving convenience and quality. For details, please see Privacy Policy. 設定/Settings同意する/Accept同意しない/Reject 本ウェブサイトでは、利便性向上を目的にCookieを使用しております。Webサイトの基本的な機能に不可欠なCookieは、ブラウザに保存されます。またウェブサイトへのアクセス状況を分析するため、サードパーティの必須ではないCookieも使用しています。必須ではないCooki
MITとIBM、映像内で何が起きているのかにラベル付けされた3秒動画の大規模データセット100万点を発表。AIシステムが動的な行動を理解する 2017-12-07 CSAIL MITとIBM Researchの研究者たちは、AIシステムが動画を認識し理解するのに役立つ動画ベースの大規模なデータセット「Moments in Time Dataset」を公開しました。 論文も発表しました。 Moments in Time Dataset: one million videos for event understanding(PDF) 本稿では、映像内のアクションやイベントにラベル付けされた3秒以内の動画が100万点あるデータセットを紹介します。例えば、以下の図を確認します。左に動画内の出来事が書かれたテキストが表示され、横一列にその出来事の3秒動画シーンが羅列します。 「Flying」であれば
Moments in Time Dataset A large-scale dataset for recognizing and understanding action in videos Moments is a research project dedicated to building a very large-scale dataset to help AI systems recognize and understand actions and events in videos. Today, the dataset includes a collection of one million labeled 3 second videos, involving people, animals, objects or natural phenomena, that capture
JSUT (Japanese speech corpus of Saruwatari-lab., University of Tokyo) The JSUT Collection is Japanese speech corpora connecting speech, song, and audio events. The JSUT corpus is a part of the JSUT Collection. JSUT コレクションは,声・歌・音声模倣をつなげるための音声コーパスです.このJSUT コーパスは,JSUT コレクションの一部です. This corpus consists of Japanese text (transcription) and reading-style audio. The audio data is sampled at 48kHz and rec
Brown clusters, an agglomerative, hierarchical clustering of word types based on contexts that was introduced in 1992 seem to come in vogue again. They were found to be particularly helpful for cross-lingual applications, while clusters were key features in several approaches: Mayhew et al. found that Brown cluster features were an important signal for cross-lingual NER. Botha et al. use word clus
ベンチャー投資の米国,EU,日本の比率(去年はもっと開いたが)そもそも新規事業に対する民間投資50:5:1とこれだけ差がある中で,日本はどうするのか? グローバル視点に切り替えたらどうか? 自国をフィンランドと思えば,施作は変わる.日本の産業構造(労働慣行)をどう変えるか.根っこの議論がないとだめ.日本の産業界はデータ利活用の対応できているのか? それができていないから,日本の産業はジリ貧になる.AIは技術じゃないよ!だから頭の良いデータサイエンティストをコンサルにおいてもデータ利活用は回らない.会社のITシステムを根っこからデータが上がって処理する仕組みを作らないと.会社のど真ん中にソフトウェアを分かっている経営者を置こう.Read less
米Yahoo!は現地時間2016年1月14日、教育機関の機械学習研究者向けに大規模なデータセットを公開すると発表した。大企業だからこそ蓄積できる真に大規模なデータセットを提供することで、機械学習およびレコメンダーシステム分野の発展を目指すとしている。 Yahoo!が公開する「Yahoo News Feed」データセットは、Yahoo!ホームページをはじめ、「ニュース」「スポーツ」「ファイナンス」「映画」「不動産」といったYahoo!サービスのニュースフィードにおけるユーザーの反応について情報を収集したもの。 2015年2月~5月にユーザー2000万人がニュース記事に対して実行したクリックなどのアクションを、個人が特定できないかたちで記録した。1100億件の記録から成るデータサイズは非圧縮状態で13.5Tバイトにのぼる。 またデータセットには、年齢層、性別、地域といったユーザーの統計情報のほ
機械学習をやっていると、どうしても、マナカナの画像を集めないといけない時があります。 マナカナの画像を効率的に集めるために、BingのSearch APIを使って画像のURLを取得し、 ダウンロードするようにします。 Bing API のAPIキーを取得する Bing Search API | Microsoft Azure Marketplace 月間5000トランザクションであれば、無料で使えるので、これをつかいます。 5000トランザクションもあれば十分だと思うので、右側にある、0円のものにサインアップします。 次の画面で、「前述の公開元のオファー条件とプライバシーポリシーを読み、内容に同意しました。」 のチェックを入れて、サインアップを押せばサインアップは完了です。 (microsoftのアカウントを持っている事が前提です。) サインアップが完了したら、 サービス エクスプローラー
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く