You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
This repository contains the ARC task data, as well as a browser-based interface for humans to try their hand at solving the tasks manually. "ARC can be seen as a general artificial intelligence benchmark, as a program synthesis benchmark, or as a psychometric intelligence test. It is targeted at both humans and artificially intelligent systems that aim at emulating a human-like form of general fl
WEB上に掲載されているYahoo!知恵袋の質問とベストアンサーのデータ情報をCSV形式(EXCELで読み込み可能)で保存し、リスト作成するソフトです。 保存される情報は、質問内容、ベストアンサー、質問日時、ベストアンサー回答日時、閲覧数、回答数などをリスト化します。 データの出力例はこちら Yahoo!知恵袋サイトの仕様上、製品版では分類毎にデータを取得できる件数は最大1000件(10件×100ページ)までとなっています。 より多くの件数を取得した場合は、キーワードの変更やデータ出力順を変更してご利用ください。 製品版ファイルに含まれる「yhc_csv.exe」というファイルを実行してください。 実行して起動した画面のタイトル部分(Yahoo!知恵袋情報取得ソフト と表示されている箇所)を右クリックしますと、 上記左画像のメニュー一覧が表示されます。(※当ページよりダウンロードした体験版
こんにちは。AIチームの杉山です。 今回は、音声合成/音声認識を用いたテキストのdata augmentationの可能性について検討したいと思います。 背景 近年、BERTに代表される深層学習の発展により、自然言語処理の分野は特定のタスクにおいて大きな発展を見せています。大量のテキストで事前学習したモデルを、タスクに合わせて追加のデータでfine tuningすることで良い成果を出しているのが特徴の1つですが、言い換えるとプロダクトで実用するにはそのタスク用の追加データを自分たちで作成する必要があります。データの作成は、アノテーションをクラウドソーシングするなど少しずつ安価で大量に行う仕組みもできつつありますが、作成にかかるコストや時間の面ではまだ課題があります。 そこで、画像分類などでよく行われるdata augmentationをテキストデータに対して適用し、データ数をかさ増しするこ
※実際に試した方から「Yahoo!ショッピングの商品レビューが全て取得できているわけではないらしい」「期待したよりも取得できるデータが少ない」といった感想をもらっています。きちんと確認できていませんが、APIの仕様なのかもしれません。(2020/10/24追記) 概要 最近テキストマイニングの勉強を始めたのだが、いい感じのサンプルデータが手に入らず苦労した。自分と同じ悩みを抱えている人もいるかもしれないので、自力でサンプルデータを準備するまでの試行錯誤を記事にする。 なお、私は職場でアンケートの自由記述(感想とか要望とか)を分析することが多いので、なるべく似た形式のデータを手に入れるのが目標。 手段の検討 青空文庫 テキストマイニングの本でもよく見かける青空文庫は、著作権の消滅した文学作品などを掲載したWebサイト。ただ、アンケートデータには似ていないので今回は見送り。 メリット 簡単にか
These companies claim to provide “fair-trade” data work. Do they? AI業界の不都合な真実 ラベル付け作業の底辺競争 フェアトレードは実現するか 人工知能(AI)サービスを支える大量の訓練用データの作成は、多くの場合、劣悪な条件で働く人々に頼っている。しかし、自らを「インパクト」企業と呼び、訓練用データ作成の作業に従事する労働者に対し、従来より好待遇の労働環境を提供していると主張する企業のグループが登場している。 by Kate Kaye2019.10.04 128 181 39 9 ニューヨーク独特の寒さが厳しいある2月の午後、レオン・キャンベルはマンハッタンのミッドタウンにあるオフィスのデスクに身を潜めた。ゲーム関連のポッドキャストを準備し、ノートパソコンのソフトウェア・プラットフォームを立ち上げると、キャンベルは数時間、
Red teaming is a common strategy for identifying weaknesses in generative language models (LMs), where adversarial prompts are produced that trigger an LM to generate unsafe responses. Red teaming is instrumental for both model alignment and evaluation, but is labor-intensive and difficult to scale when done by humans. In this paper, we present Gradient-Based Red Teaming (GBRT), a red teaming meth
株式会社セラーバンク(本社:神奈川県川崎市、代表取締役社長:但見雄)は、日本語を学びながら日本語を売ることが出来るサービス「例文買取センター」(URL:https://reibuncnt.jp)の提供を開始しました。 例文買取センターの概要 例文買取センターは、みんなで考えた例文を日本語の勉強をしている多くの人に役立つものにするサービスです。 「例文を考える」→「メールで送る」→「Amazonギフト券が届く」という非常にシンプルな流れとなっています。 日本語を学びながら、日本語を売ることが出来ます。 例文買取センターの買い取り基準 「他の例文の内容と重複していない」「ちゃんとした文章になっている」という2つの条件を満たしていれば基本的には買い取るようにしています。 複数の方から上限を超える買取依頼があった場合は「長めの例文」「読者の役に立ちそうな例文」を優先しています。 また、買取依頼前に
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く