並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 7 件 / 7件

新着順 人気順

コーパスとはの検索結果1 - 7 件 / 7件

  • AIを開発するために必要なデータが急速に枯渇、たった1年で高品質データの4分の1が使用不可に

    AIの開発にはインターネットからかき集めたテキスト、画像、動画などのデータが大量に用いられています。しかし、クローリングの禁止やサービス利用規約の変更によりAI企業がウェブサイトから閉め出されたことで、高性能なAIのトレーニングに使えるデータの総量が1年で約5%、高品質なデータの約25%が使えなくなったことがわかりました。 Data Provenance Initiative https://www.dataprovenance.org/consent-in-crisis-paper Data for A.I. Training Is Disappearing Fast, Study Shows - The New York Times https://www.nytimes.com/2024/07/19/technology/ai-data-restrictions.html AIモデル

      AIを開発するために必要なデータが急速に枯渇、たった1年で高品質データの4分の1が使用不可に
    • 「LLM-jp Toxicity Dataset」の公開

      日本語有害文書データセット「LLM-jp Toxicity Dataset」の公開についてお知らせいたします。 https://gitlab.llm-jp.nii.ac.jp/datasets/llm-jp-toxicity-dataset 本データセットは、有害文書検出技術の研究開発を目的として、Common Crawlコーパスから収集した日本語文書に対し、有害性に基づいて人手でラベル付けしたものです。有害かどうかのラベルに加え、猥褻、差別、暴力、違法行為などの有害性の中身についてもラベルが付与されています。全部で1,847件のラベル付き文書が含まれており、ライセンスはCC-BYで商用利用も可能です。是非ご活用いただければと思います。 詳しくは、上記リポジトリのREADMEと以下の論文をご覧ください。 LLM-jp: A Cross-organizational Project for

      • 生成AIは人間の創造性を高めるか? 新研究で限界が明らかに

        生成AIは、人間の創造性にどのような影響を与えるのだろうか。ある研究によると、レベルの底上げにはつながるものの、元々創造性の高い人にはほとんど影響がないことが明らかになった。 by Rhiannon Williams2024.07.19 22 この記事の3つのポイント 生成AIは文章や画像の作成を容易にするものの人間の創造性向上には限界 創造性の低い人の作品の質は向上する一方、創造性の高い人の質は変わらない AIを利用して作られた物語は人間だけで作ったものより似通る傾向に summarized by Claude 3 生成AI(ジェネレーティブAI)モデルのおかげで、文章や画像、映像クリップや音声トラックにいたるまで、あらゆるものをよりシンプルかつ素早く作成できるようになった。人間が作ったら何年もかかるかもしれない文章やメディアが、今では数秒で生成できる。 確かにAIが作るものは一見創造的

          生成AIは人間の創造性を高めるか? 新研究で限界が明らかに
        • [PDF] Google Cloud 生成AI 活用事例集

          Contents 顧客体験の改善 ● チャットボット / バーチャル アシスタント KDDI株式会社 株式会社スリーシェイク ● エージェント アシスト / 会話分析 The Wendy's Company 日本情報通信株式会社 ● パーソナライゼーション Estée Lauder Companies Inc. Spotify 従業員の生産性向上 ● 対話型情報収集 イオンフィナンシャルサービス株式会社 エイチ・ツー・オー リテイリング株式会社 クラウドエース株式会社 シスメックス株式会社 ソフトバンク株式会社 株式会社WFS 東洋建設株式会社 日本テレビ放送網株式会社 中外製薬株式会社 日本特殊陶業株式会社 Ubie株式会社 株式会社LIXIL ● コード生成 住友ゴム工業株式会社 ● 自動レポーティング 株式会社QTnet 株式会社ソニックス 3 ● 検索 TieUps株式会社 For

          • LLMを使ったかな漢字変換|朝日新聞社 メディア研究開発センター

            こんにちは。メディア研究開発センターの山野です。私は普段は音声処理や自然言語処理やそれらの技術を使ったプロダクト開発などに従事しています。 さて今回は朝日新聞記事データを使ったニューラル仮名漢字変換について簡易な実験をしたのでその結果を共有します。 はじめに多くの問題を解くことができるLLMですが、ひらがな列Xをかな漢字混じり文Yへ変換する仮名漢字変換については、単語の読み方とその表記の関連性を学習する必要があり、現時点(2024年7月8日)ではLLMでもうまく解くことができません。 実はほとんど全てのオープンな日本語LLMはかな漢字変換が全く出来ません。 出典: https://zenn.dev/azookey/articles/ea15bacf81521e(ちなみに私はiPhoneのキーボードをazooKeyに変更してしばらく経ちますがとても使い勝手/心地が良いのでオススメです。) そ

              LLMを使ったかな漢字変換|朝日新聞社 メディア研究開発センター
            • 医療・ヘルスケア領域における大規模言語モデルの構築に向けて - Preferred Networks Research & Development

              この記事は、パートタイムエンジニアの川上航さんとLLM応用に取り組んでいるエンジニアの鈴木渓太とリサーチャーの岩澤諄一郎による寄稿です。 概要 既存の大規模言語モデル (LLM) に対して医療ドメインの独自コーパスを用いた finetuning を行い、医療特化の大規模言語モデル Llama3-Preferred-MedSwallow-70B を開発しました。 Llama3-Preferred-MedSwallow-70B は日本医師国家試験において、 GPT-4 を上回る成績を収め、Hugging Face Hub で公開されているモデルの中で最高性能を誇ります。 PFN では医療・ヘルスケアを含む様々な分野での LLM 活用を目指し、引き続き研究開発を進めていきます。 はじめに 大規模言語モデル (Large Language Model, LLM) は医療やヘルスケアの分野で診断補助

                医療・ヘルスケア領域における大規模言語モデルの構築に向けて - Preferred Networks Research & Development
              • 7月20日 LA旅行計画 - ZigZagDog’s diary

                LAと言えばディズニーですけど。。。 もうすぐ日本から母と甥っ子がやってきます。 3週間の滞在予定です。 1週目は海亀を見にコーパスクリスティへ行きます。2週目は甥っ子は英語学校へ行き、母は友達に会ったり、ランチをしたり適当に過ごします。そして3週目はロサンゼルスへ行きます。母と甥っ子はそこから日本へ帰ります。 帰りは母と甥っ子は朝一番に空港へ行き、私達は夕方の便なので2回に分けて空港へ行く事を想定して空港近くにホテルを取りました。ちょっと飛行機がうるさそうです。 LAで咲いていた薔薇が綺麗でした 困ったのはLAの交通事情や安全性がイマイチ分からない事です。大都会なので日本のように交通網は発達していそうですけど。空港近くのホテルからグリフィス天文台、サンタモニカやハリウッドへは時間もどれぐらいかかるのかわかりません。 テキサスなら全部車で解決できるんですけど、レンタカーは予定していません。

                  7月20日 LA旅行計画 - ZigZagDog’s diary
                1