タグ

2024年5月25日のブックマーク (2件)

  • 自家中毒に陥る生成AI(八田真行) - エキスパート - Yahoo!ニュース

    生成AIとメディア企業の連携ChatGPT等で知られるOpenAIが、世界最大の掲示板サイトであるRedditとの連携を発表した(gihyo.jpの記事)。アナウンスには「OpenAIはRedditのデータAPIにアクセスし、Redditからリアルタイムで構造化されたユニークなコンテンツを獲得します」とあるので、Redditへの投稿を大々的に学習対象とするということのようである。 生成AIの性能改善で鍵となるのは学習データだが、最近ではトレーニングに使えるデータが枯渇しつつある。人間にとってはウィキペディアやワールド・ワイド・ウェブはとうてい汲み尽くせない広大な知の海だが、それでもAIは学び尽くしてしまったのだ。そこで目が向くのが有料コンテンツだが、OpenAIはニューヨーク・タイムズ等にコンテンツの無断使用で訴えられており、そうしたリスクを極力避けるためにもデータの供給源としてメディア企

    自家中毒に陥る生成AI(八田真行) - エキスパート - Yahoo!ニュース
  • ワールド・ワイド・ウェブの消失(八田真行) - エキスパート - Yahoo!ニュース

    ピュー・リサーチ・センターの調査 日のメディアでも報じられたのでご存じの方もいるかもしれないが、米国シンクタンクのピュー研究所が最近発表した報告が話題となっている。 この調査は定期的にウェブ全体をクロール(ダウンロード)し、収集したデータをオープンデータとして提供する非営利団体Common Crawlのデータに基づくものだが、報告によれば、膨大な量のウェブコンテンツが失われつつあるという。 例えば、2013年のクロール時に存在したウェブページのうち38パーセントはすでに消失した。該当ページが削除されたか、ウェブサイトごと消滅したためである。また、2013年から2023年の間に存在したウェブページの4分の1が、2023年10月現在アクセスできなくなっている。消えるのは古いページだけではなく、2023年のクロールで存在したページのうち8パーセントがすでに利用できなくなっているそうだ。 ソーシ

    ワールド・ワイド・ウェブの消失(八田真行) - エキスパート - Yahoo!ニュース
    shinichiroinaba
    shinichiroinaba 2024/05/25
    “これから私たちが懸念しなければならないのは、むしろデータの消滅である。”