米OpenAIは、Webサイト管理者が同社のWebクローラー「GPTBot」によるサイトのデータ収集を回避する方法を紹介した。紹介する文書に日付はないが、米AI専用オンラインメディアMaginativeなどが8月7日(現地時間)、文書を見つけて報じた。 GPTBotは、同社のAIモデルをトレーニングするために公開データを収集するためのWebクローラー。OpenAIはこの文書で、GPTBotのクローリングをブロックする手順を説明している。 Webオーナーがrobots.txtにGPTBotを追加したり、IPアドレスを直接ブロックしたりしないと、ユーザーがWebサイトに入力するデータを含むWebサイトのデータがAIモデルのトレーニングデータとして収集される。 ブロックしなくても、ペイウォールアクセスを必要とするソース、個人を特定できる情報を収集することが知られているソース、ポリシーに違反するテ
![OpenAI、Webデータ収集クローラー「GPTBot」のブロック方法を説明](https://cdn-ak-scissors.b.st-hatena.com/image/square/7001dda2f26b4dbcc4e905ee263e600f3107bae6/height=288;version=1;width=512/https%3A%2F%2Fimage.itmedia.co.jp%2Fnews%2Farticles%2F2308%2F08%2Fcover_news124.jpg)