OpenAI推出网络爬虫“GPTBot”计划推出下一个模型GPT-5

百家号 view 49133 2023-8-9 09:30

ChatGPT 用户可以选择通过向服务器上的标准文件添加“禁止”命令来废弃网络爬虫。

人工智能公司 OpenAI 推出了“GPTBot”——其新的网络爬行工具，据称该工具有可能用于改进未来的 ChatGPT 模型。

OpenAI 在一篇新的博客文章中表示：“使用 GPTBot 用户代理抓取的网页可能会用于改进未来的模型。”并补充说，它可以提高准确性并扩展未来迭代的功能。

网络爬虫，有时称为网络蜘蛛，是一种对互联网上的网站内容进行索引的机器人。Google 和 Bing 等搜索引擎使用它们来使网站显示在搜索结果中。

OpenAI表示，网络爬虫将从万维网收集公开数据，但会过滤掉需要付费内容、已知收集个人身份信息或包含违反其政策的文本的来源。

应该注意的是，网站所有者可以通过在服务器上的标准文件中添加“禁止”命令来拒绝网络爬虫。

OpenAI推出网络爬虫“GPTBot”计划推出下一个模型GPT-5

ChatGPT 用户“禁止”GPTBot 的说明来源：OpenAI

在该公司提交了“GPT-5”商标申请三周后，新的爬虫程序就出现了，“GPT-5”是当前 GPT-4 模型的预期后继者。

该申请于 7 月 18 日向美国专利商标局提交，涵盖术语“GPT-5”的使用，其中包括用于基于人工智能的人类语音和文本、将音频转换为文本和语音以及语音识别的软件。

然而，观察者可能还不想屏息以待 ChatGPT 的下一次迭代。6 月，OpenAI 创始人兼首席执行官 Sam Altman 表示，该公司“距离”开始训练 GPT-5 还差得很远，并解释说在开始之前需要进行多项安全审核。

与此同时，人们对 OpenAI 最近的数据收集策略提出了担忧，特别是围绕版权和同意的策略。

日本隐私监管机构于 6 月向 OpenAI 发出关于未经许可收集敏感数据的警告，而意大利在 4 月指控 ChatGPT 违反多项欧盟隐私法后暂时禁止使用 ChatGPT。

6 月下旬，16 名原告对 OpenAI 提起集体诉讼，指控该 AI 公司从 ChatGPT 用户交互中获取了私人信息。

如果这些指控被证明是准确的，OpenAI 以及被列为被告的微软将违反《计算机欺诈和滥用法》，该法有网络抓取案件的先例。

Scan QR code with WeChat

Disclaimer:

Tags: 人工智能 OpenAI