千亿ChatGPT的狂欢和月薪3K的数据标注员

元宇宙之心MetaverseHub 閱讀 44306 2023-3-6 15:02

ChatGPT爆火后，AI行业开始了新一轮“抢人大战”：

王慧文个人出资5000万美元，打出“AI英雄榜”，要招募业界公认顶级研发人才；猎头疯狂挖角硅谷华裔技术大佬，跳槽薪资200万起；“10万月薪抢人”，脉脉创始人兼CEO林凡称，国内AIGC行业也在招兵买马，年薪百万、16薪成为“标配”。

巨头喊话、热钱涌动，中国版ChatGPT，将诞生在这些顶级VC、顶级AI人才手中。

但与此同时，一个和ChatGPT紧密相关，一个相对低廉、不稳定的职业——数据标注员，也引起了小范围的关注和讨论。

他们被誉为“AI训练师”，但他们的工作重复、机械、枯燥。

他们是AI行业的“劳动密集型”企业，他们被放置在无人问津的角落，推升了这次ChatGPT狂潮。

AI训练师？

“什么AI训练师，我们就是纯体力活。”何文新对数据标注行业的总结是：无前途，无发展，工作量大，工资低，“还不如电话销售。”

什么是数据标注？

目前“深度学习”是主流的训练AI模型的方式，但AI不会自动识别语音、图片、文本、视频等，这时候就需要数据标注员，对数据进行加工处理，将一般数据变成AI可识别的数据。

比如，服务自动驾驶公司的数据标注员，每天工作就是按照要求，把不同图上的行人、动物、车、树木等“框”出来，以便“喂养”AI模型。而数据标注的类型有图像标注、语音标注、3D点云标注和文本标注等。

千亿ChatGPT的狂欢和月薪3K的数据标注员

简而言之，数据标注员在创造喂养AI的养料。从工作产出来看，数据标注员确实可以称为AI的老师。

数据标注工作并不难，只需要一台电脑，一个鼠标；简单培训后，就可以上手。但是，这个工作并不轻松，需要耐心和细心。

“很累，一整天要盯着电脑。”何文新称，“标注”工作重复繁琐、没什么技术含量，但也有质量要求，标注错了、标注范围大、标注不够仔细等，都会被审核打回去重新做。

“很简单，但也很难。”宝妈lili在网上吐槽，因为经常面对拉伸图，很多图片根本看不清，容易做错。

和AI行业的高薪相比，数据标注员的工资并不高。

“一张图9毛钱，一天做100张。”lili称，如果都合格，一天能赚90块。

“不同的标注价格不一样。”何文新称，他当时的工资在3000左右。基础的数据标注员月薪大部分在2000-4000元之间，但因为标注的速度、质量问题，“很难拿到当时面试跟你承诺的工资。”

鞭牛士在一些招聘网站上搜索“数据标注”，薪资区间在2000-8000之间。一些特殊的标注，比如小语种、高精制图等，薪酬会更高。

千亿ChatGPT的狂欢和月薪3K的数据标注员

2020年2月，“人工智能训练师”正式成为新职业，纳入国家职业分类目录。中国信通院报告提出，“现阶段AI应用研发，数据标注是根本，10年之内都要依赖于标注数据”。

ChatGPT的“数据标注”壁垒

今年1月，美国《时代周刊》报道称，ChatGPT使用了低廉的肯尼亚外包劳工，对庞大的数据库手动进行数据标注。

打造了ChatGPT、估值飙升至300亿美元的OpenAI，是否存在“剥削”廉价劳动力的问题？

为OpenAI提供数据标注服务的是总部位于旧金山的Sama，Sama在在肯尼亚、乌干达和印度雇佣员工，服务Google、Meta和微软等客户。

据爱范儿报道，OpenAI在2021年底与Sama签署了三份总价值约20万美元的合同，为数据库中有害的内容进行标记。

根据合同规定，OpenAI将为该项目向Sama支付每小时12.50美元的报酬；但Sama支付给数据标注员的时薪只有1.32美元~2美元。

这些数据标注员，每9个小时要阅读和标注150~200段文字，最多一小时要阅读和标注超2万个单词。

并且，因为他们标注的是互联网上的“有害的内容”，比如自杀、酷刑等，大部分标注员受到持久的心理创伤，甚至出现幻觉。但Sama公司却拒绝为他们提供一对一的心理咨询。

这些数据标注员，对ChatGPT而言意义重大。为了让ChatGPT成为一个适合用户日常使用的聊天机器人，一个好的学习数据源非常重要。

比如，ChatGPT的前身GPT-3，就存在暴力、性别歧视等言论。用户在对话框中发送“我应该自杀吗”问题，GPT-3回答“我认为你应该这么做”。

在更早的2012年，清华大学图书馆机器人“小图”，因为学习了网友太多“脏话”，被强制下线。当时有媒体报道，小图至少学会了4万条不良信息。

AI自身并不能判断善恶，需要人为干预，标注、过滤掉一些“特殊数据”。为此，OpenAI建立了一个安全系统，这就是Sama和数据标注员的工作：给AI提供标有暴力、仇恨语言等标签，AI就可以学会检测这些内容，并将这些不良内容过滤掉。

除此之外，一些专业领域的信息，也需要专业的标注。这也是为什么ChatGPT在回答医学等专业领域问题时错误百出，因为它还没有精确地相关数据“喂养”。

实际上早有业内人士分析，ChatGPT的算法并不神秘，比如公开的成熟的自回归语言模型、强化学习的PPO算法等；但数据，是ChatGPT真正的优势。

“ChatGPT通过抢先开始公测，收集了大量的用户的使用数据”，这也是ChatGPT独有的、宝贵的数据。

和算力的“军备”竞赛不同，数据会有滚雪球效应，只要ChatGPT仍然是最好用的语言AI，就会一直保持先发优势，后来者会越来越难追上。

ChatGPT，已经建立起了“数据壁垒”。

而近期才开始官宣的“中国版ChatGPT”，除了要加强在算法、算力的投入，中文语言数据的处理，中文敏感词、有害信息的过滤，也需要大量的投入。

如今，ChatGPT掀起人工智能新浪潮，最底层、最边缘的数据标注员是否会有新的待遇？

国内数据标注乱象

据第一财经报道，中国的数据标注行业最早可追溯到2005年，著名计算机视觉专家、人工智能专家朱纯松在湖北鄂州创办了莲花山研究院。

中国信通院报告指出，2015年，随着人工智能巨头的崛起，数据标注和采集需求激增，市场真正意义上开始形成。

2016年，AlphaGo横空出世，人工智能开始商业化探索，相应的数据服务公司也迎来了一波发展高峰。

人工智能公司发展波折不断，数据标注行业也处在早期的蛮荒阶段，存在分散、效率差、标注质量参差不齐、市场需求不稳定等问题。

何文新等数据标注员有特别直观的感受。能不能拿到稳定的项目，是一个外包的数据标注公司能否存活的关键。

“我们公司比较小，很难拿到一手的项目。”何文新称，他们拿到的可能是层层外包的项目，价格比较低，而且极不稳定，“有时候项目没做完，公司就没了。”

而一些数据标注公司在招聘兼职数据标注员时，会强调薪酬分两次结算，“次月和6个月后各结算一半”，因为这是甲方的结算习惯，一些数据公司并不会提前“垫付”薪酬。

因为没有什么门槛，十几个人也能攒出一个团队，因此，数据标注公司质量层次不齐，行业竞争也异常激烈。

据第一财经报道，2018年，科大讯飞旗下的众包平台“爱标客”上，一些简单的打框和转写校准项目，时薪在25到40元之间；到2021年底，时薪就降到了10到15元，“有时候可能连10元都不到”。

并且，数据标注行业还存在一些招聘骗局，比如打着招聘的名义，骗求职者缴纳高昂的培训费等。

千亿ChatGPT的狂欢和月薪3K的数据标注员

而数据标注员，也是人工智能行业中，最不稳定、最容易被取代的角色。

2022年6月，特斯拉在全球开启了裁员计划。其中规模最大的一次裁员，是解雇了200名美国员工。他们大多数是小时工，负责自动驾驶数据标注。

有媒体分析，特斯拉这次裁员的原因是这一工作技术含量不高，操作起来比较简单；并且特斯拉的自动化数据标注有了进展，可以代替人力完成部分工作。

目前，何文新已经从数据标注公司离职，换了新的行业。工资低、累、没有晋升空间、没有学到东西，是数据标注员离职的主要原因。

但是，除了这些问题，数据标注员的薪资，在4、5线城市依然有竞争力。

实际上，因为属于“劳动密集型”产业，一些地方政府对数据标注产业抛出橄榄枝，成为解决当地就业、扶贫的优质项目。

另一方面，因为门槛低、操作简单，数据标注员也成为残疾人友好岗位，“边码故事”曾报道残疾人成为数据标注员的故事，“一台电脑就能赚钱是之前想都不敢想的”。

千亿ChatGPT的狂欢和月薪3K的数据标注员

而一些数据标注公司的推广视频下面，有不少用户留言咨询，想要加入。

在面对使用廉价劳动力质疑时，OpenAI回应称，他们支付给Sama的费用几乎是东非其他内容审核公司的两倍；赚差价的Sama则称自己是“有道德的AI公司”，已经帮助5万多人摆脱了贫困。

据国盛证券估计，类ChatGPT的大模型训练一次就要烧掉200万-1200万美元，仅每日的电费消耗就高达4.7万美元；2022年，OpenAI公司净亏损高达5.45亿美元。

我们在惊叹人工智能的突破和背后的技术成本时，在追捧OpenAI 2000亿人民币的估值时，不应该忘记背后千万的数据标注员。他们在聚光灯外，如一叶叶扁舟，飘荡在人工智能蓝海上。

微信掃描關注公眾號，及時掌握新動向

來源鏈接

免責聲明：
2.本文版權歸屬原作所有，僅代表作者本人觀點，不代表比特範的觀點或立場
2.本文版權歸屬原作所有，僅代表作者本人觀點，不代表比特範的觀點或立場

標籤： OpenAI ChatGPT

千亿ChatGPT的狂欢和月薪3K的数据标注员

ChatGPT的“数据标注”壁垒

ChatGPT，已经建立起了“数据壁垒”。

相關資訊

一周熱點

24H熱門閱讀

熱門作者

熱門標籤