陷入大模型的数据标注者|深圳氪星精简版

 admin   2024-03-30 13:07   14 人阅读  0 条评论

不少人都想知道的陷入大模型的数据标注者|深圳氪星精简版关于宝马工程师深圳待遇相关题,小编都有详细解说,希望帮助到大家。


文字|林伟新


编辑苏建勋


在一家大型互联网公司担任数据标注员的小燕在工作中经常感到孤立。


小燕的工作站位于产品经理和程序员的工作站旁边,他享受同样的,包括相同的工作徽章、苹果电脑,以及可以随时去健身房或在太空舱里小睡的能力。


然而,小燕可能意识到,作为一名数据标注员,她和其他同事属于“两个世界”。


虽然我们是一个团队,但是每天早上开会的时候都没有人叫解说员,所以小燕只能在门外偷偷看。有一次,有人带来了一辆台灯车,这是团队正在开发的一款人工智能产品的原型,程序员们围在它周围,兴奋不已,捧在手上把玩着。注释者坐在各自的工作站上,顺利地执行任务。“他们不知道产品是根据标签数据制造的。”


小燕加入公司时,他的公司正在开发一款教育人工智能产品,需要标记大量数据来训练人工智能。公司为中小学购买了堆积如山的练习册,小燕的工作就是把每一道题拍下来,然后画一个方框,在电脑上把这些题标记出来。


尽管从事人工智能工作的程序员清楚地认识到他们工作的价值,并享受算法不断发展带来的乐趣,但很少有注释者认为创造人工智能是他们自己的劳动。


人工智能的发展离不开数据标注。近年来,自动驾驶的进步推动了数据注释市场。据德勤报告,2022年自动驾驶领域的标签需求将占所有AI下游应用的38%,预计2027年这一份额将增至52%。


今年,大模型的出现给数据标注行业增添了活力,基于大模型训练场景的大单纷纷涌向数据标注公司,这似乎再次给枯燥的数据标注业务注入了活力。


一些科技公司走得更远,正在尝试利用AI自动合成数据进行AI训练。合成数据基于人工智能无限生成的少量真实数据,不需要标记,而是依赖人工标记。在自动驾驶领域,合成数据可以处理极端的道路情况,例如行人突然进入道路。


未来,我们想象合成数据将取代手动注释。缺乏技术、仅依靠人力资源的标签公司也将逐渐消失。一项数据显示,海外人工智能使用的基础数据70%是合成数据,印证了这一路径。


对于数量庞大的数据标注者来说,以上并不是什么好消息。不过,36氪联系到的一些评论者仍然不知道ChatGPT是什么,反应就像是第一次听到这个词一样。


小燕说,标记者是一条随时可以切断的尾巴。唯一的悬念就是剑何时彻底落下。


训练机器的贴标机感觉就像一台机器。


小荷主修英语,大四时在一家大工厂实习。第一天上班,办公室在一栋写字楼里,宽敞干净,符合她对互联网公司的想象。没过多久,她就意识到——的职位描述“企业语音数据的清理和分类”实际上是数据标注,这是她在面试中了解到的。


小河后来承认,如果他知道这是人工智能工作的开始,他会立即离开。


团里有六名实习生,都是名牌大学的外语系学生。女队长分配日常任务。有时是一堆英文发音符号,小禾的工作就是区分英式和美式发音,有时是Excel,点开看得到满地都是数据,往下滚动就满了10,000件商品。


“感觉就像爬山一样。”小河说。


我做的最多的“项目”是给中学生做口头标注。注释者习惯于将任务视为项目,一个又一个项目地进行讨论。小河每天听200个带有浓重口音的录音。每条记录2分钟。如果您听到一般性题,则得1分;如果您提出具体题,则得2分;如果什么都没有听到,则得0分。为了防止走漏,办公室里只能使用有线耳机,小禾感觉耳朵疼,“无意识地被刺激了”。


她经常听到录音中出现脏话。有些孩子在说脏话之前不会说几句话。还有一次,在做一个地图导航项目时,有人在录音时忍不住骂了句脏话。“我不知道为什么有人会如此沮丧。”


小禾表示不能太当真。您可以将此录音标记为“无意义”,然后翻页继续收听下一个录音。


几乎所有评论员都这样形容自己“像机器一样”。注释是显而易见的。这位山东标注者表示,他承担过的最困难的项目是指纹标注。我收到了一堆陌生人寄来的印刷品,我不得不沿着印刷品的边缘稍微拉动框架。“那天我回到家,闭上眼睛,我看到我的眼睛里布满了指纹。”


许多项目要求注释者严格保密,但注释者并不关心项目的目的。执勤期间,贴标签者必须交出手机并将其放入挂在墙上的袋子中。仅当您接到电话时才可以搜索您的手机。


大多数注释者都经历了从陌生到熟练、从新奇到无聊的过程。项目初期是最有趣的,当时标签规则还没有最终确定,气氛很活跃,我们经常遇到有争议的题,互相辩论甚至争论。到了中后期,规则已经基本确立,只剩下重复的、机械的劳动,人就陷入了无意义的境地。


一位评论者称这是一项“无需动脑筋的任务”。


江西抚州当地职业学校的学生在标注数据。资料来源ICPhotos


上海大学贾文娟教授对数据标注进行了实地研究,认为数据标注是认知劳动,而不是脑力或体力劳动。“人们出售的是他们的看法。”黑色幽默是,我们希望机器更像人类,但同时我们又让人类变得更像机器。换句话说,抛开常识,像机器人一样思考。


如果注释者开始思考“我为什么要这样做?”,则意味着辞职指日可待。


一家数据标注公司总裁郑伟直言,自己留不住人。公司员工最多不超过20人。新员工的工作时间通常只有15天左右,因此往往第一天上班,第二天就下班。无奈之下,他只能不断降低招聘要求,最终他想到了“不是我选人,是别人选我”。


他不知道如何留住那些离开的人。“如果你留在这里,会越来越好,其实连我自己都不相信。”郑专员告诉36氪。员工的离职最终让公司不堪重负,当只剩下两名标注员时,他决定解散团队。不久之后,ChatGPT迎来了人工智能的新浪潮。


大模型的出现有利于数据标注,同时也增强了标注团队的创新能力。


关于招聘,小戴表示,目前市场上80-90元加价项目的单价很低,“因为中间分包商太多”,“大家都想盈利”。“因为价格差异,我不想真正做这项工作。”他在众包做了两年标注员,今年开始自己创业,建立了自己的标注团队。


数据标注的利润并不高。例如,自动驾驶的2D框架图,大公司的调度价格是10美分,负责这项工作的标注团队每人8美分。“现在已经降到五六分了。”小戴说。他算了算账,如果低于8点,他就只有赔了。


自动驾驶标注;来源Apen


为了生存,小戴大部分时间都在找项目,逛各种、贴吧。项目有真有假,大多不靠谱,代理商赔,甚至有项目等了八个月还没到。


后来,他一开始是兼职标注员,但试点招投标和结算没有题后,他就把工作委托给了团队。当听说要在半夜3点发布一批项目时,我就提前定了闹钟,下了单。


员工流失、单价低、回款不稳定,就像一颗,拖累着这个行业大多数小企业。


没有一个评论员不鄙视这项工作,不赚,看不到晋升空间和发展机会,陷入长期的压抑和失落感。


截至本文撰写时,36氪联系到的评论者大部分已辞职。一名女孩说,她工作了两个月,每个月的工资还不到3000元。


创新笔记本科生比例100


必须承认,关于数据标注的报道有很多,但共识是,这项任务是一条“互联网流水线”,在很长一段时间内很难完成,人工标注最终将被人工智能取代。


在过去的一个月里,我们花了很多时间与算法工程师和人工智能公司进行交流。虽然上述共识尚未得到更新,但可以隐约感觉到,AI或许并不是最想消灭人类劳动的东西。在人工智能采取行动之前,那些掌握最先进技术的人已经拿起了镰刀。


数据在技术领域的重要性怎么强调都不为过。宝马工厂的算法是如何处理的?你好。宝马工厂的根据位置、职位、经验等的不同而有所不同。总体来说,宝马工厂的薪资水平比较丰厚,也比较齐全,有5险、1住房公积金、还有薪酬。年假、休假、员工培训、健康体检等。同时,宝马工厂还为员工提供良好的职业发展机会和晋升空间。但宝马工厂的工作压力较大,需要更专业的技能和工作能力。


宝马销售员的实际收入是多少?宝马4S店月薪最低8000韩元,最高2W以上,超卖车按人收取佣金。


加入宝马4S店后的培训非常繁琐,具体取决于您的宝马车型的轴距、加速度、底盘代码、配置和价格。


从1系列到7系列,从X1到X6,共有100多种不同的车型配置。我当时带着它一个月,跟踪我的前销售顾,为他提供茶和水,听他谈论他的客户。


当时我就觉得宝马这个牌子应该还是很不错的,会有更多的人买,但事实证明不是我想的那样。同城有6家宝马4S店,我所在的4S店是最偏僻的,但来我们店的顾客大多是和其他店比价格,来压价的。竞争相当激烈。


本文地址:http://guanchedi.cn/post/19672.html
版权声明:本文为原创文章,版权归 admin 所有,欢迎分享本文,转载请保留出处!

 发表评论


表情

还没有留言,还不快点抢沙发?