理论 | 计算与算计:数据标注劳动中的算法补足组织
声明
为方便阅读,删去了原文中的参考文献和注释。
本公众号不拥有本文章的任何权利。
本文章不完全代表本公众号观点。
若侵犯了您的资产阶级法权,请通知号主删文跑路~
摘要: 本研究以人工智能数据标注产业为案例,解析中国平台劳动的再嵌入现象。通过分析为期两年的田野调查和154个半结构性访谈资料,构建了“算法补足组织”的概念框架,探讨了“补足组织”如何衔接算法与平台劳动,使之再嵌入回社会关系。由地方政府介入的算法补足组织依据自身组织资源和逻辑,弥合了算法控制所带来的部分潜在劳工问题。在特定情景下,算法补足组织还可能与劳工形成利益同盟,调动组织资源消减算法黑箱特性,联合对抗过度算法控制,这一事实挑战了算法冷漠性等相关理论。
关键词: 平台劳动 ;算法控制 ;数据标注 ;人工智能 ;数字劳动
作者简介: 吴桐雨,浙江大学社会学系百人计划研究员,主要研究方向为劳工社会学、科技产业和性别研究;夏冰青,华东师范大学传播学院副教授,主要研究方向为互联网经济和数字劳动。
一、算法控制的再中介化:“补足组织”概念的提出及相关研究问题
技术与社会关系的交织构成了一个持久的研究议题。从马克思描述的被工业革命冲击的社会,到当前的信息资本主义社会,我们可以观察到新兴技术出现往往会触发大规模的社会脱嵌运动,从而诱发各类社会冲突和问题。以信息资本主义为例,在算法技术初露端倪时,它所展现的断裂性和抽象性相当明显。算法凭借其超强算力(1),通过优化数据系统而“优化”对于工人的监视和规训,从而使得传统劳动控制失去了意义(Rosenblat&Stark,2016)。此外,算法通过应用程序接口(API)(2)为平台工人提供劳动身份认证(ID),凭此分配和回收任务。这种人机交互模式保证算法化的劳动力控制得以从传统的社会、劳动、组织关系中完全脱嵌(Gray&Suri,2019)。
然而,随着技术成熟,它将不可避免地被经济、文化和政治因素重新吸纳、整合进社会布局。一些学者开始关注算法技术长期脱嵌于社会所积累的巨大压力,这种压力俨然已经引起了社会的剧烈反弹,其率先以平台劳工反抗形式呈现,而这种反抗形式似乎可以触发更大规模和更深层次的社会保护运动(Lei,2021)。同时,也有研究者更关注算法技术是如何通过中介组织而被再次嵌入复杂的社会关系之中。比如,格雷厄姆(Graham)的研究团队提出“再中介化”(reintermediation)概念,指出下游的平台劳动者通过中介公司纵向与平台产生联系,横向与彼此产生联系,而上游平台资本通过中介公司调控与平台劳工的雇佣关系。
本研究认为,“再中介化”这一构思在某种程度上为解读中国平台劳动再嵌入现象提供了有力的视角。但此理论也存在不足,主要体现在过分简化中介组织的商业特性,而忽视了中介组织可能存在的复杂性。现有关于平台中介公司的研究过于沿袭传统研究模式,即过分强调中介公司在劳动力、中介公司、客户公司之间的权力关系中的核心作用,认为其负责征召、匹配、规训劳动力,并且是塑造劳动关系的核心,而客户公司和劳动者则处于分析背景之中,往往扮演被动角色(Smith&Neuwirth,2010;Barley&Kunda,2011;Xiang,2011)。
基于以上理论考量,本研究提出算法补足组织(complementary organization to algorithms)这一概念,即通过组织人工劳动补足算法局限性,桥接上游算法和下游平台劳动,进而将此类劳动再嵌入社会的中间层组织。首先,借鉴舍斯塔科夫斯基(Shestakofsky)的“补足劳动”(complementary labor)思想,我们强调,现代技术如人工智能、机器学习很难完全取代人类劳动,而需要特定的人工参与来弥补其局限性(Shestakofsky,2017)。本研究希望通过“算法补足组织”这一概念来突破西方框架中的某些约束,更深入地探索组织在补足算法和平台控制方面的作用。其次,本研究意在通过强调这一实体劳动组织的“补足”属性,探讨在新劳动形态下,补足组织超越传统“中介”的性质(Barley&Kunda,2011;Harvey,1989;Smith&Neuwirth,2010;Xiang,2011)。补足组织同时能弥补算法和平台控制所不能弥补的控制鸿沟。通过强调补足“组织”而非补足“劳动”,可以突破“人机补足”框架的局限性,更好地关注组织如何在更多层面上弥补平台技术和算法控制局限性。
基于此,我们提出三个核心研究问题:1)算法补足组织有哪些特性?2)算法补足组织具体可以从哪些维度上补足和辅助算法控制?3)在哪些条件下,补足组织和算法机构会联合起来加强对工人的控制?相反,在哪些情况下,补足组织与工人又可能联合起来抵抗算法控制?
为了探知以上问题,本研究聚焦于人工智能数据标注产业进行观察。数据标注产业作为AI发展的核心环节,连接了前沿的AI技术与庞大的数据产业。通过对图片、语音、文字的数据标注,可以极大地增强AI产品在视觉和自然语言处理方面的认知能力(Gray&Suri,2019)。伴随着人工智能产业在我国蓬勃发展且在越来越多的领域得到应用(例如医疗健康、教育、健康码识别、内容推送等),对于标注数据和标注劳动的需求持续增长。从2019年7月至2021年7月,本研究团队进行了全面的田野调查。在这期间,我们深入访问了中国不同地区的7个数据标注基地,并进行了154次半结构性访谈,以深入了解数据标注产业和劳动的各个环节。
二、研究方法:以数据标注劳动组织作为经验案例
数据标注劳动的调研对于理解数字劳动控制、人工智能产业和平台经济具有重要意义。首先,如果将数字劳工阶序细化,那么数据标注工人所代表的数字零工和众包劳动群体(gig and crowd workers)比由滴滴司机和外卖小哥所代表的数字服务劳动群体(digital service workers)阶序地位更低。其次,从劳动性质上来讲,标注劳动的标注逻辑更加接近后端计算机逻辑,更加远离人类交往互动逻辑。相反,数字服务类劳动更加靠近前端人类社会,劳动性质更加接近服务业劳动。相较之下,标注劳动往往更加枯燥、具有更强的异化性质。再次,从人机关系角度来看,如果说数字服务类劳动中的算法控制是为了更好地辅助人类服务(如更加有效地匹配服务提供者和需求者),那么对于数据标注劳动来说,其劳动本质更接近于标注工人辅助和补足算法运作。因此,关注数据标注劳动可以帮助学者从不同的角度来审视一种新型的数字劳动形式,检视其劳动过程以及劳动控制特征。
本研究的经验材料来自为期两年的田野调查和深度访谈。从2019年7月到2021年7月,笔者团队走访了7个标注基地/工厂,它们位于中国中西部、东北部和南部沿海地区的5个省份和1个直辖市。实际有效田野天数为107天,田野笔记近19万字。从2019年7月到2022年11月,在田野调查基础上,我们又针对科技资本标注项目经理、大数据局相关负责人、非政府组织数据标注项目对接人员、地方数据标注基地经理、标注质检人员、标注小组组长、标注工人、标注工人家属进行了半结构性访谈。访谈共计154个,每个访谈1~2小时。除此之外,我们还组织了10次焦点小组访谈。
需要强调的是,本文的撰写着重于贵州案例。贵州案例是本研究中田野调查时间跨度最长的案例,笔者团队分别在2019年7月、11月、12月以及2020年11月在贵州A点和B点进行田野调查(实际调查天数为51天),同时进行了61个半结构访谈以及6个焦点小组访谈。但是,其他田野地点的数据资料在分析时也发挥了至关重要的作用。我们对访谈进行了信息编码(1),以便于后续讨论引用。(2)
三、平台劳动与算法控制:前沿研究文献综述
(一)平台劳动与算法控制
算法控制指的是算法技术依据其技术优势,通过优化劳动力调度、任务定价和分配以及劳动行为数据追踪和监视,以提高对于劳动价值攫取和对于劳动力控制的力度(Lei,2020;Rosenblat,2018)。现有文献指出其具有以下特征:首先,算法控制所呈现的“黑箱”特性(Moore et al.,2019;Pasquale,2015)使得“前台”的平台劳动者对“后台”的运作模式缺乏认知。这种不透明性使算法在实施监控与控制策略时显得更为隐秘,模糊了其攫取劳动力的过程(Chai&Scully,2019;Veen et al.,2019)。其次,算法控制所遵循的劳动规则体现了算法本身的独特逻辑(Howcroft et al.,2019;Vallas&Schor,2020;李胜蓝,江立华.2020)。例如,算法具有及时反馈的机制,能够实时调整策略,制定新规则。这为平台劳动带来了巨大的挑战与不稳定性。再如,算法能够广泛并迅速地筛选适合的平台劳工(Howcroft et al.,2019;Jarrahi&Sutherland,2019;Rahman,2018;Rosenblat,2018)。在有庞大劳动力后备军保证的情况下,算法可以快速地自动筛选出符合需求的劳动力。当平台劳动者不能达到算法制定标准或是在算法排名中下降太快时,算法会自动“踢除”(kick off)掉这些不匹配的劳动力(Rosenblat&Stark,2016)。这样不但能够保证算法最大限度地实现劳动力套利(Graham et al.,2017),而且可以去除中间管理层的职能。总体来看,算法的这一系列特征导致其在发展初期很大程度上脱嵌于社会关系。
然而,随着社会的发展,技术脱嵌所引起的大量反抗运动也逐渐浮出水面,引起相关学者关注。以Upwork为例,一些学者发现,该平台的自由职业者已与客户联手,抵制平台的“信誉评分系统”,并逃避平台的持续监视(Jarrahi&Sutherland,2019;Rahman,2018)。
然而,在这些学者的呈现中,反抗似乎并不能被系统地组织起来。相反,反抗者的联合是非常随机和有限的。其根源在于,这一阵营的研究者将平台想象成一个具有极强控制力的整体,个体劳动者似乎只需要一对一地嵌入某一个劳动领域和市场。然而也有一些经验研究告诉我们,在劳动者和平台之间存在一个至关重要的中间层:平台劳动者通过中间层纵向与平台产生联系,横向与彼此产生联系,并嵌入实体社会关系之中;同理,平台通过中间层纵向调控与劳动者的雇佣关系,稳定劳动群体并储备劳动力后备力量。
(二)平台、中介与“再中介化”
“中介”是平台研究中一个至关重要的话题,某种程度上决定了平台研究的分野。部分研究者主张,平台可被视作一种巨大的中介结构,承担中介化的各种功能,如劳动力筛选、定价、衔接、撮合,以及劳动交易的协调(Sundararajan,2017;Prassl,2018)。但此种将平台认定为“中介”的理论存在界定空缺,“平台式中介”缺失了传统劳动中介的诸多核心特质,比如制定职业图景、保证劳动控制、劳动质量管控和职业技能培训(Smith&Neuwirth,2010;Barley&Kunda,2011)。
另一些学者则主张平台应被视为一种“生产组织”,以凸显其在劳动控制上的独特性(Gandini,2019;Vallas&Schor,2020)。甘迪尼(Gandini)进一步阐释说,平台作为生产组织主要扮演着如下角色:1)将劳动需求转化成为数字化订单;2)决定任务分配内容、分配地点和时间;3)为劳动定价和议价;4)直接或者间接控制劳动表现,保证劳动质量。然而,他同时强调了平台所有控制都源于虚拟空间,此虚拟生产场所下的劳动者之间不形成持续的关联,不构筑劳动关系,即平台生产可完全独立于社会联系,可以脱嵌于社会关系。
问题是,当平台作为生产组织时,它是否真如甘迪尼等学者所想象的那样脱嵌于社会关系?多篇实证研究反驳了这一观点,指出围绕着平台产生了大量的中介组织,正是这些中介组织帮助平台这种虚拟生产场所落地、嵌入地方性社会关系,学者们称这一现象为“再中介化”(Huang,2020;Howcraft et al.,2019;Graham&Lehdonvirta,2017)。
比如,格雷厄姆的研究团队基于对南非和东南亚平台劳工的访谈,挑战了关于平台研究惯性的理论判断,即平台的一大优势是让平台劳动去中介化(disintermediation)。相反,他们发现再中介化因为能够有效帮助平台提升剥削力度而受到平台青睐。同时,他们的访谈资料显示,平台劳工自身很容易发展成为中间人来组织和雇佣更多平台劳工。再如,豪克罗夫特(Howcroft)和伯格瓦尔·卡勒博恩(Bergvall-Kåreborn)认为服务众包工作的中介公司是未来重要的增长领域(Howcraft et al.,2019)。豪克罗夫特和伯格瓦尔卡勒博恩认为此类中介公司至少有三个功能:第一,在招聘和筛选潜在劳工的过程中很好地辅助了平台自动化筛选流程。第二,能够更好地分配、解读任务,并且保证质量。第三,能够更好地帮助掩盖幕后的科技资本。蕾雅文通过对比两个外卖平台,指出当在算法控制和平台劳工之间存在实体的中介公司(服务站)时,平台劳工的不满情绪(grievance)更容易被服务站管理层化解,从而不容易形成集体性反抗(Lei,2021)。相反,当算法和劳工之间不存在实体中介公司作为缓冲,工人管控完全依赖算法时,不满更容易升级成集体性反抗。
此系列研究为我们揭示了一个核心逻辑:中介组织能够弥补平台算法的不足,从而赢得平台资本的青睐。但这一组文献仍存在较大局限性。比如,对中介组织作用的分析并没有与平台劳动和算法管控特征更有机地结合在一起。换句话说,对于中介公司功能的叙述仍拘泥于经典中介研究的传统,强调其在劳动力选拔、匹配、规训流程中的压倒性权力。鉴于此,本研究试图突出算法控制及其特性,在这一前提条件下探讨中介机构如何“补足”这些独特性质及其局限性。
四、算法补足组织:标注劳动控制的争斗地带
(一)地方政府介入“算法补足组织”··
2017年,贵州某跨区县扶贫搬迁社区建成,社区书记开始尝试吸引商业组织入驻社区,为社区居民创造就业机会。经由妇女基金会牵线,2018年,科技领军企业“东厂”与社区书记协商建立“东厂标注基地”,该基地主营人工智能数据标注业务,招聘向处境困难的女性倾斜。社区为标注基地免费提供三年场地,同时承担基地运行的水、电、网费用作为支持。
从东厂标注基地建立伊始,地方政府就在其日常运营中扮演了重要角色。例如,扶贫社区书记直接作为基地的总负责人和法人代表。而负责基地日常管理、运作的经理,则是由书记从社区居民中挑选出来的一位学历较高的年轻男性:这位经理在社区的熟人社会中辈分并不高,年纪又小于被他管理的“妈妈辈”女工,基地里的人称呼其为“黑崽”(1)。地方政府还努力将标注基地嵌入扶贫社区中,尝试将其变成社区生活的有机组成部分。某种程度上,这也是搬迁政府能够吸引科技资本的原因之一:因为基地完全嵌入生活社区,所以生产之外的再生产成本(如食宿、医疗、教育等)完全外化到了社区之中,而无需由科技资本承担。
需要强调的是,贵州当地政府并非标注劳动决策权拥有者,实际控制权仍为科技资本所掌握。正如一名曾经在东厂研发部门工作的算法工程师向我们解释的:
“整个标注系统的后台一定是由包括算法开发在内的(人员)进行系统的管理,这个(平台)一定是每个公司自己做,那些我们的标注基地,他们只能到我们的系统上来做(标注),他们自己是不能去搭建这个系统的。”(B20221114)
除了这位算法工程师,其他被访者也向我们透露了这个系统背后运行的逻辑。比如负责对接算法部门和标注基地的产品经理小柯解释说,标注系统平台搭建是非常专业的研发行为,需要多个部门的“同学”(1)沟通协作才能完成:
“它往往需要一个产品经理带一个团队,然后需要大概半年的算法研发,就可以把这个平台搞起来了。”(G20200112)
可以看出,科技公司将搭建标注平台视为技术性研发任务,整个项目由公司多部门协同完成。科技公司通过搭建标注平台来掌握对于标注劳动流程各个环节(标注账号安全、任务分发、标注数据行为分析)的控制权。 **地方社区并没有对标注劳动过程的决策权,只是标注劳动的被动接收方。**然而,实际标注劳动并不总是符合算法部门的理想模式,这时地方组织就展现出了不可替代的作用。
(二)补足组织:标注劳动力供给与筛选的关键角色
按理来讲,作为平台,东厂本应该在算法辅助下招揽劳动力,以实现劳动力的高度替代性进而降低成本。但事实上,东厂近些年对标注劳动力群体稳定性的需求开始上升。究其原因,是因为科技巨头为保证自身核心竞争力,在数据的深度与准确性上要求愈加严苛。经过长期培训的标注劳动者经验丰富,标注的准确性与效率有保证。再者,稳定性高的标注劳动者在满足公司数据的保密性上具有天然优势:
我们肯定是嫡系部队……涉及一些数据,(东厂)可能不希望给别的公司做……比如我们前段时间做的一个联合国的项目,也是东厂承接过来的,就是所谓的外国的一个人工智能项目,那个项目做的是一个难民营的项目……难民营要空投物资的话,你需要准确找到难民的住所……需要去优化的话,那么肯定需要牵扯到数据,像这种工作就会交到我们公司过来做。(B20190105)
如被访人所述,人工智能识别难民营的数据较为敏感,随意外包将带来巨大的数据泄露风险。除了保密性考量,标注的效率、数据质量和准确性也是科技资本寻求稳定劳动力的重要原因。基地经理黑崽跟我们谈到,东厂以前也用过一些外包和众包团队,但是由于流动性太强,导致东厂在不停地培训标注员,使其熟悉标注规则,而这些标注员往往在刚熟悉了规则可以提升速度和准确性时就离职了。这就造成东厂在培训上消耗巨大,标注效率和质量难以提升。
在这个前提下,东厂做了策略转向,开始落地标注基地,以保证标注劳动力供给实现一定稳定性。尽管如此,东厂并未完全摒弃劳动力的流动性与替代性。总体来讲,东厂的标注劳动力供给呈总体流动、局部稳定的模式。一方面,地方政府和补足组织是促成局部稳定的关键因素。每个由地方政府介入的补足组织都能保证一个依托于地方社区的相对稳定的劳动力储备池。以贵州补足组织为例,它背后的劳动力供给池就是社区中18000名搬迁居民。在这个易地扶贫社区,政府鼓励居民从山上山寨搬下山的时候,就做过关于就业的相关保证。
社区干部表示,帮助搬迁户对接企业,匹配上合适的岗位是他们工作中最重要也最耗费精力的事情(B20200204)。
地方政府还给每个标注员工提供每个月250~400元的补贴,这笔补贴对于在当地小环境内稳定下劳动力具有直接作用。具体来说,当订单量不够,工人没有项目可标注时,补足组织会发放一定补贴,以保证工人不离职,从而防止劳动力流失。最后,地方政府特别强调优先招聘处于困境的女性,如低学历女性、单亲妈妈和家庭主妇等,即“妈妈工人”。这些女性年轻时多为“打工妹”,曾是在中国融入全球产业链的过程中扮演过不可或缺角色的劳动力群体。2015年以后城镇化浪潮兴起,她们的生活重心转向家庭,从东南沿海地区回流至原来的乡村社区,照顾家人。对于社区来说,如果一个家庭中的女性角色能留在社区,承担照顾老人和孩子的责任,那么这个家庭更有可能在社区中扎下根来。
另一方面,东厂借助互联网和算法控制不受空间限制的特性,可以在全国各个地方建设类似的标注基地,以保证其业务扩张性和劳动力灵活性。东厂在2018年与贵州政府合作之后,将相似的合作模式复制到了山西某地和陕西某县,在2018年到2020年之间又建立了三个标注基地。东厂通过分设多个标注基地,在各个基地之间灵活安排订单,使得基地之间形成“逐底竞争”态势(1)。
“逐底竞争”带来的压力令贵州补足组织不得不调整策略,优化自己的劳动力供给池。策略之一是降低“妈妈工人”的比例,转向雇佣更年轻、受教育程度更高、具备电脑操作基础技能的工人。从2020年开始,补足组织在搬迁社区微信群和人才网上发布的招聘信息中,对应聘者的要求变为“18~28岁,高中以上学历,具有电脑基础和理解能力强”,这个招聘要求通过年龄、受教育程度和技能大范围地筛除掉了“妈妈工人”。按照黑崽的说法,贵州希望通过新的招聘要求,将“妈妈工人”的比例降到25%以下。而且从2020年开始,补足组织逐步将这25%的“妈妈工人”聚拢在一个组里,也就是黑崽嘴里的“差生组”。黑崽尽量避免让这个小组承接难度较高的任务,例如当时较新的3D标注任务,从而减轻“妈妈工人”对于贵州基地整体业务能力的影响。
另一策略是稳固年轻女工,特别是那些在核心业务中表现突出者的地位。在2020年的田野期间,我们见证了贵州补足组织全力挽留年轻女工小林的全过程。小林年龄不到20岁,在2020年年底,由于压力大开始失眠。在服用了一段时间的马来酸氟伏沙明片(一种用于治疗抑郁症的药物),失眠状态仍不见好转的情况下,小林向基地提出辞职,希望离开标注行业调养一段时间。得知小林想要辞职,黑崽极力挽留,这跟他之前对待另一位要照顾孩子的“妈妈工人”形成了鲜明对比(黑崽几乎是劝退了这个女工)。当我们问黑崽为什么态度差别如此之大时,他解释说,小林的业务能力“很可以”,理解能力也强,当时做一个非常难的标注任务(3D全景标注)的时候,小林是第一批通过考核的。因为有抚养妹妹的压力,小林经常选择主动加班到晚上十点以后。事实上,小林所在小组里的工人都是年轻、业务能力强、愿意加班的女工,他把这个小组称为“万元户组”,因为这个组在业务量最充足的情况下,几乎每个人的月工资都能达到万元以上。黑崽非常看重“万元户组”,竭尽全力降低这个小组的辞职率。毕竟对于贵州基地而言,“万元户组”一方面是政绩体现,另一方面又保证了生产效率。
(三)补足组织与算法控制
标注工作的本质是为算法迭代提供标注好的数据。负责对接算法部门和标注基地的小柯是这样解释算法工程师和标注部门之间的关系的:
标注工作其实就是去标这个训练数据,因为算法的模型需要以很多训练数据为基础去不断地迭代……这一块所有的需求都来源于算法工程师……他们会提需求……他可能会来找我,说“小柯,我们需要一批训练数据去重新修改我们老的训练数据,去优化我们线上的效果”。那他就会把问题提出给我,我们就会沟通嘛,你大概需要多少的量级,可能会需要几十万,也可能需要几百万,然后需要覆盖什么类别,然后可能每个类别都覆盖,也可能只需要覆盖某一些特殊的类别。然后我们把这件事沟通清楚之后呢,我会去跟产品或者运营的同学,或者是和标注公司去沟通,让他们来帮我们标这个训练数据……(G20200112)
从小柯的描述我们可以得知,标注工作量取决于算法工程师的算法迭代需求。这种迭代需求具有相当的不确定性,导致标注工作的量级起伏变化显著。例如,在某个阶段,算法的优化和迭代可能仅需数十万的数据量级,而在另一时期则可能达到数百万的规模。这样的需求变化在标注基地最终体现为订单的数量波动。以贵州基地2020年的情况为例,年初三个月(2月到5月),订单量达到了一个小高峰,每月订单额有43万元。然而,从6月份开始,订单额骤然减少,每月仅10万元,此状况持续至9月,之后逐渐回升至23万元,但是10月又突然跌到4万元,这已经是一个触及生存底线的数字,基地面临着连工资都无法支付的窘境。
除了与算法迭代需求同步之外,订单的波动也是资本对标注劳动进行控制的一种策略。**在某种程度上说,所谓的“订单波动”实际上是资本故意为之的“订单流动”,让订单在不同的基地之间流动,从而强化对标注劳动的控制。理解这个逻辑,我们必须明确,科技公司把负责分配和监管标注任务的平台视为其科技“产品”的一部分,并力求对其进行持续优化。**如某产品经理在阐释标注平台“产品”时说:
“这个产品的核心就是在分发效率和标注效率上不停优化。优化产品是需要分析的,现在效率不高,到底是哪里效率不高,他们(产品部门)需要分析这些工人的数据表现,去给路径给研发,告诉研发去改善哪里。”(X20220113)
同时,工程师也提到了他们可以设计“智能排班”系统以优化标注任务的分配:
“所谓的智能排班,就是算法会预测在每个阶段大概需要多少标注人力,然后他要保证系统里的标注人力不要有空闲的情况,要充分使用掉这个人力。”(X20220103)
也就是说一个重要的优化系统路径就是通过保证标注任务可以任意在不同标注基地流动而确保不会出现空闲人员。除此之外,系统还能根据标注员的表现数据,将不同的标注订单准确分配给相应的标注员。更具体地说,就是
“标注平台它是有(标注员)大量的历史数据的。后台可以看到不同标注员的数据,他的表现怎么样……平台在发出任务的时候,他会基于每一个标注员的这种能力素质,然后去增发不同类型的数据,甚至增发不同的数量”(X20220113)。
细究之下,我们可以觉察到,不论是从人工智能产品的迭代进展角度,还是标注平台算法最优化的角度出发,订单的流动和波动都是在所难免的。在此背景下,补足组织逐渐凸显出其在缓和订单波动上不可或缺的地位。在订单短缺的波谷期,补足组织动用地方资源,为工人争取必要补贴。例如,在社区书记与经理黑崽的共同努力之下,基地中符合资格的扶贫户得以参与当地就业局组织的职业培训课程。这20日的培训,内容其实是标注的基础训练,而参与者只需在空闲时前往会议室签到参训,便可获得每日50元补贴。在订单稀缺时期,黑崽为符合条件的工人安排了此类培训,以确保他们得到一定的经济支持。类似地,当订单额在6月份骤降至10万元时,黑崽积极争取了“扶贫车间”的称号,此举使得每名贫困员工都获得了其月薪30%的补贴(上限500元)。
然而,在订单高涨的波峰期,补足组织同样面临挑战,需调动地方资源以满足迅速扩张的需求。举例而言,在2020年年初的3个月,订单量显著增长,补足组织为此迅速扩招,导致3月份时,基地的标注工人从原先的40人增至120人。快速扩张首先就带来了工位不足的问题,幸运的是,补足组织得到了社区的支持。社区为协助补足组织解决工位问题,不但同意基地使用二层制衣车间的两间厂房,还特意将社区居委会的八张办公桌划归为临时标注工位。另外,补足组织所设计的劳动分工策略在某种程度上为应对订单波峰奠定了坚实基础。与我们常规的认知——平台劳动以个体为核心不同,贵州补足组织更倾向于以小组为单位的分工策略。其将工人分为六个小组,其中三个为高效小组,被黑崽称为“黄金战队”,之前提及的“万元户组”就是其中之一;其余三组效率相对较低,之前提到的“妈妈组”就在里面。在订单波峰期,随着算法部门不断派发新订单,当所有小组均有未完成任务而新的订单持续涌入时,黑崽便将新订单向高效小组倾斜,以确保基地的订单处理效率达到最优。
最后需要指出的是,订单波动自然而然会造成标注工薪金不稳定,从而导致劳资冲突。但是科技公司由于隐藏在任务平台之后,并不容易与工人产生直接冲突;相反,矛盾很自然地外化到补足组织层面。也就是说,补足组织需要处理订单波动所造成的劳资矛盾。2020年3月起订单显著增多,工人规模膨胀至120人。但是由于扩张过快,东厂无法及时完成资金周转,造成了工资拖欠——本应4月5日结算的3月份工资到4月28日才发放到工人手里。根据黑崽回忆,在4月5日到4月10日之间,工人讨薪心态相对平和。但是到了21日之后,基地工人几乎每天都问他工资何时发放。其中有两名工人反应激烈。据黑崽说,其中一名工人走“官方路线”,直接去劳动局告状,但是劳动局只是回复尽快处理。劳动局随后将此事告知了社区书记,即该标注基地的主要负责人。
而从东厂视角来说,订单的流动和波动是它的经营策略。**它通过设置多个标注基地,刻意制造出基地间的“逐底竞争”态势。借助算法技术,任务被细化分割,而后传送至不同地域的基地,这种做法打破了地理限制,使得基地间的竞争愈发激烈。**例如,东厂将一个智能车障碍物项目拆分成拉框、打标签、画线三个子类任务,并分别派给贵州、山西、陕西基地。事实上,三个子类任务又继续拆分,每个子类项目又拆分出六七个子项目。贵州基地的员工形象地称其为“俄罗斯套娃”模式,大任务不断分解为小任务,而小任务之中又隐藏着更多的子任务(田野笔记:2020年11月26日)。
项目拆分越细,流动就越灵活。比如2020年12月,贵州基地得到了一个“假想框”(1)的项目,这是一个“很香”(2)的项目,原因在于其操作难度相对较低,但回报却格外丰厚(试标时效达到59.4秒)(1)。但是为了保证项目效率,东厂将5万条“假想框”的标注任务再次分割:起初仅向贵州基地投放了2.7万条作为试验,以此验证其效率与准确度。仅当达到预期标准时,剩余的2.3万条方会陆续投放;若未能满足预期,则此部分任务可能会转派给陕西、山西基地。
面对项目流动与竞争,补足组织调整了其内部管理策略。事实上,众多和东厂合作的地方性补足组织均面临一个棘手的问题:在“商业”与“政策”间找到平衡。贵州补足组织在2020年的决策更倾向“商业”方向:它意图通过加强内部管控提高整体竞争力,从而获得更多的订单。这一决策策略在其针对“妈妈工人”的分工调整上体现得最为明显。
由于“妈妈工人”在电脑操作及新规则适应上相对落后,基地认定她们是导致工作效率下降的关键因素。基于此,黑崽将“妈妈工人”集结为一组,即前文所述的“差生组”。他打算通过这样的安排,让“妈妈工人”少涉足难度较高的任务,进一步强化贵州基地的竞争地位。比如,东厂的标注平台负责人在12月发信息询问黑崽:“2D需求下降,3D业务需求21年已经饱和,愿不愿意做3D?多少人能做3D?”黑崽解释说,3D标注对标注工的图文理解能力要求非常高,“妈妈工人”很难跟上3D标注难度。所以他只能回复说:“40人能做3D,15人能机动进入。”这也就意味着他计划把“妈妈工人”分到“机动组”,偶尔辅助完成3D标注任务。
此种分工导致“妈妈工人”的收入明显下降。年轻女工燕子表达过她对妈妈们的同情:“因为她们组(妈妈组)就是怎么说呢,一直都没有什么好的任务……她们的那些项目(就算有),也是一些小项目或者临时的项目,然后比如说他们有时候就是说要给你做这个任务,然后就要让你培训5分钟,但是正式任务就一直没有下来,只有就天天训练,训练了之后,又不增加任务了。”(B20200208)
需要指出的是,黑崽在竞争压力下所制定的分工策略——将妈妈们分配到低难度、低密度订单要求的“差生组”——某种程度上弥补了平台远程劳动控制的局限性。正如既有研究所展示的那样,由于远程局限性,平台常常难以深入洞察其所雇佣的劳动者的实际生产潜能与独特性,从而导致其生产效益不尽如人意。尽管针对这一现象,算法工程师已经开始设计更多的优化管理程序(如劳动表现优化排序程序),但是远程的劳动控制仍然不能通过劳动分工足够有效地释放劳动力潜能(Gray&Suri 2019)。反而是地方性补足组织由于对劳动者特性有更为精准的认知,能够制定出更具“效益”的劳动分工策略。这一点亦得到了东厂人工智能部门项目经理的印证:
……我们也在不停优化我们的标注平台,让它能够产生最合理的分工和管理策略。这涉及一种启发式优化算法(Heuristic Optimization)……但是这种优化需要特别多的分析工作、数据和算力,说白了就是需要投入特别多的钱。后来我们发现,其实标注基地的经理他们根据自己经验做出的优化策略要比启发式算法准确有效得多,而且还省钱,所以算下来,基地的“人工优化”才是最有效的管控策略。(X20220113)
此外,逐底竞争使得基地的规训趋于严格。2019年我们第一次来贵州调研时,贵州基地还是B厂扶持的唯一一个扶贫标注基地,并没有竞争对手。那时,黑崽对基地工人的管理相对宽松,每天下午四点左右,“妈妈工人”都溜出去接小孩放学,之后又让小孩在自己的工位上写作业,陪自己工作。
然而,2020年我们再次到访贵州时,发现基地的管理方式已然经历了明显的变革。以考勤为例,不少工人,尤其是“妈妈工人”,不再享有在工作时段离开基地的自由。这使得在上班时段出去接孩子不再可行,部分妈妈让孩子们自行走到工厂等待,待其工作结束后再一起回家。黑崽在2020年之后,开始借助B厂平台的远程线上管理工具,在电脑屏幕后实行更严格的管控(despotic control)。线上控制让黑崽摆脱掉熟人社会关系对管控的钳制,与此同时,他还利用对地方社会的深入了解,运用线下的社会网络来强化线上的管理控制。比如,从2020年开始,黑崽规定员工需通过标注平台程序进行上班打卡。由于标注基地在生活社区内部,工人的住所离基地往往不足1000米,这导致打卡程序容易发生误判。一些工人利用这一程序上的漏洞,提前在家进行线上打卡。但同住于社区的黑崽很快捕捉到这一差错,调整了程序的距离敏感度,使工人的这一小伎俩落空。
(四)补足组织与算法抵御
补足组织并不总是和资本保持一致,与工人对立,事实上在某些情况下,补足组织的利益与工人一致,与科技资本冲突。在这种情境下,补足组织就成为工人抵御算法控制的关键因素。
比如,在面对更“香”的数据时,补足组织往往和工人合作,一起钻算法控制“空子”。“香”数据与数据定价有关,算法控制的一个强项就是可以对每一个标注项目进行细致具体的定价。具体来说,东厂在下派标注数据包之前会找内部团队试标,通过试标定价。而问题的关键在于,只要工人掌握了特定的技巧与经验,他们处理高难度图像的效率往往高于工程师最初的预测。(1)有工人曾举例说,“假想框”标注任务被东厂定义为高难度标注任务,定价是15~16元/小时。但是当工人熟练掌握一些被遮挡物体可能在照片中出现的位置、形状和标注移动快捷键时,他们用预估时间的一半就能标完一张假想框图片。这就意味着工人只需要花半个小时就能赚到15~16元,这种任务对于工人来说就是非常“香”的。
东厂有时会在标注平台上共享一批数据,开放给所有标注基地一起完成。理论上,进入到这个数据库的工人每做完一条数据就应提交一条,然后再认领下一条。但是当数据足够“香”的时候,工人们就会囤一些数据,也就是说在还没有标注的情况下先将数据提交上去,这时候提交的数据就和工人的ID绑定了,相当于工人认领了这个标注条目。在认领足够多的数据之后,工人再通过“修改”已经“提交”的项目来完成标注工作。这个过程被工人称为“囤数据”“抢数据”。(偷吃步 赶工游戏 布洛维 制造同意 生产的政治)
补足组织在工人“囤”数据上起到了很大的作用。我们在贵州的第二次田野调查就见到了基地工人囤“假想框”数据。某日清晨,黑崽向工人透露,当天会放出一批很“香”的数据,并且允许各小组可以推迟完成其他标注任务,上午集中去抢数据包。黑崽还从网上找来一个插件——连点器(2)来帮他们点击页面上的“提交”按钮。当天中午我们去工人小李家吃饭的时候,她一脸喜悦地和我们分享了上午的成果——抢到了40,000条数据,远远高于其他基地。小李将此归功于连点器。他们整个组一上午都停下了手头其他工作,相互照应,专注抢包。我们好奇抢包为什么还要“相互照应”,小李解释说,因为用连点器时需要过几分钟就刷新一下网页,保证连点器不停止工作。所以当他们去卫生间或者短暂离开电脑的时候,同组工人就会帮他们时不时刷新一下页面(田野笔记:2020年11月18日)。补足组织在抢包过程中起着关键作用:一方面放松标注工作管控,允许工人暂停手头其他工作去抢包;另一方面提供技术支援,提高了工人抢包的效率。
最后需要指出的是,在囤数据这一行为中,补足组织和工人达成了一致,即补足组织和工人通过抢包的行为从科技公司手中争夺到更多的对于生产资料和生产流程的控制权。而这显然不是科技公司乐意见到的。有意思的是,科技公司的算法部门负责人告诉我们,其实算法控制里是有消除这种反抗行为的算法工具的,只不过当这种行为还没有演变成大规模集体现象时,科技资本认为优化这一算法控制工具的成本更高,所以选择暂时搁置这一问题:
其实在互联网公司有个专门的算法工具,我们叫做反作弊工具。举个例子说,比如系统今天在平台上派发了一大批东西,你会发现有很多人搞一个“养鸡场”,养了1000台手机在疯狂地抢这个东西。其实我们有很多办法可以找出这样的“养鸡场”。怎么找?根据你的IP,根据你的网段,根据你的这台机器上所有关联信息,比如说你重复登录不同账号,或者你的(机器)行为具有高度一致性,通过一些神经网络学习的算法去“挖”。但是我用算法去“挖”,这个成本是比较高的,收益没有那么大……(X20220103)
科技资本在权衡收入产出比之后,并没有选择通过介入算法控制的方式来“根除”这种反抗现象,而只是通过警告的方式来降低相关反抗发生的可能性。我们从基地财务人员和一些工人口中得知,东厂批评了贵州基地的囤数据行为,并且也警告过黑崽,如果再继续囤数据,就会影响贵州基地的月底排名分数。
五、结论
平台与算法技术是学界当下关注的焦点。然而学界存在一种神秘化技术革新的趋势,过于强调平台和算法技术对社会的颠覆性。值得庆幸的是,已有学者对这一倾向非常警觉,试图从多个角度阐述平台-算法技术的历史延续性。在此背景之下,平台“再中介化”研究应运而生。该领域的学者试图揭示:围绕平台所构建的生产与雇佣关系,并未如人们所预期的那样具备彻底的颠覆性。反之,随着平台劳动范围的逐渐拓展,平台资本对于算法控制的局限性认识越发深刻,对于将平台劳动落实到实地的需求也越发迫切。伴随这一转变,中介公司在连接平台与劳工、辅助平台回嵌到地方社会方面扮演了不可或缺的角色。本研究对此趋势进行了深度探索,试图基于特定产业特性和我国特有的田野环境,详尽地揭示平台劳动再中介化的内在机制与其给平台算法控制所带来的新的可能性。
本研究描绘了算法控制与补足组织间的微妙互动,对算法控制在地方社会的再嵌入趋势,以及补足组织在整合算法技术与社会关系上的核心作用进行了深入解读。如果说算法控制代表着技术抽象、冷漠——“计算”的一面,那么笔者希望通过展现补足组织的行为逻辑和策略,提醒学界看到计算背后“算计”的一面。例如,受到平台的远程属性影响,启发式优化算法在劳动力分配和优化方面难以充分适应各个落地基地的劳动特性。针对这一局限性,补足组织的管理团队依托其地方知识,策略性地进行劳动分工,从而提高了平台劳动的整体效率。平台的远程控制局限性还表现在对劳动力的监视方面。尽管平台设置了上班打卡程序,但工人发现了程序设置的距离偏差和漏洞,从而发展出“作弊策略”,同样是地方补足组织发现了这类反抗策略,通过调整程序完成反作弊,保证了平台对于劳动监控的力度。
通过将中介组织再概念化为“算法补足组织”,笔者团队试图探索中介组织的复杂性,为平台资本“再中介化”的研究传统注入新的活力。本文以贵州田野为例,展示了地方政府在算法补足组织中的独特角色。地方政府不仅仅以合作形式将平台资本引入地方经济,还让拆迁社区书记担任组织法人,衔接平台资本与地方劳动力。在这种情况下,中介组织的运作逻辑不再单纯是商业逻辑,而是需要在政策合法性和商业效益之间寻找平衡,这一态度在解决“妈妈工人”问题时尤为突出。
最后,笔者团队也希望通过本研究为探讨平台经济劳资关系提供更多的可能性。在特定条件下,补足组织会为平台工人提供一定反抗空间。正如前文提到的,前置补足组织有利于帮助学者厘清平台资本—补足组织—平台劳工之间的三角权力关系。在这个三角权力框架之中,两两结盟是必然会出现的状况。大多数情况之下,补足组织倾向于与平台资本联盟,辅助算法控制更“有效地”管控平台劳工,从而出现多维度“补足”算法完成控制的情况。但是,在某些情况下,也会出现补足组织与平台工人由于利益一致而结盟的状况。在这种情况下,补足组织成为辅助平台劳工抵御算法控制的关键因素。在贵州案例中,补足组织帮助平台工人识别出更“香”的数据,一定程度打开了算法控制的黑箱。补足组织还通过组织工人集体抢单而抵御算法控制下的订单分配。然而,仍需指出的是,抢数据案例表面上体现了补足组织帮助工人反抗算法控制,实际上,这种小规模联合在一定程度上弱化了工人的反抗情绪,从而阻止了大规模的集体反抗。因此,从这个角度来看,补足组织事实上在更深层次上辅助了平台资本的管控。
- Title: 理论 | 计算与算计:数据标注劳动中的算法补足组织
- Author: 吴桐雨 夏冰青
- Created at : 2025-07-31 01:33:45
- Updated at : 2025-07-31 19:42:26
- Link: https://www.lsr.lol/2025/07/30/labor-insight/计算与算计:数据标注劳动中的算法补足组织/
- License: This work is licensed under CC BY-NC-SA 4.0.