搜索
高级检索
高级搜索
书       名 :
著       者 :
出  版  社 :
I  S  B  N:
文献来源:
出版时间 :
众包学习(精)/新一代人工智能创新平台建设及其关键技术丛书
0.00     定价 ¥ 150.00
图书来源: 浙江图书馆(由浙江新华配书)
此书还可采购25本,持证读者免费借回家
  • 配送范围:
    浙江省内
  • ISBN:
    9787030767448
  • 作      者:
    作者:张静//盛胜利//吴信东|责编:裴育//陈婕//纪四稳|总主编:吴信东
  • 出 版 社 :
    科学出版社
  • 出版日期:
    2023-11-01
收藏
内容介绍
本书系统介绍了众包学习的概念、应用领域、前沿课题和研究实践。在基础知识方面,本书介绍了众包的起源与发展、众包技术的研究方向,分析众包模式给机器学习带来的机遇与挑战。在前沿技术方面,本书详细阐述了众包标注真值推断与面向众包标注数据的预测模型学习等前沿研究课题。在研究实践方面,本书介绍了面向偏置标注的众包标签真值推断、基于机器学习模型的众包标签噪声处理、众包标签利用方法与集成学习模型、基于不确定性度量的众包主动学习等典型研究案例。 本书适合高等院校智能科学与技术、计算机科学与技术、控制科学与工程、网络空间安全等专业高年级本科生和研究生,以及相关领域研究人员和工程技术人员阅读与参考。
展开
精彩书摘
第1章众包概述
  1.1众包的起源与发展
  1.1.1从外包到众包
  在当今社会的商业环境中,绝大多数组织都很难仅仅依赖自身的资源实现其组织目标。以商业企业为例,为了提高效率和利用外部资源优势,通常会将服务或者生产功能由原先的企业内部供给转为向外部提供者购买,从而降低成本、增加效率,充分发挥企业核心竞争优势。这就是早已广泛采用的外包(outsourcing)模式。外包已经成为众多现代企业运转中不可或缺的一种分工协作模式。然而,随着企业分工的深入发展,创新驱动的业务高速迭代,生产和经营活动场景不断变化,以及财务和金融的压力不断升高,传统的外包模式越来越不能够满足企业发展的需求。*先,外包仍然存在对供应商进行挑选的问题,这一过程本身耗时费力。其次,随着人力成本的不断攀升,大量零散但又必不可少的工作无论采用传统的雇佣员工的方式还是采用外包的方式成本都较高。例如,创业型软件企业的用户界面设计及其更新虽然具有频繁出现的迫切需求,但其工作量并不大,雇佣和外包对企业来说都是两难决定。再次,企业很难有效地与多样化的终端用户直接对话,从而造成需求理解的偏差。例如,在新产品开发前的调研活动中,依赖咨询公司进行市场调研不但价格高昂而且容易陷入既有偏见陷阱。因为咨询公司并非终端客户,他们对一手信息的加工通常带有既定的偏见。昀后,外包模式仍然局限在有限的组织中,无法在更广泛的范围内调用各种优势资源为己所用。值得庆幸的是,众包模式的出现为上述问题的解决提供了潜在可能。
  众包(crowdsourcing)一词*次出现在2006年6月美国《连线》杂志记者Jeff Howe的“The rise of crowdsourcing”(众包的崛起)一文中(Howe, 2006)。众包是群体大众(crowd)和外包的组合名词,意味着工作群体将不再受单纯的专业知识壁垒或者特定的地域和组织所约束。 Brabham(2013)将众包的要素定义如下:①存在一个发布任务的组织;②存在一个自愿承担任务的社区大众;③存在一个能够上载众包任务的网络平台,组织和大众能够依赖平台充分互动;④组织和大众能够互惠互利。通过这些要素的定义不难看出,众包这一分布式、便捷化、创新性高的新模式很好地契合了时代的需求。
  对比传统的外包和新兴的众包,两者在专业化程度的实现上存在本质区别。外包强调的是单一目标的高度专业化,而众包则反其道而行之。众包的跨专业创新往往蕴含着巨大的潜力,由个体用户积极参与而获得成功的案例不胜枚举。例如,美国加利福尼亚大学伯克利分校的分布式计算项目成功地调动了世界各地成千上万个人计算机的闲置计算能力。类似地,长达半个世纪轰轰烈烈的软件开源运动证明,由网民协作写出的程序,质量并不一定逊色于大公司程序员开发的产品。
  1.1.2集众人之智慧
  众所周知,集体的力量通常远远大于个体。相对于个体,集体往往也潜在地具有更强的智慧。在人类社会中,大多数的社会变革昀终都归功于集体的智慧。在合适的条件下,一群人的努力甚至可以在某些方面超越专家。这正是人们常说的“三个臭皮匠,顶个诸葛亮”。Surowiecki (2005)认为,群众的智慧是从群体中个体的*立性、群体的多样性以及个体*立产出中集聚而形成的,它并非等同于个体均匀地进行集体化的工作。这恰恰是众包工作的本质特点之一。相较于传统的雇佣或者外包工作模式,众包将任务分解或者经过设计交由大众群体来完成,并通过对完成的产出进行进一步筛选、分析等获得昀终的结果。这些参与工作的众包工作者往往来自不同的地域、不同的行业,具有不同的背景。他们的思想相互碰撞,产生智慧的火光。众包正是通过这种多人协作的方式汲取大众的智慧。
  众人的智慧往往超乎想象。2009年,英国数学家William Timothy Gowers (1998年菲尔兹奖得主)发布了一篇博文并提出了两个问题,即“网络上的自发合作能否破解数学难题”与“合作过程能否开诚布公,将解题的创造性过程展示给全世界”。Gowers选择了Hales-Jewett定理的密度形式。这个问题有些类似于“下一种单人井字棋,但目的是要本方输掉对局”。该定理声称,如果井字棋棋盘是多维的而且维数足够大,下不了几步就会发现,棋子会不可避免地排成一条线,也就是说无论下棋者如何努力,都没办法输掉这场游戏。令人惊讶的是,仅仅不到六周的时间,这个问题就从收到的来自不同行业群众的一千多条评论中得到了解决。 Gowers将这些证明写成一篇正规论文的用时甚至比获得这些证明本身用时更长。
  1.1.3众包的形式
  众包通过互联网将需求方和工作者联系在一起。众包的需求群体非常广泛,既可以是一个大型社会组织,也可以是一个小型私人团体,甚至可以是*立的个人。同时,参与众包工作的群体相对于需求方则更加分散。同一个项目的工作者中既有可能是住在附近的某个邻居,也有可能是远在异国他乡的陌生人。但是,无论山川异域,他们都通过某种形式的任务紧密联系在一起。众包任务通常包括众赛、宏任务和微任务三种类型。众赛,顾名思义就是举办比赛吸引群众参加,昀终选出优胜产出。宏任务是吸引群众参与比较完整的、具有体系的任务。微任务是将大任务分解成大量可以快速完成的、类型相同的小任务。本书的主要研究对象为微任务。
  1.2 数据众包
  1.2.1数据众包的典型应用
  数据众包是一类围绕数据的生产、加工和应用而组织的众包活动。数据众包可以涉及各种应用领域,只要这些应用中存在数据的输入、加工、存储、利用等一系列的环节,数据众包似乎总能找到用武之地。数据众包的根本目标是通过利用网络大众的人类智能完成那些目前无法用机器自动处理的数据相关任务,如在互联网上搜索满足特定条件的信息、对数据内容进行语义描述或者挖掘数据背后隐藏的含义等。下面列举两个数据众包的应用。
  1)光学字符识别
  光学字符识别(optical character recognition,OCR)是昀常见的人工智能应用之一。为了应对各种字体的印刷文本、各种字形的手写文本以及光照、褶皱、材质、背景的影响,需要对已有样本上的文字(实际是图像)进行对应坐标的内容标注。标注后的样本将用来训练足够强大的光学字符识别模型。对图片样本的标注通常由人工操作来完成。这时就可以发布众包任务来雇佣大量的网络工作者完成这一工作。任务发布者将标注结果汇集后就可以通过机器学习算法来构建识别模型。
  2)地区信息采集
  在智慧城市的应用中,构建某一地区的交通模型时通常需要了解该地区人们的出行方式,而人们的出行方式和个人的职业、年龄、身体状况、日常习惯等息息相关。这些信息往往无法通过人的行动轨迹(如公交卡的使用情况或者手机在基站之间的移动等)来准确获取。此外,人们当前的通勤方式往往与他们理想中的通勤方式差距较大。通过众包方式来进行相关信息的获取显然比传统的调查问卷更加有效。众包方式可以让目标调查群体有足够的时间在轻松的环境下完成问题。被调查者甚至可以提供更富有洞察力的答案。在众包任务完成后,这些收集的数据将应用于交通出行模型的构建。
  1.2.2数据众包的工作流程
  数据众包的工作流程从总体上分为三个阶段:初始工作阶段、中间过程阶段和昀终结果阶段。如图1-1所示,这三个阶段的任务总体上是串行的,但是中间过程阶段则存在高度并行化的可能,同时中间环节还可以进行多次迭代。
  图1-1数据众包的工作流程
  初始工作阶段通常包含原始任务分解、众包任务设计和发布、初始数据输入等环节。这个阶段通常需要数据需求者直接参与工作。数据需求者*先必须考虑如何将原始任务分解成适合众包工作者完成的*立且微小的人类智能任务(human intelligence task, HIT)。对于每个HIT,需要设计出相应的图形用户界面来帮助工作者更好地完成任务。图形用户界面上需要包含任务的描述、可以从事此任务的众包工作者的资质、完成任务后工作者可以获得的报酬等信息。更加复杂的众包任务设计还需要对报酬的分配方式、工作者的激励方式,甚至如何通过界面设计促进工作者产出更高质量的结果等一系列问题进行优化。
  中间过程阶段主要是众包工作者完成分配给他们的HIT。中间过程阶段的复杂程度往往和任务密切相关。例如,对于简单的图像分类标注任务,中间过程可以是一个简单的并行任务,因为每个图像分类任务之间可以相互*立。但是,当任务之间存在特定的逻辑顺序时,众包工作流程将会呈现出局部串行化。例如,在某个信息获取任务中为了避免偏见,一部分众包工作者被要求从互联网上搜索特定的信息,另外一部分工作者则对这些搜索到的信息进行二次加工。甚至有些众包任务还会引入检查点,这样一些众包工作者的任务可能会反复迭代几次。
  昀终结果阶段的主要工作仍然需要由数据需求方完成。需求方*先收集众包工作者的工作成果并进行确认。确认的主要目的是审核工作者的劳动是否能够获得相应的报酬,而不是检查工作者的产出能否昀终被使用。因此,在HIT确认后,众包平台会自动将需求方预支的报酬转入众包工作账户中。对于所收集到的原始众包数据,需求方将利用各种技术进行筛选和质量提升,以使其能够满足昀终应用的需求。
  1.2.3数据众包面临的挑战性问题
  数据众包是一种低成本且快速的数据获取方式。但是,众包工作模式所固有
  的开放、动态、不确定、不可知等特性致使数据众包任务仍然面临诸多挑战。*先,众包工作者具有很强的不确定性,他们提供的工作成果不一定是有效的数据,而且数据的一致性也不一定能够得到保证,甚至同一工作者对同一问题的两次作答都有可能不同。其次,众包任务通常具有动态性,即众包工作者会随时加入或者退出众包任务。因此,高质量的答案会随着高质量工作者的退出而消失。同样,低质量的答案也会伴随着低质量工作者的出现而涌现。另外,由于众包平台中从事该任务的工作者的动态变化,众包结果的及时性也无法充分保证。再次,众包任务还具有不可知特性。正因为难以获得相关任务的准确答案,需求方才需要组织众包工作。因此,需求方无法预知该众包任务实施的环境信息。这些信息包括承担该任务的众包工作者的专业背景、投入程度、目的意愿,以及相关任务困难程度和标准答案等。昀后,众包平台具有极大的开放特性。因此,保证敏感数据在众包活动中的私密性也面临着不小的挑战。此外,参与众包任务的工作者还可能存在一些异常行为,如通过垃圾答案获取报酬或者刻意提供恶意的答案等。总之,利用众包平台进行数据收集时,需求方必须认真考虑这些问题,在任务的组织、设计、发布、实施、结果收集等阶段采取精细设计的方案来应对这些挑战,保证所收集的数据能够达到既定要求。
  1.3 众包系统
  1.3.1几个典型的众包系统
  经过十几年的发展,面向不同目标的各种众包系统取得了长足的进步。这些系统提供了丰富的模板来帮助需求者创建自己的众包任务,同时引入了各种机制来完善对众包工作者及其工作成果的管理。本节介绍几个典型的众包系统。
  亚马逊土耳其机器人(Amazon Mechanical Turk,简称MTurk,网址www.mturk.com)网站无疑是发展昀早且昀为成功的面向微任务的商业众包平台,如图1-2所示,它“奇怪”的名称来源于18世纪由Wolfgang von Kempelen打造的具有欺骗性质的自动下棋机器“The Turk”。该机器的外观是一个木制的土耳其人,他击败了当时一些昀优秀的棋手,其奥妙所在是其内部藏了一位国际象棋大师。实际上,藏在MTurk里的是数以万计的众包工作者,他们随时准备着完成平台上发布的超过几十万种工作。一旦网络用户注册为MTurk平台的工作者,就可以从系统中获取工作列表,并从列表中查看工作的要求和报酬来进行任务的选择。在提交完成的任务并完成确认后,平台会将需求者为此任务预支的报酬转入对应的完成任务的众包工作者的个人账户。需求者可以方便地利用MTurk
展开
目录
目录
“新一代人工智能创新平台建设及其关键技术丛书”
序前言部分通用符号和约定
第1章众包概述1
1.1众包的起源与发展1
1.1.1从外包到众包1
1.1.2集众人之智慧2
1.1.3众包的形式2
1.2数据众包3
1.2.1数据众包的典型应用3
1.2.2数据众包的工作流程3
1.2.3数据众包面临的挑战性问题4
1.3众包系统5
1.3.1几个典型的众包系统5
1.3.2众包系统分类8
1.3.3众包系统性能评价11
1.3.4众包系统技术概览12
1.4本章小结13
第2章众包技术的研究方向14
2.1引言14
2.2众包质量控制14
2.2.1质量模型14
2.2.2数据质量17
2.2.3任务质量18
2.2.4参与者质量19
2.2.5质量评估21
2.2.6质量保证22
2.3众包任务设计25
2.3.1任务组合25
2.3.2任务分配26
2.3.3激励机制27
2.4成本和时延控制29
2.4.1问题规约29
2.4.2任务抽样29
2.4.3时延控制30
2.5本章小结31
第3章众包遇见机器学习33
3.1引言33
3.2从众包中获利33
3.2.1计算机视觉33
3.2.2信息检索35
3.2.3自然语言处理36
3.2.4机器学习37
3.3数据生产38
3.3.1数据标注38
3.3.2不确定数据40
3.3.3多样性数据41
3.3.4特殊性数据41
3.4混合智能系统42
3.4.1混合调度43
3.4.2混合人机通信44
3.4.3混合聚类45
3.5模型的调试与评估46
3.5.1管道组件调试46
3.5.2评估模型的可解释性47
3.5.3评估无监督模型48
3.5.4按需评价49
3.6本章小结49
第4章众包标注的真值推断50
4.1引言50
4.2真值推断的概念50
4.2.1众包标注50
4.2.2真值推断的定义51
4.2.3通用真值推断研究概览53
4.2.4面临的挑战54
4.3真值推断的概率模型及EM求解57
4.3.1真值推断的求解框架57
4.3.2ZenCrowd模型60
4.3.3Dawid&Skene模型61
4.3.4Raykar&Yu模型63
4.3.5GLAD模型65
4.4复杂标注的真值推断模型67
4.4.1OnlineWP模型68
4.4.2MCMLI模型69
4.4.3MCMLD模型72
4.4.4MCMLI-OC模型和MCMLD-OC模型75
4.5非EM求解的真值推断77
4.5.1CUBAM模型77
4.5.2Minimax熵模型79
4.5.3KOS模型80
4.5.4SFilter时序模型81
4.5.5BCC模型和cBCC模型82
4.6本章小结85
第5章面向众包标注数据的预测模型学习86
5.1引言86
5.2两阶段学习方案和直接学习方案86
5.2.1数据质量和学习模型质量86
5.2.2两阶段学习方案87
5.2.3直接学习方案88
5.3众包监督学习88
5.3.1Raykar&Yu学习模型88
5.3.2个人分类器模型92
5.3.3聚类个人分类器模型93
5.3.4Bi多维度模型96
5.4众包主动学习100
5.4.1主动学习概述100
5.4.2样本选择和工作者选择102
5.4.3成本约束的Proactive学习105
5.4.4STAL学习107
5.4.5Self-taught模型109
5.5其他众包学习范式113
5.5.1众包学习中的知识迁移113
5.5.2众包深度学习117
5.6本章小结119
第6章众包学习数据集与工具121
6.1引言121
6.2众包学习数据集121
6.2.1情感判断122
6.2.2相关性评估123
6.2.3图像分类124
6.2.4自然语言处理125
6.2.5事实评估126
6.3众包学习实验工具127
6.3.1SQUARE127
6.3.2BATC129
6.3.3CEKA132
6.3.4实验工具研发挑战135
6.4性能评价指标137
6.4.1二分类问题的评价指标137
6.4.2ROC*线与AUC139
6.4.3多分类问题的评价指标142
6.4.4回归的性能指标143
6.5本章小结144
第7章面向偏置标注的众包标签真值推断145
7.1引言145
7.2偏置标注问题145
7.2.1二分类偏置标注问题定义146
7.2.2真实数据集中的偏置标注现象146
7.2.3偏置标注对真值推断的影响150
7.3自动阈值估计推断算法153
7.3.1案例研究155
7.3.2正标签频率阈值算法158
7.3.3阈值估计算法159
7.3.4实验设置1617.3.5实验结果与分析161
7.4基于聚类的多分类真值推断163
7.4.1动机164
7.4.2原理和特征生成165
7.4.3GTIC算法169
7.4.4实验数据集与设置170
7.4.5实验结果与分析172
7.5本章小结175
第8章基于机器学习模型的众包标签噪声处理177
8.1引言177
8.2传统机器学习的噪声处理方法178
8.2.1分类过滤算法178
8.2.2标签打磨纠正算法179
8.2.3自训练误标纠正算法180
8.2.4基于聚类的误标纠正算法181
8.2.5众包数据集实验结果与分析182
8.3基于监督预测模型的众包标签噪声处理184
8.3.1总体技术框架185
8.3.2自适应投票噪声纠正算法186
8.3.3模拟众包标注数据集191
8.3.4标签噪声识别的性能191
8.3.5标签噪声纠正的性能193
8.3.6真实众包数据集实验结果与分析198
8.4基于双层聚类分析的众包标签噪声处理200
8.4.1总体技术框架201
8.4.2聚类标签集成算法202
8.4.3双层协同聚类算法203
8.4.4实验数据集与实验设置207
8.4.5实验结果与分析208
8.5本章小结210
第9章众包标签利用方法与集成学习模型212
9.1引言212
9.2基于噪声标签分布的预测模型训练方法213
9.2.1多数投票变体213
9.2.2成对样本模型训练215
x众包学习
9.2.3实验数据集与实验设置216
9.2.4实验结果与分析217
9.3众包集成学习220
9.3.1问题定义221
9.3.2集成学习方法221
9.3.3理论分析224
9.3.4实验对比算法和设置226
9.3.5模拟实验结果与分析227
9.3.6真实众包数据集实验结果与分析231
9.4本章小结233
第10章基于不确定性度量的众包主动学习235
10.1引言235
10.2面向偏置标注的主动学习236
10.2.1主动学习框架236
10.2.2偏置的处理237
10.2.3基于众包标签与偏置程度的不确定性度量239
10.2.4基于学习模型与偏置程度的不确定性度量240
10.2.5混合不确定性度量241
10.2.6实验数据集与实验设置242
10.2.7实验结果与分析243
10.3多标签众包主动学习248
10.3.1问题定义248
10.3.2基于混合模型的真值推断249
10.3.3采样策略与学习算法250
10.3.4实验数据集与实验设置253
10.3.5实验结果与分析254
10.4本章小结256
参考文献258
展开
加入书架成功!
收藏图书成功!
我知道了(3)
发表书评
读者登录

请选择您读者所在的图书馆

选择图书馆
浙江图书馆
点击获取验证码
登录
没有读者证?在线办证