AI中国网 https://www.cnaiplus.com
近日,爱分析在北京举办了 2020爱分析·中国人工智能高峰论坛,数梦工场首席人工智能科学家姚国辉先生进行了题为 《人工智能助力数据治理》的主题演讲。
姚国辉指出,目前社会上存在大量沉默的数据,等待开发利用。数梦工场坚持“数据智能++”的战略,通过数据治理,让数据和人工智能得到普惠,助力产业化升级和政府治理能力现代化。
现将姚国辉的演讲实录分享。
姚国辉:大家好,我是来自数梦工场的姚国辉,我分享的题目是 《人工智能助力数据治理》。
为什么要做数据治理?数据治理的意义是什么?我们知道这一波人工智能是由数据驱动的,大量的高质量的数据是实现人工智能的必要条件。但是未经治理的数据,往往存在杂乱无章、质量参差不齐的情况。对于我们人来讲,一方水土养育一方人,对于人工智能来说,数据就是人工智能的水和空气,数据出了问题,人工智能也会出问题。比如人工智能的歧视,模型往往会以更高的概率把男性预测为医生,而把女性预测为护士,这种偏见来自于数据。再比如价格歧视,不同的人打开同一个商品页面却看到不同的价格。
这种歧视在我们现实生活中是客观存在的,但是人工智能技术不应该强化这种偏见,而应该去消除这种偏见。数据也不应该成为某个人或者某个公司用来谋取不正当利益的手段,而应该成为一种社会基础力量。数据要素作为生产要素已经被写入了国家的政策文件,我们需要220V的电,同样我们也需要220V的数据。
从整个社会来看,所有的数据是呈现一个长尾的分布,少数的互联网巨头拥有大量的数据,同时他们依靠技术和数据量的优势,率先享受了数据红利。更多的传统企业和政府组织,他们总体上拥有更多的数据,但是缺乏利用这种数据的技术,而成为沉默的数据,也就是说全社会的数据大部分的数据是沉默的,这是一种惊人的浪费,我们希望通过数据治理让数据和人工智能得到普惠,来助力产业数字化升级,助力政府治理能力现代化,这是我们的愿景。
我们也因此提出了“数据智能++”的战略,在我们数据治理的过程中,应用了大量的NLP技术,这里我简单分享一下NLP领域最新的技术进展。
NLP前沿简述
2001年最早出现了基于神经网络的语言模型,2008年出现了多任务学习,2013年词向量的出现是一个里程碑的事件。因为词向量,才使得深度学习广泛的应用于NLP领域。包括后面的训练模型和注意力机制。2018年出现了预训练语言模型,这是一个分水岭。因此在这之前,计算机视觉、图像领域已经出现了预训练+微调的训练模型,而NLP相对是滞后的。
语言的预训练虽然比图像来得更晚一些,但是它的来势更加凶猛。因为图像的预训练需要标注数据,是有监督的,而语言可以在无标签的数据上进行自己学习,不需要标注数据,这是一个巨大的优势。NLP也因此后来居上,反超了图像。
最近最好的模型基本上就是BERT,BERT是通过预测掩盖词来进行学习的,可是它的最大的区别就是忽略了掩盖词的顺序。XLNet通过全排列的方式,部分解决了这个问题。Transformer-XL引入了循环机制,使得模型能够捕捉更长距离的依赖。UniLMv2是多任务学习,把自然语言的生成和理解结合在一起。StructBERT利用词的顺序和句子的顺序来增强语言的学习能力。
神经网络有个特点,是一个万能的技术系,使用模型特别大,数据量特别多,可以迎合任何的数据。而无标签的语料几乎是无限的,所以模型越来越大,训练的代价越来越高。BERT用了64块TPU,训练了4天。而最近火爆全球的GPT3更夸张的用了一万的GPU,训练可以达到两千万,这没有什么创新,只是大,只算是暴力美学的巅峰之作了。这种暴力美学不可持续,给了我们另一个巨大的创新机会,这个机会就摆在我们面前,每个人都有机会创造历史。
在我们的实践中也广泛运用了预训练+微调的模式,下面我想通过几个案例分享一下在我们的业务场景人工智能的运用。
人工智能技术赋能数据治理,助力产业化升级和政府治理现代化
前面提到过原始数据存在各种各样的问题,要把它加工成可用的目标数据需要经过一系列的转化。我们把这些转换标准化成一些组件,这些组件可以组合成一个转化逻辑,每次转换,数据工程师都需要创建一个转换逻辑,假以时日转换逻辑会越来越多,无法搜索,没有办法重用。类似于图片存储,我们对每个转换逻辑赋予了一定的语义标签,基于语义标签可以方便的进行搜索和推荐,简化了数据工程师的工作量,提高了效率。这是为转换推荐语义标签的实现。
模型的实现,首先是通过一个转换逻辑,通过BERT形成组件进行嵌入,得到向量图,把向量图嵌入GNN,最后通过多标签分类器给出转化标签。
举一个应急领域的一个例子,在应急领域为了方便对事故事件的统计分析,需要对文本数据进行结构化处理,也就是说从文本进行命名实体抽取,方便非结构化的文件进行理解和使用。我们的任务就是要抽取其中的时间、地点、事件这些信息。抽取结果就是一个结构化的文本,每一行信息事件可能都是一个实体,这是一个演示的界面,给定一段文字,我们可以抽取其中的姓名、公司。传统用人工处理100个文件需要3小时,而智能抽取1分钟就可以完成。这是模型的实现,我们是基于机器理解的实现,对每个文件进行分段,对每个问题,对每个实体设计一个问题,然后把问题和段落进行拼接,输出向量,然后输出解锁位置。
以下例子是来自城市大脑中的应用——走失人员的救助。这个系统分两个部分,一部分是云端的城市大脑,一个是线下的移动终端。城市大脑集成了全域数据,比如说包括摄像头数据、交通卡口数据等等,基于全域数据可以对事件进行综合分析,如事件发生的时间、位置、类型、级别,产生该事件的全景信息图谱。移动终端完成救助事件接收、救助事件处置、救助事件反馈。
这样的好处是城市大脑知道全程的所有数据,把实时数据分析转换成可执行的洞察力推送给移动终端,移动终端现场的救助人员就有了数据就可以做更好的决策,这样预警、研判、中心调度和现场处置就形成了一个闭环。
以上的几个案例体现的就是我们的数据智能++的这个战略,具体什么是数据智能++?
简单来说就是By Intelligence,For Intelligence,把数据分成两部分,一部分是杂乱无章的数据加工成机器可以理解的数据或者智能的数据,这个过程通过人工智能来实现,也就是By Intelligence。第二部分是把智能数据变成智能应用,基于治理过的数据,更快的进行人工智能应用,可以更敏捷的进行业务创新。我们希望通过数据治理让机器理解更多的数据,只有机器理解了数据,它才能代替人去完成更多的工作,人就可以解放出来,聚焦更有价值,更有意义的事情。
我的分享就到这里,感谢各位的聆听!
注:阅读原文”,可浏览新版爱分析官网,了解更多信息 。
AI中国网 https://www.cnaiplus.com
本文网址: