语音交互是机器人用来表达的出口,大数据是机器人用来更加准确判!
金融行业是大数据与人工智能落地最具潜力的行业之一。金融行业是数据密集型行业,金融数据具有更高的实时性、安全性和稳定性的要求,结构化数据占比高,应用场景广泛。但与此同时,金融行业还有赖于利用第三方数据来为客户提供更好的服务,自身业务特点也对金融数据的数据安全和个人隐私保护带来了极大的困难,数据孤岛现象严重,这也是为何联邦学习首先在微众银行这样的创新金融企业落地和开花结果的原因。
随着深度学习神经网络的提出、算法改善和算力的提升、以及大数据的广泛应用,人工智能迎来了一波新的高峰。2016 年的「人机大战」AlphaGo 战胜围棋世界冠军李世石,不仅展示了以大数据驱动的人工智能的巨大潜力,也让人们更加期待一个人工智能在各行各业中得以实现的新时代的到来。
然而理想很丰满,现实很骨感——在实际应用中,大多数应用领域均存在数据有限且质量较差的问题,在某些专业性很强的细分领域(如医疗诊断)更是难以获得足以支撑人工智能技术实现的标注数据。同时在不同数据源之间存在难以打破的壁垒,「大数据」往往只是越来越多的「数据孤岛」的总称。
语言建模成功是有原因的!它是一项非常困难的工作,为了有机会解决这个难题,模型需要学习语法,语义以及某些世界常识。给定足够的数据,大量参数和足够的计算能力,模型就可以有不错的学习成果。根据过往的实验来看,语言建模比翻译或自动编码等其它预训练工作更有效。
最近对人类语言的预测率失真 (PRD) 的分析 (Hahn and Futrell, 2019) 研究表明,人类语言和语言建模都具有无穷高的统计复杂性,但语言建模可以在较低层次上模仿逼近人类语言。这一观察结果有两个启示:1)我们可以用相对较小的模型以获得较为精准的结果;2)我们的模型有很大的拓展潜力。对于这两种启示,我们都有充足证据,我们可以在下一节中看到。
简单的做法可以是在预训练的模型之上添加一个或多个线性层,通常是在 Bert 基础上增加。或者我们也可以使用模型输出作为另一个模型的输入。当目标任务需要预训练的嵌入有一些交互作用但目前的预训练模型执行不了时,这通常是有帮助的,例如以 BERT 为预训练模型但需要词汇表征或建立跨句子关系模型。
我们希望这样做的原因之一可能是为了适应结构不同的设定目标,例如一个具有多个输入序列的任务。在这种情况下,我们可以使用预训练的模型尽可能初始化结构不同的设定模型。我们还可以应用于特定项目的修改,例如添加、跳过或连接或警示。最后,修改目标任务的参数可以通过在预训练的模型层之间添加瓶颈模块 (适配器)来减少需要精细调整的参数数量。
同时随着大数据的发展,重视数据隐私和安全已经成为一种世界性的趋势,而欧盟「数据隐私保护条例」(General Data Protection RegulaTIon,GDPR)等一系列条例的出台更是加剧了数据获取的难度,这也给人工智能的落地应用带来了前所未有的挑战。