您的位置:   网站首页    行业动态    【聚焦人工智能】看联邦学习开源平台如何打破数据孤岛

【聚焦人工智能】看联邦学习开源平台如何打破数据孤岛

阅读量:3774639 2019-10-25



在当今人工智能时代,数字化转型趋势日益紧迫,大数据是必然的方向。企业掌握了它,就得到了核心力量,手握行业的最新动向。为什么大数据有这么神秘的巨大作用?
大数据核心秘密在于,它颠覆了以往行业的数据采集和分析方式。不同于传统的通过局部调研或者抽样调查以获取行业和业务信息的方法,大数据是基于整个行业的全体数据之上,基于这样庞大完整的信息数据,能够清晰地显示出过去当下的问题和规律,企业便能够明白未来的发展趋势和策略,抢先布局。
所以大数据的厉害,在于它史无前例的“完整”。
 
但是,在大多数行业中,由于行业竞争、隐私安全、行政手续复杂等很多问题,在同一个公司内,不同部门之间想要实现数据整合都面临着重重的阻力,如果要在现实中将分散在各地、各个机构的数据进行整合,更是几乎不可能的,需要花费极其巨大的成本。
于是因为这些现实因素,数据往往以孤岛的形式存在。
 
那么,想要在满足数据隐私、安全和监管要求的前提下,怎么设计一个机器学习框架,能够让人工智能系统更加高效、准确地全面统合各自的数据,就是当前人工智能发展的一个重要研究课题。
 
 
1
聚焦AI,打破信息孤岛有新招? 
 
在我们日常生活中,会发生各种各样的数据,例如出行、购物、通讯、消费等数据,这些数据被各个公司分散收集,每个公司都得不到真正行业数据的全貌,也就无从获得大数据的巨力加持。
想要抢在其他企业的前面,先一步得到时代新风口冲天机遇,就需要能够共享数据,提升算法的效果。不仅企业产品的用户体验将得以提高,也会催生各界广泛的人工智能的应用。
但想要做到数据共享,似乎难以同时保障数据的安全。难题就在于,如果要共享数据,数据的安全就容易受到威胁;如果要严密地保护数据,那么一个个信息孤岛就难以打破。
 
 
数据保护环境的管制日趋严格,必须在安全的前提下聚合这些分散的数据,同时不泄露各自的隐私。
 
针对这一困局,2017年,谷歌牵头提出了“联邦学习”技术解决方案。
 
通过硬件增强型安全技术的支持,在特定硬件中建立一个可信执行环境(Trusted Execution Environment,TEE),有效防止外界触达和攻击敏感的数据和应用。企业依靠这个技术,就可以充分获取行业全局资源,深度挖掘数据价值。得到足够精准的决策支持。
2
什么是“联邦学习” 
 
“联邦学习”是一种保障数据安全的机器学习建模方法,面向安全合规的数据合作。它解决了数据无法直接整合进行机器学习模型训练的问题,能在保证数据隐私安全的基础上,实现共同建模,提升机器学习模型的效果。
 
 
通过与英特尔开展深入技术合作,联邦学习团队成功地将 TEE 方案的重要支柱——英特尔? 软件防护扩展 (英特尔? Software Guard Extensions,以下简称英特尔? SGX) 技术引入其联邦学习方案,率先在多源数据协同实施 AI 训练之路上开展了积极探索,并在保险、医疗、智能语音以及车联网等多个领域的实践中取得了丰硕成果,赢得了用户的良好反馈。“联邦学习”没有特别的领域或者具体的算法限制,应用前景十分广阔。
 
随着5G、IoT技术的进一步发展,设备间传输带宽的大幅改善以及边缘计算性能的增强,联邦学习也将用于5G、IoT网络基础之上的AI能力提升和生态构建。
 
目前,国内百度、阿里、腾讯、平安科技等公司正在努力推动“联邦学习”技术产品落地,联手推进联邦学习社区进一步发展。
 
3
联邦学习将会如何改变AI 
 
在机器学习或深度学习的概念中,由训练得到的AI模型被应用于新的数据,这个过程被称为推理。
在实际的应用过程中,模型建立的有效性,直接决定推理结果的准确性,尤其在医疗、保险、金融等对精度有很高要求的行业,训练模型的准确性至关重要。
 
训练是AI技术落地的关键,如今AI发展不仅需要芯片强大的算力,更基于大数据对训练模型的支持。
 
 
要实现大数据的共享价值,同时也要保护企业数据的隐私安全,在满足这些要求的基础上,联邦学习成了解决数据难题的“金钥匙”。它是解决数据孤岛问题的重要技术,尤其是在当下数字化转型趋势日益明显时,联邦学习可为各行业的智能化升级提供更高效的模型应用,同时也是建设联邦智能生态的重要组成部分。
 
所以我们不禁好奇,联邦学习是如何具体应用在AI领域的?联邦学习又是如何促进物联网与边缘计算的?多方的“共同富裕”是如何达成的?联邦学习还会带给我们怎样的惊喜?
4
“联邦学习”的应用场景 
 
应用场景可分为同构场景和异构场景。
 

01 同构场景
同构场景指的是两个企业属于相同或相近的领域,所拥有的数据性质相似,特征相近,但是样本不同。如在银行和金融机构间的合作,双方拥有的不同的用户样本,但是样本属性同质,这种场景下使用横向联邦学习,可达到将双方样本放到一起的建模效果。
02 异构场景
异构场景指的是两个企业分属不同的领域,所拥有的数据性质不同,特征不同,但是有重叠的样本 ID。比如银行与互联网公司之间的合作,双方有重叠的用户 ID,但是企业间各自拥有用户不同的特征,如银行有用户的收入和交易行为,互联网公司有用户的社交或出行行为,这种场景下使用纵向联邦学习建模,可达到特征增加的建模效果。
 
两种场景下均比在本地单方建模效果更好。
 
以联邦学习在保险行业的应用为例,以往用户在投保时,业务人员只能根据用户的年龄、性别等基本信息来确定保费金额。但随着信息社会的不断发展,用户数据的数量和特征维度得到了巨大的增加。例如对于健康类险种来说,业务系统如果能够利用海量的病历、家族病史数据等进行 AI 预测,并得到更加细分的健康评估类别,就有望提升投保人健康评估结果的准确度。
 
但病历、病史等,无疑是各个健康医疗机构中需要绝对确保隐私的数据,不仅不可能予以公开,更需要提升安全等级予以保护。现在,通过联邦学习方案的引入,保险企业可以在不触及用户数据的情况下开展保险定价模型的 AI 训练。据已启动的相关项目的第一线反馈,联邦学习 1+N 式解决方案使保险个性化定价效果得到了明显提升。
 

未来,联邦学习团队还将与英特尔进一步开展技术合作,以更多、更先进的技术驱动数据资源在联邦学习中的安全运转和高效转化,并与更多企业和机构相互协作,打破数据壁垒,推动联邦学习在各行各业中的快速发展和应用。

在线QQ咨询,点这里

QQ咨询

微信服务号