《计算机光盘软件与应用》
星云Clustar副总裁许振
6月9日,首届 CTIS 2021消费者科技及创新展览会在上海新国际博览中心正式开幕。在钛媒体联合CTiS共同打造的“AI·创新数字生活主题论坛”上,星云Clustar副总裁许振进行了以“隐私计算构建AI基础设施,释放数据价值”为主题的分享。
机器学习是人工智能的一个细分领域,它是在海量数据的基础上去挖掘数据的价值,如果我们抽象来看,它总结下来就是算法、算力和大数据共同工作的产物,它最革命性的东西就是能够用算法和机器去代替人,去总结数据中的洞察。
“可是当我们面对产业时,我们发现数据并不大,大部分都是小数据,孤岛,烟囱。我们在自己所拥有的这些数据上能够做的挖掘,基本上已经达到了极致,我们再用更多的算法、更强大的算力,也只能去提升一两个百分点,已经很难引起质变了。”许振说,“所以我们在许多场景中不得不需要引入外部新的数据,以对消费者进行画像,预测和洞察消费者行为”。
由此就产生了一个矛盾,企业要提高自己人工智能的水平,必须引入外部数据,但引入外部数据又会受到数据保护法的限制,这一矛盾该如何解决成为了一个重要的问题。
而隐私计算就是回答这一问题的答案。许振介绍说,通过隐私计算技术,两个机构进行联合建模为需求方提供服务,但数据都依旧保持在本地,不用出数据库。这就是隐私计算所解决的问题。
有机构曾预测,到2025年,有50%的企业都是隐私计算的用户,不仅限于金融行业,还包括医疗、生物、政务、零售等行业,都会是隐私计算的潜在客户。
“隐私计算这个赛道是刚刚起步,应用方兴未艾。”许振说,“星云Clustar会坚持在隐私计算领域贡献自己的科技力量。”
以下为许振演讲实录:感谢主办方的邀请,我是来自星云Clustar的许振。今天我所讲的话题可能距离消费者端有点远,它更加贴近产业端。
我今天所演讲的话题,分享的内容主要是有两个关键词:一个是隐私计算,另一个则是基础设施。
机器学习是人工智能的一个细分领域,它是在海量数据的基础上去挖掘数据的价值,如果我们抽象来看,它总结下来就是算法、算力和大数据共同工作的产物,它最革命性的东西就是能够用算法和机器去代替人,去总结数据中的洞察,这是它最大的突破。
最近几年为什么机器学习这么火,也是因为五六年之前,谷歌的AlphaGo,还有李飞飞的猫,这两个事件推进了深度学习,还有其他比较高效的算法,这些算法使得我们可以将数据的挖掘交由机器,这才进一步导致了后面行业的爆发。包括自动语音识别,视觉识别技术,大部分也都是用机器学习和深度学习去实现。抽象来说,就是让机器在算法的驱动下,在数据中去寻找规律。
可是当我们面对产业时,我们发现数据并不大,大部分都是小数据,孤岛,烟囱。我们在自己所拥有的这些数据上能够做的挖掘,基本上已经达到了极致,我们再用更多的算法、更强大的算力,也只能去提升一两个百分点,已经很难引起质变了。所以我们在许多场景中不得不需要引入外部新的数据,以对消费者进行画像,预测和洞察消费者行为。
举个例子,在金融行业,我们要对消费者信用等级进行评估,这个评估仅仅依靠金融行业内部、银行内部的数据是不够的,因为银行内部可能只有消费者自己提交的家庭住址、学历、收入水平,并没有他的消费习惯、互联网记录。如果加入这些数据,银行对去申请贷款的消费者的洞察会更加全面,银行风控能力会更强。
但这涉及到了隐私问题,用消费者的数据去建立机器学习模型的过程中,是不是会侵犯隐私?
在欧洲和美国,对于隐私的保护是非常严厉的,比如CCPA和GDPR,他们很严苛,收集个人隐私数据的公司不能将这些数据共享出去,一旦发现隐私泄露,罚款额度是非常高的,大约占这个公司整体营业收入的2%,谷歌、Facebook都被罚过。
而在中国,个人隐私保护法也马上就要上线了,去年《民法典》也已经明确规定了:隐私数据,特别是消费者的隐私数据,是不能外泄的。
由此就产生了一个矛盾,企业要提高自己人工智能的水平,必须引入外部数据,但引入外部数据又会受到数据保护法的限制,这一矛盾该如何解决成为了一个重要的问题。
其实,隐私计算就是能让企业在引入外部数据时,保护消费者隐私的一种方法。