中国AI四小龙通过科创板审核有望成为AI第一股

2021-07-26 12:47:45 来源：第一财经

近日，以CV（计算机视觉）起家、随后晋身“中国AI四小龙”的云从科技IPO申请已通过科创板审核，若后续进展顺利，云从有望成为“AI第一股”。

实际上，同在四小龙队列的其他三家公司，在证券市场的表现一直不尽如意。旷视科技2019年曾经冲击港股上市，2020年赴港上市计划搁浅，后来又在2021年3月冲击科创板上市，目前仍在排队状态。而依图科技也曾经冲击科创板，后于2021年6月撤销上市申请。

作为四小龙领军者的商汤科技，虽然有关融资的声音传出不断，但依旧没有落实上市的具体细节。

当下真的是AI四小龙上市的最佳时机吗？

7月16日，国家网信办会同公安部、国家安全部、自然资源部、交通运输部、税务总局、市场监管总局等部门联合进驻滴滴出行科技有限公司，开展网络安全审查。

一时间，凡是涉及大数据的互联网行业企业，都有风雨欲来的感觉。

业内人士认为，以深度学习作为核心AI理论的AI四小龙，其实已经感受到了非常大的压力。

甚至有言论表示， AI四小龙现在要过数据安全关了。

#01

绕不开的核心

现在说AI四小龙必须重视数据安全，跟他们所采取的AI核心理论有关。

经过多年发展，AI技术已经从2006年多伦多大学的杰弗里·辛顿教授对外发布自己的那三篇关于深度学习的论文开始，逐渐衍生出众多的流派。

现在主流的是三大技术领域，也就是深度学习、机器逻辑和人工大脑。

所谓机器逻辑是希望通过算法和数据的叠加，让计算机具备符合人类社会要求的逻辑和方法论，可以自主在某个领域判断并分析相应问题，并得出答案。

所谓人工大脑，实际上是通过对人类大脑组织的研究，利用计算机的性能模拟和算法组织，形成类人工大脑功能和工作机制的计算机集群。

以上两种人工智能理论，要么是从行为上希望能模拟人类的运作，要么是从大脑结构上希望对人类解析从而产生技术上的突破。问题是，这两个领域现在都是在探索阶段，离相应产品落地还有很长的距离。

当下AI技术落地最普遍的，还是深度学习。

深度学习技术意味着计算机要进入学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字、图像和声音等数据的解释有很大的帮助。

它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法，在语音和图像识别方面取得的效果，远远超过先前相关技术。

在深度学习之前，哪怕是百度这样的AI巨头，都无一例外经历了穷举法的所谓“特征工程”阶段。例如最早的阿波罗自动驾驶平台，所有在AI中计算机应该对路上发生行为进行的反应，都是由线下的工作人员根据人工对此的反应进行的标注。

一方面，每个人对任何事项的判断和反应都有着不同，这些不同积累到一定程度就容易引发AI系统的结构化错误；另一方面，要想完成庞大的面向社会层面操作的AI系统，那这种数据标注的结构下，又要动用大量的人力和时间。

这种数据标注的“特征工程”方式实际上是一种“伪”AI，人类训练计算机只是进行一种简单的因果关系，而并没有掌握事情的本质。

近年来，研究人员逐渐将“特征学习”和“规律发现”等AI方法结合起来，对原本已有督学习为基础的卷积神经网络，结合自编码神经网络进行无监督的预训练，进而利用鉴别信息微调网络参数形成的卷积深度置信网络。

与传统的学习方法相比，深度学习方法预设了更多的模型参数，因此模型训练难度更大，根据统计学习的一般规律来看，模型参数越多，需要参与训练的数据量也越大。

而随着计算机技术的进步以及分布化网络的形成，越来越多的算力，可以通过网络协调提供，这也就给人类AI技术的发展提供了一个新的基础。

可以说，深度学习逐渐成为AI的主流。另外，由于大量数据的引用和积累，深度学习跟数据安全之间，也产生了必要的联系。

#02

深度学习的痛点

实际上，在数据安全方面，深度学习有着自己基本无法解决的痛点。

由于深度学习是建立在大量数据的应用与计算机训练基础上实现，基础数据的获得，对于深度学习技术的落地非常重要。

比如特斯拉被人诟病的摄像头自动驾驶技术。马斯克一直不愿意采用激光雷达作为关键性地标数据的测定工具，坚持使用摄像头来采集道路信息，基于庞大的已有汽车上路数据的训练，特斯拉本身汽车的自动驾驶技术稳定性相对来说很强。

AI四小龙也是如此，这两年的发展都跟大量基础数据的积累有关。

媒体报道显示，依图在“AI+医疗影像分析”方面所有突破，背后是海量的医疗影像图片的分析；云从在金融领域的AI学习和数据分析方面领先，不完全统计其服务的金融公司就超过50家，日常AI系统处理的数据也是一个无法想象的数量；而旷视科技围绕AI核心的行业物联解决方案是优势，成百上千万的物联网数据交换过程是旷视科技最核心的技术基础；另外，商汤在监控分析和城市管理等方面与政府和企业达成了不少合作，这也需要大量数据进行底层支持。

另外这4家也陆陆续续发布了一些新的技术服务，而这些新的技术无一例外都跟大数据的获取和分析一脉相承。

比如商汤科技在上海车展期间发布了自己的座舱AI数据化解决方案，功能直逼华为数字座舱，与特斯拉的一系列操控系统和自动驾驶功能类似，当然这也需要海量数据(603138,股吧)对系统进行驯化，才能产生更加准确的结果。

如今国家对数据安全的重视程度越来越高，这也就意味着以前利用客户数据大量积累，调试系统的时代一去不复返。

毕竟根据刚刚公布的征求意见稿，相应用户在应用中的数据企业如果想要采用，必须事先得到用户本身的许可。

这从一个角度无形中提升了深度学习的难度，并让四小龙现有技术的进一步拓展和新技术的落地产生了一些问题。

#03

私有云的无奈

所有的AI企业在遇到数据安全的时候，都会有一系列的预案。其中只为客户提供技术，而数据训练和学习的过程留在客户自身系统中完成，已经成为不少国内外AI巨头，在遭到数据安全阻击的时候采用的重要产品策略。

根据市场一般的操作方式， AI企业只负责制作算法和系统封装之后的系统提供给用户，并帮助用户建立自己的私有云和数据空间，然后由用户根据相应的格式上传历史数据，让系统自我进行深度学习，最终完成用户在 AI领域功能的定制。

这种私有云的部署方式，看似完美解决了AI企业技术研发和用户数据安全之间的矛盾，然而，这样的情况背后还存在着一个无法解决的问题。

实际上所有这4家企业做的技术都是基于深度学习而深入学习，即使出来一个可以安排客户私有部署的AI系统或者平台，它一定会对某一个行业的数据进行过总结，也一定会有基础数据进行训练才行。

而当下的AI技术并没有进化到系统可以自主学习，并树立独立人格和思维方式的时代，所有的系统都必须有一个知识边界，这个知识边界是越画越小才能越来越精确。