智能计算机市场投资初探
智能计算机市场投资初探 一.首先说下聚合的智能。 对应的产品是微软认知服务(Microsoft Cognitive Service)。最近微软发布了一个认知的云智能API,使得第三方的开发者可以很容易的调用这些API,使得写出来的应用可以像人类一样看到世界听到世界理解世界。 它包括五大方向,视觉,语音,语言,知识,搜索。 举例来说,How-Old.net. 这款应用很红,但是只需要20几行代码就可以开发,靠左边调用微软的云的认知服务API,就可以写出来很智能的应用。 之后对人脸的检测,人脸跟踪和识别,除了识别出来,我们更想知道人的表情,去年11月份,我们有更新的一版,将表情监测加入其中,可以检测喜悦吃惊愤怒等表情。 比人脸更难的是计算机有没有能力去理解他所看到的图片。 计算机视觉领域有一个全球的比赛,ImageNet,它有1000个类别,120万训练样本,10万测试图像,这里面包括车辆,动物,文字等,让计算机看到他没有看到的图片,让计算机告诉你这张照片属于哪一类,这个是很困难的事情。 过去的七八年,深度学习使得计算机视觉的分类问题得到了一个飞跃性的发展,在深度学习没有进入计算机视觉之前,如2011年时,错误率有20%多;到了2012年深度学习第一次应用到ImageNet中,一下子把错误率降到10%几,之后2013,2014,错误率一直往下走,到6%左右。2014年人类想知道自己能做多好,斯坦福一个博士把自己关在屋子里几个月学习,去参加这个比赛,错误率5.1%,他已经是人类中杰出的代表。去年年底微软用深度学习算法把错误率降到了3.5%,比聪明的人类还要好。得益于深度学习这四五年的飞速发展。 深度学习在2012年时,用的最多的是AlexNet,共有9个隐含层,我们叫它深度网络;过去四五年由深往更深发展,14年有19层网络;15年时微软做了比人类错误率还要低的深度学习网络,有152层,从来没有做到过这么深的深度学习网络。 大家可能知道,想做的很深并不是很容易的事情,因为错误率在回来后要求偏导,很多次后结果就不稳定了,超过22层就很难了,微软研究院做了152层。中间结构也很有意思,就想人类的脑的链接一样,不仅有一层层的层之间的连接,还有直接往前的连接,这就是残差学习的过程,因为这个残差学习的算法,我们可以做到152层这么深,我们可以将错误率降到3.5%。这是一个很核心的技术,去年年底ImageNet上我们得到了第一名。 除了图片分类,还有一类更难的问题是物体检测。图像分类只需要告诉我这是一个桌子这是一个人,物体检测还需要告诉我桌子在哪。这个我们基于深度学习算法,做出了很好的成绩。人能很容易检测的东西,计算机智能看到的东西就两个,除了0就是1,通过0和1能够理解图像对于计算机来说是非常难的事情。 比物体检测更难的是像素级的精确的分类。任何图片都是由像素组成,我们不仅想知道图片中桌子的位置,我们还想知道每一个像素是属于桌子的还是椅子的。中间更难得事情是像素级的精确识别,我们希望每个像素都能知道,是一个人还是一个自行车等。 二.自适应的智能 怎么让机器在不同环境下能够自适应的去帮助人类。 一个是微软自拍,这个自拍应用上线一个月,没有做任何宣传,完全口口相传,就有100多万用户在里面。他有很多核心技术,比如拍照时不需要考虑光线和大小,它会自动把光线和噪声补偿好,不仅如此同时他知道你拍摄的人姓名性别年龄肤色,做一些很智能的美颜,比如二十多岁女士会美颜的漂亮些,但是四五十的男士就不能美颜的太厉害。所以要知道看到的人的性别年龄肤色等,我们不希望拍摄的人去考虑这个问题,而是APP很智能的自适应的去考虑这个问题。 第二想聊一聊自适应的智能,是实时语音翻译的技术。这个是很有意思的技术,从星际迷航里就有类似的电话,1966年星际迷航,不管任何球星国家,都能实时翻译交流。1966年还是科幻,AI技术的发展现在变成现实。语音处理团队2010年在微软技术界上公布了这个技术,实现了中英文实时翻译。2012年天津21世纪计算大会上Buck Rachid进行了现场演示。 这个技术很难,整体梳理流程是,首先把中文音频信号变成文字,然后中文文字翻译成英文文字,然后将英文文字用我说英文的方式发出声音来。这三个环节每个错一点结果就完全不能看了。能做到这点需要二十几年的积累。 三.Augmented Intelligence 增强智能 人类与计算机各有强的地方也有各自弱的地方。如果从记忆里和计算能力上看,计算机远强于人类。但是人类具有两个半脑,左半脑是逻辑推理,记忆,右边半脑是想象力和抽象的能力,人类比机器强的地方就是人有创造力,想象力和发明的能力。今后人工智能的下一个60年,不再是人类与机器对比,而是人类和机器加起来,相互使用各自更强的地方,使两者相结合,使得我们有一个更加增强的智能。 四.隐形的智能 我们都谈智能家居,智能环境,如果会场有各种智能设备,自动的做好事情同时隐于环境。如果穿在身上就是智能可穿戴设备。看两个例子。 如果让智能硬件做到隐于环境的智能,他们一定要有智能,如果是个视频摄像头,希望摄像头看到外部世界并理解外部世界。计算机需要知道里面有人,有滑板,更需要知道人和滑板所在的位置,它能够用自然语言说出人类能听懂的话。生成这句话并不仅仅是计算机视觉一个领域的问题。如果真能做到这点,生活会变得更好。一个例子,一个盲人看不到外部世界,但是有一个眼镜代替他去看,并用语音来传达眼镜看到的东西,这是一件非常好的事情。 3月30号,微软开发者大会提到了hololens,后面还有很多项目,有一个处于实验室内部阶段的项目,叫holo protation,这个项目是指,今后开会时,两人在不同城市,但用全息3D的形式做到身临其境一样。这个科研项目是隐于环境的智能。视频中柱子上有几个摄像头,将人的动作捕捉下来,然后将3维信息去建立一个虚拟的人体,在另外一个地方显示出来。这个还需要很长时间去开发。 90周年之际,我们应该纪念图灵,他论文中提出的问题给了我们很大的启发。 60年代,先驱们考虑用逻辑和搜索来研究人工智能的一些挑战,比如下棋,推理,路径规划。他们有一个很强的假设,这个假设是非常直观的,就是我们人的智能包括计算机可能赋予的智能,来自一些物理符号的排列组合,我们只要很聪明的将这些物理符号排列组合的话,人的智能可以从一系列的0和1的组合来得到。在有一些成就后,发现这个假设是有瓶颈的。 在之后另有一部分人去着力研究能够有学习能力的人工智能,具有不同的学习算法,包括人造神经网络,人工智能的几个里程碑,第一个公认的里程碑是深蓝,这场象棋比赛意味着几件事,一是在大规模搜索状态下,实际上是物理符号的排列组合,60年代人的假设有一部分是正确的,我们确实能够从这种搜索和物理符号的排列组合中获得很多的智能。 紧接着知识就是力量,随着大数据和互联网的到来而来的一个热潮,那么从网上,从不同媒体红获得很多数据,这些数据经过沉淀获得知识,我们就可以赢得像这样一个电视大赛的人机大赛我们特别强调,人工智能也在另外一个方面潜移默化的耕耘,这个方面就是强化学习。强化学习是做人工智能规划的强力工具,但不是唯一。Planing这个领域相比机器学习来讲更古老,研究的力度也不亚于机器学习,但很长时间处于静默状态,主要原因是计算上有很大的瓶颈,使得他不能技能升级到很大的数据,一个例子就是强化学习在很长时间以来只能解决非常小的玩具型的问题。 。 刚才芮博士也深入的回顾了下最近的人工智能的突破,即深度神经网络。深度神经网络的突破,从计算上来说有几个好处,其中一个是他把全局计算的需求变成本地计算的需求,那么在做到这样的同时,又不失掉很多信息。这个是计算机里面无数成就的中心点。这样的成功使得我们在不同的层次来观察同一个数据,这样就获得我们所谓的大局观。就像上图所示,我们在不同层次获得不同特征。 |
相关阅读: |






