人工智能的发展愈来愈强大!
人工智能是一个涵盖图像识别、自然语言处理(NLP)和机器人等多方面维度的广泛领域。AI也在以一种有时看似疯狂的速度发展,因此很难跟上正在发生的一切。
不出所料,许多组织转向他们的IT供应商合作伙伴,帮助他们开发和部署AI解决方案,以最好地满足他们的需求。大卫·埃里森是联想公司的高级人工智能数据科学家,他的职责包括使用先进的人工智能技术为客户组织提供解决方案,同时在内部支持联想全球数据中心集团的整体人工智能战略。
联想已投入商业运营的项目包括利用卷积神经网络从图像中提取特征,并将其归类为缺陷,以检测工厂的制造缺陷。联想还为一家赛车公司开发了一套计算机视觉系统,以决定是否应该让特定的汽车进入维修站进行维修。
埃利森表示,今年和不久的将来,人工智能的主要趋势包括基于计算机视觉的应用程序、用于训练人工智能模型的数据生成和数据标记算法的开发,以及基于转换模型的自然语言处理的快速进展。
联想对人工智能近期主要趋势有如下展望:
计算机视觉
在计算机视觉方面,开发人员和研究人员现在开始探索将这种能力与人工智能的其他一些领域相结合的实用方法,比如机器人技术或自动应用图像字幕等应用的自然语言处理。据埃里森介绍,这部分是因为计算机视觉的一些基本问题已经被证明很难解决,研究人员正在寻找新的方法来解决这些问题,而不是简单地推动研究领域向前发展。
埃里森:“我认为我们在解决一些核心的计算机视觉任务时遇到了问题,比如3D投影,当你看到一张图片,一栋建筑的二维图像,人类的大脑可以将其推断成三维形状,但机器很难做到这一点。”在这方面已经有很多研究,但这是一个尚未解决的核心问题,我认为人们会感到沮丧,会尝试一些新东西,或者尝试将它与其他领域相结合,找到更好的用途。
埃里森认为,这就是为什么机器人技术是目前最广泛研究的人工智能领域之一,因为它为人们提供了一个明确的目标。他列举的例子包括使人工智能能够使用视觉感应在其周围的空间中安全移动——无论是制造工厂的机械臂,还是使用人工智能导航到目的地的自动车辆。
训练数据
熟悉人工智能的人会知道,成功训练一个模型的关键因素之一是数据,这需要大量的数据。事实上,它所训练的数据越多,就越能更好地交付你所寻求的结果。据埃里森不是,计算机视觉目前很困难,因为用于训练模型的数据集没有包含足够多的样本。例如,吉布森三维空间数据库(Gibson Database of 3D Spaces)是一个广泛使用的数据集,用于训练模型在室内空间中导航,它包括572栋完整的建筑,共1447层。虽然令人印象深刻,但这不太可能是一个人工智能系统在现实世界中可能遇到的全面集合。
当物体的方向与计算机视觉模型所训练的方向不同时,也会出现类似的问题。在被广泛用于人工智能训练的ImageNet数据集中,埃里森:“一把椅子只是一张椅子的照片,面对着镜头。如果你把椅子翻过来,电脑视觉应用程序突然就认不出它了。”
这个缺点是一个名为ObjectNet的新数据集的灵感来源,它以不同的配置显示日常项目,例如椅子翻转或倒置。这个训练集被用来解决计算机视觉的一些缺点,例如不能识别方向不正常或部分模糊的物体。
但是为人工智能训练获取足够大和多样化的数据集的问题仍然存在,这导致了埃里森发现的另一个主要趋势,即首先使用人工智能来生成数据集。
自我监督和综合数据
数据集需要大量的人工数据标签,因此越来越多的研究项目现在都集中在自我监督算法上,它可以获取已经收集到的数据,并让计算机自动给数据贴上标签。
埃里森解释:“一个典型的例子就是一个具有计算机视觉应用和接近传感器机器人。计算机视觉能够比接近传感器看得更远。但是当机器人向前移动时,出现在计算机视觉中的东西最终会以物体的形式出现在近距离传感器中。”根据传感器的数据,回溯到物体第一次被发现的时间,然后对其进行标记。
人工智能系统一旦部署就不太可能遇到这样的问题,因此可能无法在训练数据集中表示出来,这是开发人员面临的另一个挑战。然而,如果这些边缘情况代表了真实场景,那么就需要考虑这些情况,以确保AI模型正确地处理它们。
“关键的例子是自动驾驶。在你的数据集中有多少次在昏暗的暴风雪中开车上山?你的数据集中不会有很多这样的情况,所以他们本质上必须做模拟数据。”
换句话说,边缘案例是通过使用合成数据来处理的,合成数据是使用各种方法来创建的,例如生成模型。但这也产生了一个问题,即数据科学家或开发人员如何才能确保这些合成数据准确地反映出人工智能在现实生活中会遇到什么情况。