在5G的加持下,许多产业通过人工智能来让产品更人性化。但这大多只是人工智能通过算法、算力和大数据,实现优化服务的结果,不能代表人工智能更接近人类。来自深圳艾文哲思科技有限公司的混沌研究院,为了让人工智能更接近人类,通过博弈论的纳什均衡策略组合,让人工智能可以处理现实中的非完美信息。混沌研究院成功研发国内首个智能决策人工智能机器人:神策·DeepTexas,并应用于扑克比赛中,从而让AI更接近人类,进而超越人类。
从AlphaGo的深度学习技术在围棋中展现的实力,即人工智能在有章可循、完美信息的情况下,可以展现的超越人类的计算能力。但现实世界错综复杂, 90%以上的场景都是非完美信息,甚至包括对人类想法的推测,这是AlphaGo所力所不及的,它不能感受幸运、了解决策,它只能按部就班地基于人类制定的规则循序渐进。而混沌研究院所研发的国内首个智能决策类人工智能机器人:神策·DeepTexas,却另辟蹊径,攻克了这个旷日持久的难题。其独创的算法:Fast-Net、FRM、TSW,能结合神经网络,运用机器学习、强化学习、蒙特卡洛算法,让人工智能不仅拥有对完美信息的处理能力,更拥有对非完美信息的解析和决策能力。
在人工智能领域的创新中,扑克与麻将类似,都比围棋比赛有更严格的“决策”要求。即在包含几率、可能性、推测的情景中,人工智能要对这些信息进行处理,并根据情景进行推理,从而做出相应的决策。“神策·DeepTexas”通过多年的研究,凭借在扑克比赛中的实践,终于拥有了“直觉”与“智能决策”,不仅进一步扩大了掌握博弈论的人工智能的应用,更具备了处理非完美信息的解析和决策判断能力。
为了进一步了解智能决策AI相关问题,我们还采访到了混沌研究院的工程师们。他们大多都是经验丰富的资深工程师, 来自谷歌、苹果、华为、联想、酷派等知名企业。
以下是混沌研究院DeepTexas团队负责人鲍凌威的专访实录:
问:请给我们介绍一下神策·DeepTexas的核心技术、算法以及它能提供的服务?
答:DeepTexas的核心算法是基于机器学习、强化学习和博弈论, 采用纳什均衡的对战策略,通过大量MC(Monte Carlo)蒙特卡洛采样来计算CFR(Counterfactual Regret Minimization 虚拟遗憾最小化)的值域或频域作为DQN神经网络的行动Value,探索和选取GTO最优策略,并在博弈中不断自我学习,从而优化并最终形成最优决策。 通过我们独创的“神策 DeepTexas”人工智能决策算法,如Fast-Net、FRM、TSW,可以帮助人类应对错综复杂的现实场景,做出最有效的智能决策,可以大量应用到诸如金融投资、公共安全、智能游戏、自动驾驶、物流存储、医疗健康等业务领域。
问:作为中国第一个做出扑克比赛类人工智能的团队,能否说明一下为什么会有这种选择呢?
答:人工智能是大势所趋,国家也在大力促进人工智能的发展,虽然阿法尔狗已经完成了对完美信息场景下的决策预判,但现实生活中,90%以上的场景都是非完美信息,这就需要人工智能能够更有效地对此复杂情况做更深入的解析和预判,帮助人类从错综复杂的场景中做出最有效的智能决策,况且我们有丰富的扑克比赛经验和业务团队,做扑克比赛类人工智能是我们必然的战略选择。
问:神策·DeepTexas也会欺骗吗?
答:会的,神策·DeepTexas会模仿人类的欺骗进行圈套的设计,根据自己所处的环境、目标的行动进行适当的欺骗。DeepTexas已经通过了图灵测试,具备与人类一较高下的Bluff能力。
问:众所周知,比赛的重点是在于他的公正性,那么团队是如何来保证神策·DeepTexas的公正性的?
答:为了保证AI的公正性,线上我们采用国际公认的ACPC标准。 加拿大阿尔伯特大学的DeepStack 和 CMU 的Librutas和 Pluribus 也都使用ACPC标准。在实验中,我们结合真人与人工智能的互动进行策略倒算,从而验证智能决策AI的公正性,保障智能决策AI在更严谨的情景中,例如金融、公共安全等领域中,能够有更完美的表现。
问:有人认为人工智能的发展对投机思维带来致命的打击,你认为人工智能的发展会对各行各业造成什么影响呢?
答:不必过分解读。 人工智能的出现已经对各行各业都会带来了不小的冲击,这是真正的第四次工业革命。其实危机就是危险和机遇,永远相伴而生,此消彼长。就像这次的冠状病毒一样,灾难中就孕育着机会,正所谓浴火重生。我们的DeepTexas在实验中可以帮助人类通过对非完美信息的解析和预判,做出最有效的智能决策,从而帮助人类提高抗风险能力、验证反欺诈策略的可靠性,进而提高对错综复杂事务的判断力和决策力。
问:神策·DeepTexas攻克“不完美信息”,它在真实社会中反映着解决了那些问题场景呢?未来对人类的工作生活又会有哪些影响与改变?请举一些例子?
答:对“不完美信息”的攻克,可以帮助人类对真实社会中存在的大量非完美信息做出最有效的智能决策,如自动驾驶、营销决策、物流仓储、卫生健康、公共安全等,比如可以应用我们的研发成果,建立竞拍报价决策模型,确定最佳报价进行投标,获得收益最大化。
问:神策·DeepTexas会在未来有何动作呢?
答:神策·DeepTexas目前的实验版本是 1对1人机模式,未来会向多人模式发展,并在后续举办真人与AI的线下挑战赛事,与多个人类斗智斗勇。同时也会基于我们的AI智能决策算法,将研发成果不仅仅运用在扑克比赛上,还能应用于金融投资、公共安全、智能交通、物流存储、医疗健康等各个领域,帮助客户应对海量错综复杂的非完美信息,提升工作效率。