启元世界:打造AI决策智能体,用小样本实现10的26次方复杂空间决策

  2020年ChinaJoy周末在上海如期举行,今年这场备受关注的数字娱乐盛会融合了更多前沿科技的元素。

  其中,国内决策AI技术公司启元世界在会上展出了与人对战的星际AI――启元星际指挥官,及与人配合协作的娱乐智能体,引起了业界轰动。

  “人机对战”一直以来都是AI玩家的角逐之地。在AlphaGo征服世界围棋冠军后,这一趋势显得更加明显。不过围棋策略类游戏已不足以展现玩家的全方位AI技术能力,于是,兼具战术策略博弈+即时对抗的《星际争霸》成为了下一个目标。

  在6月举办的《星际争霸》人机大战中,启元AI“星际指挥官”不负众望,以两个2:0的成绩先后击败人类顶尖职业选手――全国冠军黄慧明(TooDming)以及中国星际最强人族选手李培楠(TIME)。

  开发这款“星际指挥官”的公司为启元世界,成立于2017年8月,是一家AI认知决策技术公司,致力于利用深度学习、强化学习和超大规模并行计算等技术,搭建智能体应用训练云平台,为企业客户提供端到端的智能体开发、训练、评估和部署工具,帮助其快速构建智能体应用。

  公司核心成员大多来自BAT、NETFlix、香港科大、伯克利等国内外知名高科技企业和一流院校,具备深度学习、强化学习、云计算等核心技术的自主研发能力,且在产品打造方面拥有丰富的行业应用经验。

  启元世界CEO袁泉在技术产品领域积淀深厚,曾担任阿里认知计算实验室负责人和资深总监,是手机淘宝、手机天猫推荐算法团队缔造者。

  “和DeepMind、OpenAI类似,以在线游戏为试验平台,以行业赛事作为技术验证,快速打磨决策智能体训练云平台服务相关行业,是启元世界近期正在做的事。”袁泉告诉创业邦。

  据悉,成立至今,启元世界选择各类典型游戏打磨新一代决策AI技术,已在2018年底获NeurIPS 2018多智能体强化学习比赛冠军,2019年中旬,启元星际指挥官3:0击败人类黄金选手,2020年中旬获CVPR 2020机器人虚实迁移挑战赛冠军。

  对于此次在星际争霸中打败职业冠军选手,袁泉表示,相比于围棋人机对战,这次比赛中增加了复杂场景感知、分析决策、长期规划运营和实施操作四个维度的技术难度:

  首先,对复杂场景的感知方面,围棋棋盘环境简单,只需按照落子顺序操作即可,但星际争霸中需要启元AI实时感知周围环境,在毫秒级做出判断;

  其次,在决策方面,启元AI必须在十几毫秒时机内快速做出决策,保证决策准确性;

  然后,在定位方面,由于围棋棋盘规格固定为16×16,难度较低,而此次比赛中,决策空间高达10的26次方,还需要从200个作战单位中选出作战主体;

  同时,在具体操作中,还需要依托、感知、分析、定位能力,精准空投到地图的指定位置上,技术门槛颇高。

  “这四个维度的能力所带来的乘数效应的叠加,最终实现了看似不可能的‘奇迹’。”袁泉告诉创业邦。

  在挑战赛结束后,部分网友表示,AI的高EPM值似乎在其中起到了天然优势。对此,启元世界技术团队在赛后进行技术分析后解释:对局过程中,AI的平均EPM值为250左右,仅略高于职业选手李培楠237左右的水平,并不会影响此次比赛成绩。

  当然,此次比赛只是启元世界AI技术能力的一个缩影,其背后是强大底层技术的有力支撑。

  据袁泉透露,启元世界智能云训练云可以实现AI自我训练,通过小样本学习,再利用自主搭建的智能体COMMANDER神经网络,同时结合高效率的群体演化训练方法,不仅可在有限的算力条件下,增强智能体的鲁棒性,还实现智能体的快速进化。而此次比赛中,启元世界仅用了顶尖科技公司1%的算力。

  不过,袁泉也深知,AI开发的最终目标是将这一技术应用于现实世界,而不仅仅停留在游戏层面。

  因此,启元世界还基于AI技术基础搭建了一个私有云部署、软硬结合智能体训练云平台,真正将技术融入行业中,为公共科技、数字娱乐、电力能源、机器人等行业客户提供AI解决方案,帮助客户快速构建智能体应用,实现智能化转型。

  目前这款智能体训练云平台已深度服务于数十家国内相关行业的知名公司、院校和科研机构。

  据悉,启元世界已于2017年获得来自高榕资本的数千万元天使轮融资,并于2018年12月完成知名投资机构Pre A轮融资。

  文章来源于启元世界,经授权使用。本文为创业邦原创,未经授权不得转载,否则创业邦将保留向其追究法律责任的权利。如需转载或有任何疑问,请联系editor@cyzone.cn。