您当前的位置: 主页 > bt365亚洲版官网 >
密集的深度学习和奖励行为!人工智能系统引导

时间:2019-05-11 19:41 来源: 作者: 网络中心 点击:

使用奖励来驱动代理以实现深度强化学习目标的算法训练技术在基于视觉的导航领域中显示出巨大的潜力。
科罗拉多大学的研究人员最近推出了一个系统,帮助机器人在相机镜头上找到方向。苏黎世联邦理工学院的科学家们在1月份的文件中描述了自动学习的框架,当机器人在4月开火时,该文件帮助沉没。
但是,如果将此AI功能应用于无人驾驶飞行器,它是否可以作为地面上的机器人?
加州大学伯克利分校的一个研究小组开始寻找答案。
该团队在最新版本的Arxiv预打印服务器上宣布了“深度混合加固”(“模拟综合:集成到基于仿真的基于真实数据视觉的自动飞行深度加固学习”)。一种学习方法,结合了用于指导四轴飞机导航地毯的跑步者的数据。
本文作者写道如下。在这项工作中,我们的目标是…&Hellip;是通过转移设计学习算法来学习无人机的物理行为。
实质上,现实世界的经验被用来学习飞行,模拟的经验被用来学习推广。
为何使用模拟数据?
正如研究人员指出的那样,泛化在很大程度上取决于数据集的大小和多样性。
通常,数据的数量和种类越多,性能越好,获取实际数据所需的时间越长,数据就越昂贵。
但是模拟数据存在问题,这是一个很大的问题。与飞行数据相比,模拟数据的质量本质上很差。物理和空气流动没有很好地建模或根本没有建模。
研究人员的解决方案是使用真实世界的数据来训练系统的动态,并使用模拟数据来学习可感知的感知策略。
它的自动学习架构由两部分组成:一个传达模拟的视觉特征的感知子系统和一个反馈实际数据的控制子系统。
为了训练模拟策略,该团队使用Stanford Gibson模拟器,其中包括各种3D扫描环境(研究人员从16个环境中收集数据),并使用相机模拟虚拟四轴飞行器。这是。相机
他们有1700万个模拟数据点,当一切准备就绪时,模拟培训政策是通过在加州大学伯克利分校的5楼走廊中组合14,000个数据点来实施的。
只有1小时的实际数据,该团队已经证明人工智能系统可以产生27克的四边形平面Crazyflie2。
0在新环境中飞行并避免碰撞。
指示您在现实世界中操作的唯??一窗口是单眼相机,通过USB无线钥匙与附近的笔记本电脑进行通信。
研究人员确认,用于避免碰撞和导航的训练模型比其他方法(例如大型图像识别项目的无监督学习和训练方法)表现更好。这是。
此外,人工智能系统已经犯了错误,但这通常是合理的。例如,在30%弯曲的转轮测试中,Quadcopter击中了一扇玻璃门。
本文作者通过将大量模拟数据和现实世界中的少量经验与我们工作的主要贡献相结合,学习和学习实现自动飞行的真实碰撞避免策略它写得很深。
我们的方法的基本原理是在学习视觉不变性和模拟模式的同时理解现实世界中这种飞机的物理特性和动力学。

推荐文章
热门文章