音频数据帮助AI在3D迷宫中到达目的地
- +1 你赞过了
【雷竞技须安全稳定 网络频道】5月14日消息,视觉是人类导航世界的主要感官,但声音可能也同样重要。有研究表明,人们可以学习如何在音频信号的音量、方向和速度上找到微妙的线索。受此启发,东芬兰大学的研究人员在其最新发表的名为《自主智能体受益于听力?》论文中提出,人工智能系统能通过声音为视觉数据提供补充信息。
研究人员表示,初步结果表明,这种方法可以提高agent(智能体,指能自主活动的软件或者硬件实体)在3D迷宫中完成目标的能力。
论文作者写道:“对于智能体来说,只使用视觉信息进行学习并不总是那么容易。例如,在有很多房间且智能体和目标之间没有直接视线支持的情况下,智能体很难仅使用视觉信息到达目标。因此,使用音频特性可以为此类问题提供有价值的信息。”
研究人员的人工智能采用了深度Q网络的形式,这种模型对不同类型的数据(即图像像素和音频)具有灵活性,并且已成功应用于Atari游戏。
正如团队解释的那样:“我们将关于环境(到目标的距离)的信息编码到样本的。然后,将样本连同图像一起提供给智能体。由于目标的距离是用的整体音高编码的样本,这些特征可以很容易地被理解为对智能体有用的信息(音高越高代表距离目标越近)。这些功能可以作为一种完整性检查,以确保提供有关目标距离的信息对代理是有利的。”
在一台运行定制Vizdoom场景的强大PC上进行的实验中,科学人员让智能体在迷宫中导航,即左转、右转、前进或后退到不同的房间。智能体最初完全是随机行动,但随着时间的推移,当它们因为实现目标而获得奖励(一种被称为强化学习的技术)时,它们的表现得到了改善。
据了解,未来,该团队将在不同的环境中,进行视频游戏以外的测试。相信该技术将很快在现实场景中得到应用。
最新资讯
热门视频
新品评测