数据少就不能深度学习?未必
- +1 你赞过了
【雷竞技须安全稳定 网络频道】人工智能算法目前最主流的是深度学习(Deep Learning)。通常来讲,深度学习需要数百万个训练实例才能准确地执行任务。但是,许多公司和组织无法获取这么大的,且带标注的数据集来训练他们的模型。
更为重要的是,在许多领域,数据是零散的。这需要巨大的努力和资金来集成数据、清理数据、标注数据以及训练人工智能。在其他领域,数据受制于隐私法和其他法规,造成了人工智能研究人员无法获得数据。不过,近几个月来,出现了几个有希望的解决方案。其中两个需要较少的训练数据,另一个允许创建自己的训练示例。
以下是这些新解决方案的概述:
1、混合智能模型
在人工智能的发展过程中产生了很多流派,其中就包括符号主义和连接主义。符号主义者认为,人的认知基元是符号,认知过程即符号操作过程,通过分析人类认知系统所具备的功能和机能,然后通过计算机来模拟这些功能,从而实现人工智能。连接主义者认为,人工智能源于仿生学,特别是对人脑模型的研究,人工智能必须通过经验学习。
不过,研究人员日前发现,通过结合符号主义和连接主义模型,可以创建出需要更少训练数据的人工智能系统。在深度学习顶级盛会ICLR2019上发表的一篇论文中,来自MIT-IBM沃森人工智能实验室(MIT-IBM Watson AI Lab)的研究人员介绍了神经符号概念学习器(Neuro-Symbolic Concept Learner,NSCL)。这是一种将神经网络与基于规则的人工智能结合在一起的人工智能模型。NSCL使用神经网络从图像中提取特征,并组成一个结构化的信息表。然后,它使用一个经典的、基于规则的程序来回答问题,并基于这些符号解决问题。
NSCL可以用更少的数据适应新的环境和问题。研究人员使用一个在VQA问题中常用的渲染对象图像数据集CLEVR,对NSCL进行测试。具体来说,就是向人工智能展示图片,并让人工智能回答这张图片中包含的对象和元素。结果证明,针对学习视觉概念、单词表达和句子的语义分析方面,NSCL仅使用一小部分数据,就能够在CLEVR上达到99.8%的准确率。
2、小样本学习和少量学习
为了降低深度学习算法对数据量的需求,迁移学习可以说是一个比较常用的方法。就是通过从已经学习的相关任务转移知识来改进新任务中的学习。虽然迁移学习减少了创建人工智能模型所需的训练数据量,但它仍需要数百个样本,并且调优过程需要大量的反复试验。
为此,人工智能研究人员创造出了一种技术,可以用更少的样本来训练新任务。今年5月,三星人工智能中心和俄罗斯斯科尔科沃科技学院的研究人员开发了一个新系统,可以将静止的面部图像转换为说话状态下人脸面部的视频序列。该系统能够以一种特定于人的方式初始化生成器和识别器的参数,这样,尽管需要调整数千万个参数,但训练可以基于少量图像并快速完成。
3、使用GAN生成训练数据
在某些领域,训练的样本是存在的,但是获得它们实际上是不可克服的挑战。医疗保健就是一个例子,在该领域,患者的数据和信息可能存在于不同的部门和系统中。因此,在需要时无法访问和轻松获取关键数据,同时还要遵守相关的法规。
为了解决这一问题,许多研究人员正从生成对抗网络(Generative Adversarial Networks,GAN)中获得帮助。生成对抗网络是人工智能研究人员Ian Goodfellow、Yoshua Bengio等人在2014年发明的一种技术。GAN的主要灵感来源于博弈论中零和博弈的思想,由一个生成器和一个判别器构成,通过对抗学习的方式来训练,目的是估测数据样本的潜在分布并生成新的数据样本。
目前,GAN已经成为人工智能学界一个热门的研究方向,在一系列图像生成问题上取得了出色的表现。并且,GAN还可以帮助减少为训练深度学习算法而收集带注释的示例所需的人力。
近日,来自德国吕贝克大学医学信息学研究所的研究人员提出了一种新方法,利用GAN合成高质量的医学图像。这项新技术的内存效率很高,这意味着它不需要庞大的计算资源,而这些资源只有大型人工智能实验室和大型科技公司才能使用。
写在最后:
事实上,有很多人担心,随着深度学习的兴起,拥有大量数据的公司和组织将占据主导地位。并且,数据密集程度较低的人工智能模型从研究实验室走向商业化所需要的时间也很难预测。但可以肯定的是,随着这些项目和其他类似项目的出现,深度学习创新将不再局限于拥有海量数据的大型科技企业。
最新资讯
热门视频
新品评测