人工智能(AI)能帮助我们理解大脑如何理解语言吗?神经科学可以帮助我们理解为什么AI和神经网络在预测人类感知方面是有效的吗?
来自德克萨斯大学奥斯汀分校(UT Austin)的Alexander Huth和Shailee Jain的研究表明两者都有可能。
在2018年神经信息处理系统会议(NeurIPS)上发表的一篇论文中,学者们描述了使用人工神经网络比以往更准确地预测大脑中不同区域如何响应特定单词的实验结果。
“随着言语进入我们的脑海,我们形成了某人对我们所说的话的想法,我们想要了解它是如何在我们脑中产生的,”UT奥斯汀神经科学与计算机科学助理教授Huth说。“似乎应该有它的系统,但实际上,这并不是语言如何运作。就像生物学中的任何东西一样,很难简化为一组简单的方程式。”
这项工作采用了一种称为长期短期记忆(LSTM)的递归神经网络,在其计算中包括每个词与之前的关系,以更好地保留语境。
“如果一个词有多重含义,你可以根据之前所说的内容推断出那个词对于那个词的含义,”Jain说,他是UT奥斯汀Huth实验室的博士生。“我们的假设是,这将导致更好地预测大脑活动,因为大脑关心环境。”
这听起来很明显,但几十年来,神经科学实验考虑了大脑对单个单词的反应,而没有与单词或句子链相关联的意义。(Huth在2019年3月的“认知神经科学杂志”论文中描述了做“真实世界神经科学”的重要性。)
在他们的工作中,研究人员进行了实验,以测试并最终预测大脑中不同区域在听故事时的反应(特别是蛾类无线电小时)。他们使用从fMRI(功能磁共振成像)机器收集的数据,根据神经元的活跃组,捕获大脑血液氧合水平的变化。这是语言概念在大脑中“代表”的对应物。
使用德克萨斯高级计算中心(TACC)的强大超级计算机,他们使用LSTM方法训练了一个语言模型,因此它可以有效地预测接下来会出现什么词 - 类似于Google自动完成搜索的任务,人类的头脑特别是擅长。
“在试图预测下一个词时,这个模型必须隐含地学习关于语言如何运作的所有其他内容,”Huth说,“就像哪些词语倾向于跟随其他词语,而不是实际访问大脑或任何有关大脑的数据“。
基于语言模型和fMRI数据,他们训练了一个系统,可以预测大脑第一次听到新故事中每个单词时的反应。
过去的努力表明,有效地定位大脑中的语言反应是可能的。然而,新的研究表明,添加语境元素 - 在这种情况下,最多20个单词 - 可以显着改善大脑活动预测。他们发现即使使用最少量的上下文,他们的预测也会改善。提供的上下文越多,其预测的准确性就越高。
“我们的分析显示,如果LSTM包含更多单词,那么它就能更好地预测下一个单词,”Jain说,“这意味着它必须包含过去所有单词的信息。”
研究进一步深入。它探讨了大脑的哪些部分对所包含的上下文量更敏感。例如,他们发现似乎局限于听觉皮层的概念较少依赖于背景。
“如果你听到狗这个词,这个区域并不关心那之前的10个单词是什么,它只会响应狗的声音,”Huth解释道。
另一方面,当涉及更多背景时,更容易确定处理更高层次思维的大脑区域。这支持了心灵和语言理解的理论。
“在人工网络的层次结构和大脑的层次结构之间存在着非常好的对应关系,我们觉得这很有趣,”Huth说。
自然语言处理 - 或NLP - 近年来取得了很大进展。但是,当谈到回答问题,进行自然对话或分析书面文本中的情感时,NLP仍有很长的路要走。研究人员相信他们的LSTM开发的语言模型可以在这些领域提供帮助。
LSTM(以及一般的神经网络)通过将高维空间中的值分配给各个组件(此处为单词)来工作,这样每个组件都可以通过其与许多其他事物的数千种不同关系来定义。
研究人员通过从Reddit帖子中提取数以千万计的单词来训练语言模型。然后他们的系统预测了六个主体大脑中的数千个体素(三维像素)将如何响应模型和个体之前都没有听过的第二组故事。因为他们对上下文长度的影响以及神经网络中各个层的影响感兴趣,所以他们基本上测试了每个受试者的60个不同因素(20个长度的上下文保留和3个不同的层维度)。
所有这些都导致大规模的计算问题,需要大量的计算能力,存储器,存储和数据检索。TACC的资源非常适合这个问题。研究人员使用Maverick超级计算机(包含用于计算任务的GPU和CPU)和Corral(一种存储和数据管理资源)来保存和分发数据。通过将问题并行化到许多处理器,他们能够在几周而不是几年内运行计算实验。
“为了有效地开发这些模型,你需要大量的训练数据,”Huth说。“这意味着每次要更新权重时都必须通过整个数据集。如果你不使用像TACC那样的并行资源,这本身就很慢。”
如果听起来很复杂,那就好了。
这导致Huth和Jain考虑更简化的系统版本,而不是开发语言预测模型然后将其应用于大脑,他们开发了一个直接预测大脑反应的模型。他们称之为端到端系统,而Huth和Jain希望在未来的研究中采用这种方式。这样的模型将直接改善其对大脑反应的表现。对大脑活动的错误预测会反馈到模型中并刺激改进。
“如果这种方法有效,那么这个网络可能会像我们的大脑一样学习阅读文本或摄入语言,”Huth说。“想象谷歌翻译,但它理解你在说什么,而不仅仅是学习一套规则。”
有了这样一个系统,Huth认为,将大脑活动转化为语言的思维阅读系统是可行的只是时间问题。与此同时,他们通过实验深入了解神经科学和人工智能。
“大脑是一种非常有效的计算机器,人工智能的目的是建立能够完成大脑所能完成的所有任务的机器,”Jain说。“但是,我们对大脑并不了解很多。因此,我们尝试使用人工智能来首先质疑大脑是如何工作的,然后,根据我们通过这种审讯方法获得的见解,以及通过理论神经科学,我们使用这些结果来开发更好的人工智能。
“我们的想法是了解生物和人工的认知系统,并将它们结合使用来理解和构建更好的机器。”