自动驾驶领域的深度学习研究与开发

应用最先进的深度学习研究和先进的计算硬件来创建下一代自动驾驶汽车。具体项目包括:1)设计、训练、评估和测试驾驶模型,模型以摄像机的感知为主,最新的模型在高速公路平均自动驾驶距离超过了一千公里;2)训练驾驶轨迹的概率分布来学预测模型的不确定性;3)研发主动学习算法来抽取多样的有效的数据点并以此来不断地提升模型性能;4)开发了一种新的多分辨率图像处理算法,有效地提高了模型的远距离感知;5)构建和维护用于研究和开发的 AI 基础架构;6)研发多Camera、Radar和Lidar融合感知模型;7)研发加快模型推理的模型和算法,例如Quantization 和 Pruning;8)研发概率世界模型并用采集的人类驾驶数据来学习最优的驾驶策略(与Yann Lecun博士和Alfredo Canziani博士合作);9)研究模型对训练数据的理论需求,即需要多少训练数据才能达到设定的错误率(与Anna Choromanska博士的团队合作);10)研发模型以对多国家多地区的数据采集路线分布进行预测,实现低成本、高成效的数据采集规划。 [相关视频列表]


基于大脑神经科学理论的深度神经网络研究

基于神经科学的预测编码理论,我们设计了双向的递归的神经网络,即深度预测编码网络(predictive coding networks, PCN). 它在前馈和反馈网络中使用卷积层,并在每一层中使用循环连接。来自较高层的反馈连接可预测其较低层的特征表征。前馈连接将预测的误差传送到其更高层。在给定图像的情况下,PCN运行自下而上和自上而下的递归循环计算以更新其内部表征,从而减小每一层自下而上输入与自上而下预测之间的差异。经过多个循环的递归更新后,输出的表征向量将用于图像分类。循环的计算过程可以是全局循环,也可以是局部循环。在训练中,分类的损失会反向传播来更新模型参数。在测试的几个数据集中,我们发现PCN总是优于仅前馈的模型:一种没有任何递归机制的模型(例如CNN),并且随着时间的推移,随着更多的计算周期,其准确率越来越高提高。PCN重复利用同一个模型结构以递归方式自下而上和自上而下进行运算,从而实现了越来越长的非线性转换。对于图像分类,PCN会随着时间的推移改进其表征向量,以实现更准确的图像识别. [论文1][论文2] [视频] [Github]


基于深度学习的动态自然视觉中的神经编码和解码研究

由图像识别驱动的卷积神经网络(CNN)已被证明能够解释大脑腹侧流区域对静态图片的皮质响应。在这里,我们进一步证明了这种CNN可以可靠地预测和解码来自观看动态视频的功能性磁共振成像信号(fMRI),即使这种模型缺乏动态机制来处理时间动态或反馈。我们开发和评估了大脑编码和解码模型,以描述CNN和大脑之间的双向关系。通过编码模型,CNN预测的区域不仅覆盖了大脑腹侧流,还覆盖了背侧流,尽管准确度较小。大脑皮层确定位置的信号可以进一步重建成图像信息,以此揭示各个皮层位置的独特表征。通过解码模型,我们将fMRI信号直接解码,以预测视觉和语义空间中的特征表示,分别用于视觉重建和语义分类。这些结果证实了使用深度学习作为视觉皮质的模型来理解和解码自然视觉的价值. [论文] [视频1] [视频2] [视频3]


深度神经网络可预测大脑皮层的表征和视觉特征的组织结构

大脑是通过皮层的拓扑结构来表征视觉对象的。为了理解分布式视觉表征是如何实现对象分类,我们用深度残差神经网络建立了预测编码模型,并对其进行了训练,以预测对大脑对动态视频的皮质响应。使用这种预测模型,我们以高吞吐量和高准确性地得到了人类皮层对80个类别的64,000个视觉对象的表征。这样的表征涵盖了大脑腹侧和背侧流,反映了对象特征的多个级别,并保留了类别之间的语义关系。在整个视觉皮层中,对象表征被模块化为三类:生物对象,非生物对象和背景场景。在每个模块的更精细分类中,对象表征对子模块进一步进行分类。这些实验结果表明,越来越具体的类别是由逐渐精细的空间上的皮层模式来表示。这种嵌套的层次结构可能是大脑对视觉对象进行分类的基本原理,并且可以通过不同级别的对象特征来解释和区分. [论文] [PDF]


对基于深度学习的神经编码模型进行大脑之间的迁移和通用化的算法研究

最近的研究表明了深度学习模型在研究大脑如何表征和组织自然视觉信息的价值。但是,对深度学习模型与大脑(或编码模型)之间的关系进行建模需要在单个大脑对大量不同种类的自然视觉刺激的皮质响应进行测量。所以先前的研究都限制在很少的大脑上,这使得难以将研究结果应用于更多的人群。在这项研究中,我们开发了新的方法来迁移和通用化编码模型。为了训练特定被试者的编码模型,将利用其他被试者已有的模型最为先验模型,并使用贝叶斯推断(Bayesian Inference)和来自该被试者的有限的数据有效地训练出新模型。此外,为了训练通用化的编码模型,对模型进行逐步训练,并使用来自不同主体的增量数据进行更新。为了证明这种方法,我们将该方法应用于来自三个被试者的功能性磁共振成像(fMRI)数据,这些被试者观看了数十小时的自然视频,而使用由图像识别驱动的深层残留神经网络对视觉皮层处理进行建模。结果表明,该方法能够有效地训练出特定被试者的,或通用化的大脑编码模型. [论文] [视频]


变分自动编码器:用于编码和解码fMRI信号的无监督模型

目标驱动的仅前馈卷积神经网络(例如CNN)已被证明能够预测和解码皮质对自然图像或视频的响应。在这里,我们探索了另一种深度神经网络,即变分自动编码器(Variational Auto-Encoder, VAE),作为视觉皮层的计算模型。我们使用五层编码器和五层解码器训练了VAE,以从各种各样的未标记图像中学习视觉特征。基于神经科学中的“自由能”原理,我们分别使用VAE的编码器和解码器对大脑的自下而上和自上而下的路径进行了建模。我们使用VAE预测或解码了从三个观看自然视频的被试者的功能磁共振成像(fMRI)观察到的皮层活动。与CNN相比,VAE预测fMRI对视频刺激的响应的准确性相对较低,尤其是对于高阶腹侧视觉区域。但是,VAE提供了一种更方便的策略,用于解码fMRI活动以重建视频输入,方法是先将fMRI活动转换为VAE的隐藏变量,然后通过VAE的解码器将隐藏变量转换为重建的视频图像。这项研究的发现表明了大脑至少部分具有视觉世界的生成模型. [论文]


深度递归神经网络揭示了记忆过程的层次结构

人类视觉皮层提取空间和时间视觉特征,以支持感知和引导人的行为。深度卷积神经网络(CNN)提供了一个计算框架,可为空间视觉处理的皮质表示和组织建模,但无法解释大脑是如何处理时间信息的。为了解决此限制,我们通过将循环连接添加到CNN的不同层来处理时间信息。该递归神经网络(RNN)将过程记忆的分层和分布式模型体现为可视化处理的组成部分。与CNN不同,RNN从视频中学习了时间和空间特征以实现动作识别。与CNN相比,在所有视觉区域,尤其是沿背侧的视觉区域,RNN都能更好地预测皮质对自然视频刺激的响应。作为视觉处理的一个完全透明的模型,RNN还揭示了时间接受窗口,过程记忆的动态以及时空特征的层次结构。这些结果支持了过程记忆的假设,并证明了使用RNN进行动态自然视觉的计算理解的潜力. [论文] [视频]


大脑的自发活动是通过视觉流来组织的

使用静止状态功能磁共振成像(fMRI)已经广泛研究了大规模功能网络。但是,大规模网络活动的模式,组织和功能仍然未知。在这个项目中,我们通过对视皮层内的静止状态fMRI信号进行独立成分分析,对自发出现的视皮层活动进行了分类。在此子系统规模中,我们观察到了大约50个在单个被试者和被试者之间一致的空间模式,并分析了它们的空间模式和时间的关系,以揭示视觉皮层的内在结构和组织。所得的视觉皮层区域与皮质髓鞘的最陡梯度对齐,并被组织成沿着背侧或腹侧路径和中央凹或周边早期视觉区域分离的功能模块。在皮质上的空间距离可以部分解释同侧大脑内功能连接性,但不能解释不同侧大脑间的连接性。除去物理区域关系的影响后,精细的功能连接仍然保留了类似的特定于视觉流的模块化组织。此外,皮层视网膜拓扑映射,折叠和细胞结构对静止状态活动的组织施加了有限的约束。根据这些发现,我们得出结论,视觉皮层中的自发活动模式主要是由视觉流组织的,可能反映了反馈网络的相互作用. [论文]


高级的视觉特征,眼睛的注视和场景过渡在自然视频的皮质响应的影响

复杂,连续,动态的和自然的视觉刺激可以唤起分布式的大脑活动,这种现象在同一大脑和不同大脑之间是可重复的。但是,这种可重复的响应的确切来源仍然未知。在这里,我们采用了功能磁共振成像(fMRI)和眼动追踪技术,以研究在重复视频刺激过程中影响fMRI活动及其大脑间可重复性的实验和行为因素。我们发现,广泛分布且高度可重复的fMRI响应主要归因于电影中的高级视觉内容。在非自然的噪音视频的刺激下,由低级视觉特征产生的皮层响应程度很低,而这些响应主要限于初级视觉皮层(V1)。我们还发现,注视行为会影响V1外围部分和动眼神经网络区域的皮质反应,而在外视区域的响应较小。最后,视频中的场景转变信号也在广泛的皮质区域引起了响应,尤其是沿腹侧视觉通路。因此,在视频刺激实验中,场景过渡和个人的凝视行为应被视为潜在的混淆因素,以便正确地解释支持自然视觉的皮层活动. [论文]


研究分离电生理信号中的振荡信号和分形信号的算法

神经生理场电位信号由有规律的和无规律的信号组成,分别表示为振荡信号和分形信号。我们开发了一种新方法,即不规则重采样自动频谱分析(IRASA)算法,可以根据神经生理信号独特的时间和频谱特征来分离其中的分形信号和振荡信号。在这种方法中,我们通过一组非整数采样率对神经信号进行不规则采样,并统计总结了采样信号的自功率谱,以在频域中将分形信号与振荡信号分开。我们在模拟数据上测试了该方法,并证明了IRASA可以可靠地将分形信号与振荡信号分开。此外,我们将IRASA应用于猕猴大脑电图(ECoG)和人脑磁图(MEG)数据分析,结果表明,与清醒状态时相比,睡眠过程中分形信号的幂律指数更大。分形信号的宽带功率的时间波动揭示了闭眼,睁眼和睡眠状态之间的不同特征。这些结果证明了该方法在分析大规模神经回路活动的电生理特征中的有效应用。此方法已包含在 FieldTrip 中,这是成千上万研究者正在使用的电生理数据分析的算法集. [论文] [视频]


全局性的功能核磁共振成像信号(fMRI)中部分是由无标度电生理活动导致的

静息态功能磁共振成像(fMRI)观察到的自发活动被广泛用于揭示大脑在健康和疾病中的固有功能网络。尽管许多网络看起来是模块化的和特定的,但全局的和非特定的fMRI波动也存在。在这里,我们使用了一种多模式方法来研究静止状态下的全局fMRI信号与神经活动的相关性。像fMRI一样,在猕猴脑电图(EEG)和人脑磁图(MEG)中的分形的或无标度的信号也是全局性的。EEG中的无标度信号的功率波动与fMRI中的全局信号高度相关,血流变化比EEG的变化滞后大约5s。这种无标度的全局性的信号变化与唤醒状态也很相关。总之,这些结果表明,fMRI中的全局信号的神经起源与无尺度信号的宽带功率波动高度相关。此外,神经生理信号和fMRI的全局波动可能与通过控制唤醒状态和警觉水平的神经调节有关. [论文]


对大脑白质成像的功能组织的研究

尽管功能磁共振成像(fMRI)在研究大脑响应和大脑皮层灰质的链接网络方面有广泛的应用,但很少用于研究白质功能。在这个项目中,我们研究了从静止状态或观看自然视频的大脑白质中fMRI数据的时空特征。通过使用独立的成分分析(ICA)和层次聚类(Clustering),白质中的信号除去噪声后,进一步构成为层次结构化的轴突纤维束。有趣的是,在观看自然视频时,部分层级结构被重组。相对于静止状态,观看视频时在视辐射内引起更强的时间连贯性,以及视辐射与多个皮层视觉网络之间的显着相关性。因此,fMRI包含有关静止和任务期间白质内活动和连通性的丰富功能信息,这实验结果挑战了将白质信号作为噪声或伪影的常规做法. [论文]


用功能核磁共振成像对任务诱发的大脑功能连接的研究

在复杂的任务中,比如观看视频,大脑功能连接的模式与静止状态下的不同。但是,导致这种差异的原因尚不清楚。任务期间的大脑活动反映了自发性和任务诱发性活动的混合。任务状态和静止状态之间功能连接的差异不仅可以反映任务引发的功能连接,还可以反映自发网络中的变化。在这里,我们研究了静止状态与被试者观看自然视频之间的功能连接性差异。这个差异并不能通过处理视频内容所涉及的任务引发的功能连接性来解释。相反,它们主要归因于任务期间正在进行的活动所驱动的自发网络的变化。任务的执行减少了不同皮层网络(尤其是视觉和非视觉感觉或运动皮层)之间正在进行的活动之间的相关性。我们的结果表明,任务诱发的活动并非独立于自发活动,从事一项任务可能会抑制自发活动及其区域间相关性. [论文]


对音乐意象与Wernicke的双边和负相关网络的关系研究

音乐意象是人类在没有实际听到音乐的情况下想象音乐的经历。这种心理能力的神经基础尚不清楚,尤其是对于能够进行准确生动地进行音乐意象的音乐家。在此项目中,我们创建了一个8分钟交响曲的可视化效果作为无声电影,并将其用作实时提示,以便音乐家在功能性磁共振成像(fMRI)期间不断地想象音乐。将音乐图像引起的大脑响应和网络连接,与直接听同一音乐的被试者引起的大脑响应和网络连接进行了比较。音乐意象和音乐知觉导致前腰带和Wernicke区域的响应重叠,这些区域的响应与音乐的听觉特征相关。尽管Wernicke的区域在音乐感知过程中在固有听觉网络内进行交互,但在音乐意象过程中却涉及到更为复杂的网络,与背部注意网络(dorsal attention network)和运动控制网络(motor-control network)呈正相关,与默认模式网络(default-mode network)呈负相关。我们的研究结果突显了Wernicke地区在通过双边和负相关的网络互动形成生动的音乐意象方面的重要作用,挑战了音乐与语言分离的传统观点. [论文]

* 其他博士项目请点击链接 Laboratory of Integrated Brain Imaging (LIBI).