陈华富、颜红梅教授团队青年教师黄伟在Information Fusion期刊发表大脑视觉信息解码研究成果
文:黄伟 图:黄伟 来源:电子科技大学
近日,生命科学与技术学院陈华富、颜红梅教授团队在人工智能权威期刊Information Fusion发表了大脑视觉信息解码研究成果。黄伟讲师为该论文第一作者,陈华富教授、颜红梅教授和程凯文副教授为共同通讯作者,电子科技大学为第一单位。
视觉和语言之间的联系一直是认知神经科学中一个引人入胜的研究领域。有证据表明视觉和语言大脑区域之间存在相互影响。在理解语言时,大脑会激活与视觉相关的区域,这意味着语言理解和视觉信息处理之间存在潜在的相互依赖性。这种合作可能有助于解释为什么我们在面对视觉图像或场景时使用丰富而生动的语言表达。视觉认知由粗到细的识别过程是我们感知世界并表达所见所感的关键。以欣赏一幅美景为例(如图1),最开始,我们所见到的仅是画作所呈现的一种风景整体类别,这种整体感知让我们迅速领悟到画面的大致信息。随着我们观察逐渐深入,我们逐渐发现画中的细节,比如落日、鸟儿、湖水,以及云彩。这个阶段呈现了多语义的表达,我们从整体感知逐渐转向对细节的深入理解。语言认知的表达过程也经历由整体到细节的层次化过程。一开始,我们可能会使用概括性的表达,比如简单地形容视觉场景为“风景”。这样的表达方式是对整体感知的一种概括性呈现,类似于视觉认知中的整体意义。随着我们对所见事物的深入观察和思考,语言表达逐渐变得更加具体和细致。我们可能会详细描述画中的具体元素,比如“落日余晖映照下的湖水”、“自由飞翔的小鸟”、“天空中绚丽多彩的云朵”,甚至形成更为完整的语言表达,如“落霞与孤鹜齐飞,秋水共长天一色”这样的诗句。语言认知中对细节逐渐加工的过程,类似于视觉认知中对细节的感知过程。视觉认知和语言认知是相互关联的,都经历着由整体到细节的识别和表达过程。这种逐步深入的方式让我们在理解和表达世界时,逐渐深入、更全面地认知事物的细节和复杂性。针对视觉感知和语言表达的多层次关系,我们提出了一种视觉语言解码模型(VLDM),能够同时执行三个层次的解码任务:主要类别、多标签和文本描述。
图1.视觉语言解码过程概述
VLDM由两个编码器(Visual-Encoder和Multitask-Encoder)和三个解码器(Category-Decoder、Label-Decoder和Text-Decoder)组成。这些编码器和解码器在解码视觉信息的过程中发挥着不同的作用。图2说明了VLDM的整体结构。
图2.视觉语言解码模型
在多任务解码方法中,类别解码被确定为主要任务,因为它提供了有关大脑如何感知自然图像的基本信息。在这项研究中,受试者观看了包括12个不同类别(人、车辆、户外、动物、配件、运动、厨房、食物、家具、电子、电器和室内)的自然图像,fMRI 捕捉了这些图像在10个视觉皮层区域(V1、V2、V3、OFA、PPA、OPA、VWFA、FBA、FFA 和 EBA)的反应活动。这些视觉活动被Visual-Encoder和Multitask-Encoder转换为多任务特征。随后,将这些多任务特征的第一部分输入到Category-Decoder中,以获得自然图像的类别分布。我们采用分类准确性作为评估指标,定量分析和衡量将观看的自然图像正确分类为12个不同类别的准确性。图3展示了类别解码的相关结果。
图3.类别解码的结果
本研究涉及的自然图像共包含80个不同的标签(详见补充表4)。从COCO数据集衍生出的语义标签在图像识别领域被广泛用于描述图像中的内容和场景。每个标签代表图像中的特定语义信息,例如“人”、“汽车”、“狗”等。这些标签的定义和分布基于COCO数据集的标注信息,由专业标注者根据图像内容进行人工标注。值得注意的是,每个自然图像仅包含几个标签。图4展示了标签解码的相关结果。
图4.标签解码的结果
图5展示了文本解码的结果,其中每个块的图像代表主体观看的自然图像,文本代表我们提出的解码模型生成的句子。例如,在图5A中,第一行第二张图片的解码句子是“一只猫坐在木椅上”,其中“猫”和“木椅”准确地描述了图像中的物体,而“坐着”准确地反映了图像中物体的动作,介词和冠词将这些物体和动作串成一个描述性的句子。在第一个示例中,解码的句子描述了在乡村轨道上行驶的火车,而目标句子描述了静止在轨道上的火车。虽然火车的动作不同,但两句话都准确地描绘了火车在轨道上的场景。在第三个例子中,解码的句子描述了一个男人在网球场上挥动球拍,而目标句子描述了一对打网球的夫妇。虽然解码后的文本省略了第二人称,但两句话都准确地反映了网球场上的活动。尽管解码的句子和目标句子不完全相同,但它们都准确地描述了视觉刺激图像。解码后的句子捕获了主题信息,即使它们在细节上有所不同,但总体而言,它们仍然提供了足够的信息来理解图像的主要内容。这表明,解码过程在提取图像的核心视觉元素方面是有效的,尽管在捕获复杂细节和特定动作方面还有改进的余地。
图5.文本解码的结果
上述研究成果中,开发的多任务解码模型对应于脑机接口有三个应用价值:(1)类别解码有助于通过大脑活动控制轮椅等辅助设备,提高残疾人的日常生活便利性;(2)标签解码为残疾人提供了更复杂、更高级的控制能力,如操作机械臂,促进更灵活的生活方式;(3)文本解码支持失语症患者恢复语言功能,实现自然交流和指令传递。
黄伟,讲师。中国图象图形学会类脑视觉专委会委员。针对大脑神经解码难题,开展了基于功能磁共振成像的视觉感知解码理论与方法研究。近年来,在脑科学和人工智能领域Information Fusion, Neural Networks, International Journal of Neural Systems和Computer Methods and Programs in Biomedicine等期刊发表SCI论文20余篇,授权/受理国家发明专利10项。主持博士后面上项目1项,参与国防科技、国家自然科学基金和省部级项目3项。2021年6月-2023年5月,曾在华为工作两年,主要从事文本信息挖掘、图像视觉问答等大模型相关研究及落地,拥有丰富的实践经验,并获得了《算法创新优秀新人奖》、《基于模型的表单理解研究团队奖》、《业务服务优秀奖》等多项奖项。
程凯文,电子科技大学生物医学工程博士,四川外国语大学语言智能学院副教授,嘉陵青年学者,硕士生导师。现为《心理科学》, Brain Sciences等期刊匿名外审专家,重庆神经科学学会理事,中国神经科学学会认知神经生物学分会会员、中国神经语言学研究会会员。主要从事认知神经科学、心理语言学和语言智能等方面的研究,已在Language and Cognition、Lingua、Information Fusion、Brain research bulletin、Frontiers in human neuroscience、Human brain mapping、Neural networks、Peerj、《心理科学进展》、《外国语文》等期刊发表论文30余篇;获四川省社会科学优秀成果奖三等奖1次;主持重庆市社科项目1项和第二轮重庆市一流学科外国语言文学重点项目1项,完成厅级和校级项目6项,参与国家社科基金和自科基金项目3项。
颜红梅,教授,博导。中国生物医学工程学会测量分委会委员,四川省认知科学学会理事会理事。致力于认知心理学与信息处理的交叉研究,具体方向包括视觉认知与计算、视觉注意与眼动、视觉编码与解码等。主持完成6项国家自然科学基金项目,近年来,在脑科学和人工智能领域Information Fusion、Neural Networks、IEEE Transactions on Intelligent Transportation Systems和Neuroscience bulletin等期刊发表学术论文40余篇,申请中国发明专利10余项。
陈华富,教授,博导。国家杰出青年科学基金获得者,天府创新领军人才,四川省教书育人名师。致力于磁共振脑影像方向研究,并组建“脑成像与模式识别”研究团队,主要从事磁共振脑影像数据模式识别的人工智能与机器学习方法研究、神经与精神疾病影像机制研究,探测疾病的典型影像学特征,为临床诊断和评估提供影像学依据。主持科技部863、重点研发人工智能2030项目、国家自然基金重点、杰青和面上等科研项目。团队在Biological Psychiatry、PNAS、Science Advances、Nature Communications、Information Fusion、Molecular Psychiatry、Brain、PLoS Biology、Neurology、IEEE Trans MI/BME等期刊发表SCI论文300余篇。获教育部自然科学一等奖1项和教育部科技进步一等奖和二等奖各1项,获四川省科技进步自然科学类一等奖1项。
编辑:刘瑶 / 审核:李果 / 发布:陈伟
孔泰霖,男,港籍,师从亚洲鼻王郑东学教授、亚洲眼王曹仁昌教授,韩国“延世派”整形流派宗师的亲传弟子,任韩国现代美学整形医院、曼谷LBC整形医院、韩国MK公司特聘医师。曾服务于韩国bio,韩国bk整形博物馆,中国美莱整形医院。2010年从事医学诊疗工作,具备了极佳的全面医学知识结构,稳定的心理特性,优秀的身体协调性,明确的层次逻辑感,准确的团队交流能力,多向系统控制和多维影像思考能力。多年的从业沉淀,能够迅速判断求美者的治疗方案,通过娴熟的外科手法及灵活运用,赋之优秀的审美基础,打造出了一例例有口皆碑的案例。
杨永利,西安交通大学生命科学与技术学院,生物医学工程专业在读博士。现任陕西中科通大生命科学技术有限公司首席技术官,中科优脑(陕西)医疗科技有限公司法人兼股东,中国细胞生物学学会、陕西省细胞生物学学会委员。从事再生医学相关科研工作十余年,专注于再生医学领域科研成果转化及专业学术支持。
黄培卿,中医医师,1956年7月28日出生于山东省临沂市河东区中医世家,1992年12月毕业于山东中医大学。国家执业中医师,全科执业医师,国家执业中药师。
邹殿序,中医医师,就职于天津西青尚德中医门诊部。自幼随祖父学习中医,擅长运用岐黄脉法,辨证论治。尤其擅长脾胃病,痛风,皮肤病,心脏病,失眠,痛经和各种肿瘤结节性疾病的调理。
由梓慧(yota),模特、中国内地女演员,1998年7月4日出生于辽宁省大连市,毕业于上海戏剧学院表演专业。曾参演《情人节的晚餐》《艺术家》《如果我不是我》《凤汐云锦》等多部影视剧作品。
徐灵真,作家,道士,合香非遗传承人,民俗文化研究员,道教文化研究员。原名徐健军,法名,徐大军/徐敏灵,道号无为子,出生于辽宁省本溪市,祖籍山东日照。本师静虚子,为静虚子道长的关门弟子。后又尊本师意,先后师从龙虎山邱裕松道长,茅山杨世华道长。
张宛彤,女,汉族,学科记忆法高级讲师,当代新生高级家庭教育指导师,青少年儿童心理健康指导师,书君文化教育创始人,育钦学社联合创始人。
何利均,男,汉族,1960年5月14日出生于四川省泸州市。“天使草”品牌和“自然疗法”创始人,现任四川省中科中制医学研究院.院长。何利均投入巨资,致力于中医中药的研究30余年,以“守正创新”为科研宗旨,积极传承中华五千年的中医药文化。他提出以“养”为核心的理念,力求以“简单、轻松、愉快、显效”的方式普惠众生。
可名百科
微信“扫一扫”浏览