中科院团队发布国际最大规模汉语同步多模态神经影像数据集

2022-10-10 18:20:42 0 210

本文转自:中国新闻网

神经影像实验数据采集流程。中科院自动化所 供图

北京10月9日电 (记者 孙自法)中国科学院自动化研究所(中科院自动化所)9日向媒体发布信息说,该所自然语言处理研究组历时近两年,采集处理完成迄今国际上规模最大、包含信息最丰富的汉语同步多模态神经影像数据集,并于近日正式对外发布。

该数据集覆盖了近万个汉语词汇,是当前国际上最大规模的用于脑语言处理机制研究的多模态同步神经影像数据集。其相关研究成果论文已在《自然》(Nature)旗下专业学术期刊《科学数据》(Scientific Data)发表。

据中科院自动化所自然语言处理研究组介绍,大脑在加工语言时,需要实时调动多个脑区的神经元进行协同工作。构建高时空分辨率的神经影像数据可以帮助人们更好地了解各个脑区以及脑区之间的协同合作,对于研究大脑的语言加工机制至关重要。

当前已有的开源数据主要针对英文采集,只包括单一模态的神经影像数据,如高空间分辨率的功能核磁共振(fMRI)或高时间分辨率的脑磁图(MEG),并且大多使用1小时以内的实验材料,数据规模有限,无法借助数据需求量大的计算模型进行更全面、更深入的大脑语言加工机制探索。

为突破上述问题,该研究组历时近两年采集处理完成目前国际上规模最大、包含信息最丰富的汉语同步多模态神经影像数据集,针对12个被试收听约6个小时故事时的功能核磁共振(fMRI)、脑磁图(MEG)、每个被试的T1/T2加权结构像、扩散磁共振成像(diffusion MRI)和静息态核磁共振(resting MRI)数据采集整理而成。为了便于利用计算模型进行脑语言处理机制的研究,所有故事材料都由人工标注了句法结构树,计算了文本中每个词汇对应的音频时间点、词频以及多种不同字和词汇的向量。同时,所有测试指标均超越或可比于已有的同类数据集,具有充分的质量保证。

实验材料对应的标注信息。中科院自动化所 供图

中科院自动化所自然语言处理研究组表示,目前国际最大规模汉语同步多模态神经影像数据集的公开发布,可以为全方位研究大脑在真实场景下理解词汇、短语和句子时如何调动不同脑区以及不同脑区之间如何协同工作等科学问题提供重要支撑。

特别值得注意的是,该数据集覆盖了近万个汉语词汇,这不仅对于研究大脑理解汉语的认知机理具有重要意义,而且将在探索自然语言计算模型与人脑语言处理机制之间的关系,研究如何利用神经影像数据提升现有语言计算模型的性能,从而构建新一代受脑启发的神经语言模型等一系列工作中发挥显著作用。(完)

收藏 (0) 打赏

感谢您的支持,我会继续努力的!

打开微信/支付宝扫一扫,即可进行扫码打赏哦,分享从这里开始,精彩与您同在
点赞 (0)

免责声明:内容来自用户上传发布或新闻客户端自媒体,本站仅提供信息存储空间服务,如违规请联系删除。

玩技资源 国内新闻 中科院团队发布国际最大规模汉语同步多模态神经影像数据集 https://www.52diyhome.com/2022/10/55502.html

如遇资源失效请马上联系微信进行退款

常见问题
  • 答:资源大部分来源于网络和本站作者若有侵权请您联系管理员删除2523030730
查看详情
  • 玩技平台的主要负责内容是提供给作者售卖资源的平台,买家有对作者投诉的权利,投诉成功后会获取相应的补偿机制。官方唯一投诉通道客服QQ:2523030730转接人工服务,投诉专属客服工号【2】
查看详情
  • 本站已开启了作者实名认证,在购买商品时请尽量选择已认证的作者,不用担心跑路和无人售后的问题。如果出现问题,本站将采取报警的方式来指正作者进行诈骗行为,并将其身份资料提供给警方处理。
查看详情
  • 本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。
查看详情

相关文章

发表评论
暂无评论
官方客服团队

为您解决烦忧 - 工作日在线 专业服务

  • 0 +

    访问总数

  • 0 +

    会员总数

  • 0 +

    资源总数

  • 0 +

    今日发布

  • 0 +

    本周发布

  • 0 +

    运行天数

资源在于分享,创作来源想象