推广 热搜: 行业  机械  设备    系统  教师  经纪  参数    蒸汽 

【数据库资源】国内外老年人语料库建设情况简介

   日期:2024-11-10     移动:http://dgaty.xhstdz.com/mobile/quote/72758.html

建立多模态数据类型的大规模正常及痴呆症老年人数据库,是开展大规模、横向、纵向老年人语言能力研究的基本工作。一些较早进入老龄化社会、老年语言学发展相对成熟的国家已经开始了老年人语料库的专项建设。

【数据库资源】国内外老年人语料库建设情况简介

根据研究内容的不同,语料库的建库方法也随之变化,所构建的语料库也有不同。从语料库的发音人类型上看,主要围绕两类老年人群,即经历正常生理衰老的老年人以及经历病理性衰老的老年人,后者主要是指罹患一系列神经退行性疾病(如认知障碍、阿尔茨海默病、帕金森病等)的老年人。

从语料库的数据采集性质上看,主要分为个案追踪数据和队列研究数据。前者主要和历时研究方法相结合,能够在一定的时间内更全面地对个体的语言变化做出详细的现象描写。但个案研究往往因其参与人员较少而存在不具备普遍性的不足,故而不能有效地代表同类对象的总体情况。因此,以队列研究为方法导向的语料库建设及相关老年语言学研究更具代表性,目前已经有相对成熟的基于精准队列设计的语料库。同时,基于历时视角语料库构建能够为老年人群的语言发展提供回溯性研究和前瞻性研究的重要数据支撑。例如,1964年,德国海德堡大学就已经开始构建关注个体老年期的语言发展的资源库(BOLSA)等。

从语料库的数据类型来看,现有语料库包括音视频语料及部分转写文字、语言认知评估结果等,可以分为单模态(文本语料库[1]双模态(如德国柏林自由大学构建的德语语料库LanAge Corpora等)和多模态语料库(如下文提及的CCC、DementiaBank和CorpAGEst等,包含听觉、视觉模态数据和转写文本数据以及标注后的各项数据)

这里主要介绍四个具有代表性的语料库。

1)The Carolinas Conversations Collection(CCC)

该语料库收集了200多个与患有12多种慢性疾病老年人的对话访谈,以及400多个与患有认知障碍老年人的对话访谈。著名老年语言学专家Boyd H. Davis是该项目的主要负责人之一。该语料库有两个队列。队列1包含65岁及以上的男性和女性,两个在卡罗莱纳州最常见的导致死亡的慢性病。该队列内成员有两次对话式访谈,一次是与年轻的临床专业人员的访谈,另一次是与年龄和种族相似的社区伙伴的访谈;队列265岁及以上的男性和女性,均患有认知障碍,包括最常见的老年痴呆症类型。该队列内成员可能经历一到十次访谈。该语料库目前已有500个以上的访谈记录,时长总计为800小时以上。录音语料以WAV/MP3格式保存,录像材料上传至LaBBCAT在线管理系统。利用这一语料库,来自多个学科和医学领域的研究人员考察老年人如何与年轻人及同时代人交谈,以及他们如何构建或共同构建记忆和身份,并让临床研究人员将说话的方式与临床结果联系起来。

链接地址:Carolinas Conversations Collection - about - The Collection (musc.edu)

2)DemantiaBank

DemantiaBankTalkBank[2]的子库,是一个共享的多模态语料库,已成为最为知名的老年痴呆症患者语料库之一。语料库数据类型包含音频、视频语料和对应文本,可用于研究痴呆症患者的语言交际问题。该库含有两个大型队列研究产生的语料库,English PittEnglish WLS(固定队列取样、长期跟踪)。共收录2107人语料,其中59岁及以下小计134人,最小45岁;60岁及以上小计1876人,最大91岁。语料语种包括英语、德语、西班牙语和汉语,话语类型包括自由谈话(生命中的重要事件、自豪的事件),看图说话(偷饼干图等)、故事叙述(灰姑娘的故事)以及程序性描述话语(制作花生酱及三明治的过程)。DementiaBank包括了117位诊断为痴呆症的老年患者以及97位健康老年人。其中,“Mandarin Lu” 和“Mandarin Ye”分库为汉语语料库,记录了参与认知评估(MoCA量表)患者的动物、水果、颜色和城市的语义流利性任务。“Mandarin Lu”收录了52位普通话痴呆患者的数据,“Mandarin Ye”收录了16位中国台湾痴呆患者的数据,包括43例帕金森病合并轻度认知障碍患者的动物命名流畅性数据。

   链接地址:DementiaBank (talkbank.org)

3)CorpAGEst[3]

这是由Catherine T. BollyDominique Boutet等领衔利用多模态语料库方法研究老年人语言衰老项目的语料库,该项研究名为A corpus-based multimodal approach to the pragmatic competence of the elderly,旨在建设正常衰老老年人现场即席话语的多模态语料库,在此基础上考察老年人语用能力变化。该语料库被试老年人均为75岁以上,设计98个话题,196场访谈,约144小时,约150万字文本语料,访谈者与老年人进行半结构面对面访谈。采录方式为录音、录像。所有参与者都是以法语为母语的健康人,无严重认知障碍。该语料库分为横向(transversal)子库CorpAGEst和纵向(longitudinal)子库VIntAGE。前者是为个体内和个体间的测试而建立的,目的是探索语言交互中的(非)言语立场标记及其组合;后者简称VIntAGE,该子库的建设旨在发现随着时间的推移,是否可以观察到老年人在使用非言语和言语语用线索时出现任何补偿策略。该库可为研究为语用标记的功能模式(如euh-uhbon-well等)和语用手势(如掌心向上、头倾斜等)多模态语用结构等提供研究资源,同时也为老年人交际能力、认知功能、补偿策略、衰老与适应能力等方向的提供资源。

  链接地址:HOME - CLARE - Corpora for Language and Aging Research - Wikis der Freien Universität Berlin (fu-berlin.de)

4)老年人话语多模态语料库(Multimodal Corpus of Gerontic Discourse,MCGD)

该语料库是多模态语料库,由我国老年语言学专家顾曰国、黄立鹤、刘红艳等学者及相应团队参与建设。项目团队具有十余年的老年多模态语料库建设经验,是国内最早系统建设老年语料库的团队之一。团队自2003年开始在北京采集部分老年人语料(当时是作为汉语现场即席话语多模态语料库(SCCSD)中的特殊语料);2013年在香港理工大学支持下开始单独建库;2018年正式命名为MCGD,由黄立鹤、周德宇等在上海负责建设,相关工作扩充了语料类型和样本数量。该语料库采用出生队列的建库原则,构建了不同认知水平(认知健康、轻度认知障碍、阿尔茨海默病等)老年人的语料数据。目前,核心数据已完成了初步标注;所有标注层均有详细工作定义、切分标准、标注方法,并附标注样例;已完成核心数据的标注评估及一致性、效度、信度验证;语料库配有标注手册;该库将适时选取部分语料以适当方式公开。


[1] 例如,和Stone2003)将生活在过去500 年间的著名小说家、剧作家和诗人(共10 位)在不同年龄段(8-70以上)的文字作品转录为文本语料库,形成了超过900 万字的文本语料库。

[2] TalkBank是由卡内基梅隆大学的Brian MacWhinney组织的一个项目。参考https://talkbank.org

[3]Corpora for Language and Aging Research (CLARe)的一部分。

本文地址:http://dgaty.xhstdz.com/quote/72758.html    物流园资讯网 http://dgaty.xhstdz.com/ , 查看更多

特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


0相关评论
相关最新动态
推荐最新动态
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号