推广 热搜: 行业  机械  设备    系统  教师  经纪  参数    蒸汽 

文本分析如何应用到数据类内容创作中

   日期:2024-11-10     移动:http://dgaty.xhstdz.com/mobile/quote/62908.html

作者:白净

文本分析如何应用到数据类内容创作中

文本分析(Text Analysis),是社会科学研究领域一种常用的研究方法。文本泛指由数字、文字、图像等一系列符号构成的信息结构体。文本无处不在,涉及各个学科,文学作品、报刊文章、政策文件、用户评论、网络谣言等等,都可以构成文本。由于文本通常由个人、机构、政府等名义发布,文本的语义不可避免地会反映发布者的立场、观点、偏好、价值取向,因此,学术界常用文本分析的方法对各个领域的问题和现象进行研究。近年来,随着计算机技术的发展,各类文本分析工具日益成熟,让研究者可以从大量语料中提取意义,做出分析和预测。除了学术研究,文本分析也被广泛应用于舆情分析、用户分析,以及内容创作领域,特别是数据类内容创作。

一、文本分析的三种类型

梳理文献发现,研究者对文本分析有着不同的理解和运用。

1.描述型文本分析:在研读文本的基础上对文本进行描述、比较、阐释和评价的研究方法。赵勇对文学作品《明朝那些事儿》所做的文本分析,主要以描述和举例说明的方法,分析作品中所采用的文学性写作手法,如戏仿、戏说、反讽、征引、调侃、挪用、庄词谐用、今词古用等等。也有研究者用这种方法对政策类文本进行分析,如范国睿基于中国40年教育改革政策文本进行分析,考察教育制度的变迁;钟秉林、王新凤对40年高考招生政策进行文本分析

2.统计型文本分析:对文本进行分类和统计,在此基础上,进行描述、比较和评价性分析。喻国明对6000余条网络谣言所做的文本分析,使用了人工编码、关键词提取、分类、文本描述等方法,对谣言的分类、叙事结构、场景构筑、关键词、标题特征等进行分析。陈雅赛对新冠疫情爆发初期的 256 条网络谣言所做的文本分析,根据谣言发布时间、内容、发布平台、辟谣回应、辟谣者身份构建类目,分析突发公共卫生事件网络语言传播特点。陈翔、陈国权对 7 个城市的地方政府问责政策进行文本分析,从办法名称、实施时间、依据、问责主体、客体、问责方式、信息来源、救济等 8 个方面进行分类示意,绘图说明问责程序,并基于政策文本做出比较分析和总结

3.计算型文本分析:通过文本分析软件,机器学习和自然语言处理算法,对大量文本进行分析处理。刘玉林、菅利荣在分析电商平台的用户评论时,采用 Python 抓取电商平台用户评论数据,通过数据清洗,对文本进行处理,去重、提取目标文本、创建特征数据,用文本情感分析模型进行分析,判断电商在线评论的情感倾向和情感变化。刘宏笪、张茜等人对中国钢铁产业“五年规划”文本进行分析,通过词频分析、语义网络分析,构建各阶段高频词语义网络,探究不同阶段规划主题内容和演进脉络

综上可以看出,在文学、历史、政治、传播、社会、经济等多个研究领域,研究者都会运用文本分析的方法开展相关研究。随着各类工具的普及,文本分析也从最初的描述型研究,发展到综合使用描述、统计、计算等方法进行研究。由于前两种研究方法易于理解,本文重点介绍计算型文本分析。

二、计算型文本分析常见方法

计算型文本分析,与通常所说的数据分析,没有本质上的区别,广义上的数据(data)也包括文本(text)在内。计算型文本分析常见方法如下:

1.词频分析(Frequency Analysis),就是在一定范围的文本中,统计词语出现的频次。词频统计有两种情况:一是查找指定关键词获得使用频率,当关键词在某段时间某个领域反复出现时,该词语就能反映这一领域的热点或关注点。二是从大量文本中计算出使用频次最高的词语,中文词频分析相对英文来说更加复杂,其中涉及到对“词语”的判断,比如“社会主义”,它是一个词?还是 “社会”和“主义”两个词?基于大量语料的分词工具目前已经非常成熟。词频分析方法可以摆脱个人经验和主观偏好,具有客观、准确、系统、实用的特点,用这种方法,研究者可以发现某个学术领域的研究热点和趋势。

2.情感分析(Sentiment Analysis),很多词语带有情感色彩,如热爱、高兴、喜悦、失望、痛哭、死亡,给这些词语赋予一定的情感值,乐观积极的词语情感值为正值,消极悲观的词语情感值为负值,根据文本中高频词语情感值的计算,就可以分析出文本的情感倾向。情感分析有两种情况:一种是基于词典,通过制定情感词典规则,对文本进行拆解、提取关键词,计算情感值,将情感值作为分析文本情感倾向的依据。另一种是基于机器学习的算法,可避免大量人工提取特征。情感分析常用于舆情分析、产品或服务的用户评价等领域。

3.关联词语或关联内容分析,当一些词语出现时,找出其所对应的词语或者内容,分析这些词语、内容之间的关联关系。利用这种方法,可以在词频分析的基础上,更进一步地拓展分析空间。例如,我们以一段时间内外交部发言人的发言文本为分析语料,通过关联词语分析,可以发现外交部发言人经常“严厉谴责”哪些国家和地区?“严重关切”哪些问题?“感谢”哪些国家和地区等等。

4.复杂词频分析,当无法找到合适的指定关键词,以获取某一类内容的使用频率时,需要通过人工处理或者机器处理的方式,将某段文本高度概括为某个关键词语,然后再对该关键词语进行统计分析,找出整体文本的特点。比如,论文的“关键词”,就是与论文主题密切相关的词,当每篇论文都被赋予 “关键词”,就可以通过统计“关键词”,发现一段时间内某个领域的研究重点和研究趋势。

三、文本分析在数据类内容创作中的应用

随着文本分析工具的普及,以往用于学术研究、数据分析的方法,也被借鉴到内容创作领域。数字媒体时代,资讯传播速度加快,人们接触大量碎片化信息的同时,也希望看到对一些问题的深度权威的解读。数据类内容是近年出现的一种新的内容样式,包括数据新闻、数据报告等。文本分析是数据内容创作常用的方法,来看下边的案例。

举例 1:词频分析——庆祝中国共产党成立 100周年重要讲话文本分析

2021年7月1日,习近平总书记在庆祝中国共产党成立100周年大会上发表重要讲话,回顾中国共产党百年奋斗历程,展望中华民族伟大复兴的光明前景,为新征程上党和国家各项事业发展明确了前进方向。新华社、人民日报等主流媒体均在第一时间发表社论和评论文章,学习贯彻重要讲话精神。

在主流媒体之外,学术界和民间也非常关注习总书记的讲话。微博博主@兔主席在其新浪微博和微信公号Chairman Rabbit上发表了《二十年的变化:从讲话用词一窥党话语体系之渐进发展》,以国家领导人在中国共产党成立80周年和中国共产党成立 100 周年大会上的讲话文本为研究对象,分析时隔 20 年国家领导人的讲话用词,尝试理解和分析中国共产党的内核理念及话语体系的变化发展。

作者所采用的文本分析方法并不复杂:首先,用词频分析工具统计两篇讲话的高频词,将高频词进行分类,分为名词、动词、形容词等;其次,由于两篇讲话原文字数相差较大(80 周年讲话字数约为 100 周年讲话字数的 3 倍),作者在进行词频比较分析时,把两者相差的倍数考虑在内;最后,作者对同义词语进行了合并统计。

通过词频分析,作者得出如下看法:100周年讲话排名第 1 的高频词是中国(出现 138 次)、排名第3的高频词是中华民族(出现62次),这两个概念出现的频率远高于80周年讲话。这说明在党的话语体系中,对国家和民族的关注度、专注性、聚焦性进一步提升。排名第2的高频词是人民(出现86 次),频率也高于80周年讲话,说明人民是党永恒的主题。党更加关注普通老百姓的生活,脱贫攻坚、共同富裕、为人民向往的美好生活而奋斗,都是人民主题。排名第8的高频词是复兴(出现26次),远高于20周年讲话(只出现3次),说明 “复兴”是党的使命和历史关键词。“伟大”在100 周年讲话里出现的频次为53次,显著超过了80 周年讲话。“伟大”的增加,说明相较20年前,中国共产党更加自信,同时,也有了更强的自我激励与动员意识

词频分析的第一步是找出高频词,这一步比较容易,如何分析高频词,特别是分析像中国共产党成立100周年讲话这样的文本,则需要从政治的、历史的、国际比较的高度去评价词语的变化,需要大量描述性分析,而后者对作者的知识储备和写作能力要求非常高。

举例2:情感分析——热歌榜歌词情感分析 用手机客户端收听音乐,已成为很多人的生活习惯。艾媒咨询2020年的一项监测报告称,中国手机音乐客户端用户规模达5.8亿人,较为活跃的音乐客户端为QQ音乐、酷狗音乐、酷我音乐和网易云音乐。主流手机音乐客户端用户以35岁及以下青年群体为主,占比均七成。年轻人都用音乐客户端收听哪些音乐?这些音乐反映了一种怎样的社会情绪?在《我们分析了22万字热歌歌词,这届年轻人好像有点“丧”》一文中,作者采集了网易云音乐和酷我音乐某日热歌榜的TOP200歌词(如图1),两个榜单400首歌总计近22万字歌词,通过对这些歌词进行词频分析和情绪分析,作者给词语标记三类情绪值:正面情绪(“+”号表示)、负面情绪(“-”号表示)、中性(“O”号表示)。作者发现,热歌榜歌词负面情绪居多,两个热歌榜高频词所反映的情况基本一致,在出现次数前16的高频词中,正面情绪的词语都是3个,负而情绪的词语却有12个,以网易云音乐为例,正面情绪词语为快乐(42)幸福(22)美好 (21),而负面情绪词语是寂寞(40)放弃(40)难过 (29)失去(27)孤单(24)孤独(22)错过(20)遗憾(19)痛苦(18)悲伤(17)挣扎(17)害怕(17)。

作者由此得出结论:歌词中带有明显负面情绪的歌曲,戳中了年轻人的敏感神经,他们寂寞、孤单,不愿与周围人分享自己的情绪,把听歌当作消解生活中诸多困难的一种方式。在听歌的过程中宣泄自我情感,从不断重复的歌词中找寻情感共鸣。耳机戴上,即是自我的世界,即使拿下耳机回到现实,也可以长久沉浸在歌声里的自嘲中,不必与现实中的世人交往。

举例 3:关联分析——粤港澳大湾区城市定位分析

2019 年 2 月 18 日,中共中央、国务院印发《粤港澳大湾区发展规划纲要》,这是我国进一步深化改革开放的又一重大举措。粤港澳大湾区包括香港、澳门两个特别行政区和广东省的广州、深圳、珠海、佛山、惠州、东莞、中山、江门、肇庆共9 个内地城市,总面积 5.6 万平方公里,覆盖约 7000万人口,是我国开放程度最高、经济活力最强的区域之一,在国家发展大局中具有重要战略地位。《规划纲要》超过 2.7 万字,认真读完至少要两个小时。

如何让读者快速理解《规划纲要》中的城市定位?利用词频分析,可以发现“9+2”城市名称的出现频次依次为:香港(102),澳门(90),广州 (41)深圳(39)珠海(20)佛山(9)惠州(6)东莞 (8)中山(9)江门(7)肇庆(5)。香港在《规划纲要》中被提及的次数最多,显示在粤港澳大湾区未来发展定位中,香港被赋予“龙头”地位。

《规划纲要》发布后,中国(深圳)综合开发研究院智库研究与信息部发表了《大湾区规划观察:发展规划纲要 11 城词频统计》,该文统计了“9+ 2”城市在《规划纲要》第四至第十章重点任务中的分布情况,清楚地指出各城市在大湾区建设中被赋予的角色和权重。例如,香港在建设国际科技创新中心、构建具有国际竞争力的现代产业体系、建设宜居宜业宜游的优质生活圈、紧密合作共同参与“一带一路”建设方面,被赋予重要角色,这也是港澳回归后,国家首次通过区域规划的形式,将特别行政区纳入区域发展总体规划当中。

举例4 :复杂词频分析——特朗普新冠疫情讲话分析

2020 年 4 月 26 日,《纽约时报》发表《谈及新冠疫情 特朗普满口自夸》的在线互动作品。作者搜集了特朗普在各种场合发表的涉及新冠疫情的视频讲话,时间跨度从 2020 年 3 月 9 日至 4 月中旬,讲话文本总计超过 26 万个英文单词,相当于一本700页的书。作者通过文本分析,将特朗普讲话分成五类内容:夸大其词毫无依据 (Exaggerations and falsehoods)、自 我 表 扬 (Self-congratulations)、表达同情或呼吁团结(Displays empathy or appeals to unity)、肯 定 他 人 (Credits others)、谴责他人(Blaming others),五类内容用五种颜色标识,浓缩为若干个布满色块的像报纸一样的版面上,当点击某个色块时,就会弹出该色块对应的语句。通过彩色色块的面积大小,用户可以一眼看出总统讲话的表达特点。

统计发现,“特朗普讲话中最常出现的话语是自我表扬(超600处),其中超130处属于没有事实依据的夸大其词。他虽有肯定他人(超过 360 次),但也将责任归咎于他人(超过110次)。他虽有表示同情或呼吁团结(约160次),但更多是夸赞自己或其团队。通过分析特朗普讲话,《纽约时报》为读者还原了一个“自大、自负、不诚实、不团结”的美国总统。

用同样的手法,《今日美国》对比分析了特朗普和拜登两位美国总统的就职演讲。2021年1月 21日,《今日美国》发表《从“美国优先”到“美国要团结”:特朗普和拜登总统就职演讲分析》,作者对两位总统的就职演讲词进行分类概括,发现特朗普在演讲词中强调“华盛顿如何令美国其他地区失败”“美国优先”“爱国主义”,而拜登总统则强调 “民主”“团结”“事实”“诚实”和“宽容”。

通过以上四个案例可以看到,文本分析方法应用于内容创作,可以带给读者不一样的视角,对于长篇或大量的文本素材,通过单独运用一种或者综合使用多种文本分析方法,另辟蹊径,抽丝剥茧,可以发现隐藏在文本背后的主旨、立场、倾向、性格、喜好、情绪、趋势等等。文本分析的方法应用得当,可以让内容更有说服力,进而影响和启发受众。

(作者系南京大学新闻传播学院教授)

注释:

①赵勇:《“好看”的秘密——<明朝那些事儿>的文本分析》,《文艺争鸣》,2010第5期,第133—141页。

②范国睿:《教育制度变革的当下史:1978—2018—— 基于国家视野的教育政策与法律文本分析》,《华东师范大学学报(教育科学版)》,2018年第5期,第1—19、65页。

③钟秉林、王新凤:《我国高考改革的价值取向变迁与理性选择——基于40年高考招生政策文本分析的视角》,《教育研究》,2017年第10期,第12—20页。

④喻国明:《网络谣言的文本结构与表达特征——基于腾讯大数据筛选鉴定的6000+谣言文本的分析》,《新闻与写作》,2018年第2期,第53—59页。

⑤陈雅赛:《突发公共卫生事件网络谣言传播与治理研究——基于新冠疫情的网络谣言文本分析》,《电子政务》,2020年第6期,第2—11页。

⑥陈翔、陈国权:《我国地方政府问责制的文本分析》,《浙江社会科学》,2007年第1期,第70—77页。

⑦刘玉林、菅利荣:《基于文本情感分析的电商在线评论数据挖掘》,《统计与信息论坛》,2018第12期,第119— 124页。

⑧刘宏笪、张茜、张济建、闫东:《中国钢铁产业五年规划:演进脉络与调整展望———基于“十五”以来规划文本分析》,《产业经济》,2020年第3期,第29—35页。

⑨ https://weibo.com/ttarticle/p/show?id=230940465 4660098326739.

⑩ https://weibo.com/ttarticle/p/show?id=230940465 7896620425293.

⑪艾媒报告:《2019-2020中国手机音乐客户端市场研究报告》,2020 年 2 月 6 日,https://www.iimedia.cn/c400/ 68645.html。

⑫陈虹、陈于、虞潇:《我们分析了22 万字热歌歌词,这届年轻人好像有点“丧”》,https://media.nju.edu.cn/f8/ 94/c21821a456852/page.htm。

来源:《新闻与写作》

编辑:唐婷婷

本文地址:http://dgaty.xhstdz.com/quote/62908.html    物流园资讯网 http://dgaty.xhstdz.com/ , 查看更多

特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


0相关评论
相关最新动态
推荐最新动态
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号