🤵♂️ 个人主页:@艾派森的个人主页
✍🏻作者简介:Python学习者
🐋 希望大家多多支持,我们一起进步!😄
如果文章对你有帮助的话,
欢迎评论 💬点赞👍🏻 收藏 📂加关注+
目录
一、CiteSpace软件介绍
一、基本概念
CiteSpace(引文空间)是一款专注于分析科学分析中蕴含的潜在知识的软件。它是在科学计量学、数据可视化背景下逐渐发展起来的引文可视化分析软件。通过可视化的手段,CiteSpace能够呈现科学知识的结构、规律和分布情况,并因此将这种分析得到的可视化图形称为“科学知识图谱”。
二、主要功能和用途
- 知识图谱构建:根据科学文献的引用关系,CiteSpace可以生成知识图谱,帮助研究人员更好地理解学术领域中不同文献之间的联系和演化过程。
- 主题聚类分析:通过关键词和引文共现等信息,CiteSpace可以对文献进行主题聚类分析,帮助研究人员从海量的科技文献中提取出关键主题和热点问题。
- 可视化分析:提供了多种可视化方法,如时序图、地图、对比图等,使研究人员能够更直观地展示和分析科学文献数据。
- 科研辅助:主要用于科学研究前期的文献综述、科学研究方向的探索、科学研究团队合作与关系的梳理等。
三、应用领域
- 论文的文献综述
- 国内外期刊分析汇报
- 课题研究方向探索
- 核心期刊研究
四、开发者和发布信息
CiteSpace是由美国雷德塞尔大学信息科学与技术学院的陈超美博士,以及大连理工大学的WISE实验室共同研发的。用户可以在其官网进行免费下载,网址为:https://citespace.podia.com/download。
五、用户评价
根据华军软件等平台的用户评价,CiteSpace(可视化文献分析软件)下载安装使用过程简单流畅,界面设计容易上手,功能丰富,且实用性高。许多用户都对其给予了高度评价,认为它是一款方便、实用的科研工具。
六、使用方法
在使用CiteSpace时,主要包括文献数据的导入、分析参数的设置、可视化结果的呈现等几个步骤。用户可以从多个权威的数据源获取文献,如Web of Science、中国知网(CNKI)以及谷歌学术等,并通过软件内置的转换工具将数据导入软件进行分析。
二、CiteSpace软件应用实例-CNKI
2.1确定主题
确定研究主题及关键术语,运用尽可能广泛的专业术语来确定所关注的知识领域。本文以国内的“文本挖掘”研究为例,在CNKI数据库中进行检索,通过Citespace探讨近2019年-2024年国内的学术成果分布与合作、研究前沿等
2.2数据准备
在中国知网中以“文本挖掘”为关键词,以年份2019-2024为条件进行检索,发现共有1865篇学术期刊和1994篇硕博论文。
接着将这些期刊和硕博论文以Refworks格式进行导出,注意CNKI每次只能导出500篇文献。(步骤:将显示改为一页50条,点击全选,点击写一页,再点击全选,直到有500条时导出一次,接着重复操作直到将全部文献选中并导出)
最后将导出的全部txt文件内容,复制到同一个txt文件中,并将此txt文件命名为“download_1”。例如我将前面每次导出的1-10个txt文件内容进行合并为download_1.txt文件。
新建一个文档,在里面建立“input、output、data、project”四个文件夹把download_1文档复制到input里面。
data:从output复制过来的数据
input:下载的原始数据
output:经转换后的数据
project:处理后的结果和过程性数据
2.3数据格式转化
打开CiteSpace软件,点击Aggre即可(默认是英文界面)。如果想要中文界面,点击English后再点击Aggre即可。
Citespace分析的数据以Web ofscience数据为基础,其他数据库下载的数据需转换为Wob of Scionce的数据格式才能分析。而本文使用的是CNKI数据库,故需要进行数据转化处理。
点击菜单栏中的数据,并点击“输入/输出”。
点击CNKI,接着将刚才的输入、输出文件夹路径进行填写,最后点击格式转化,运行结束关掉页面即可。
将转换后的数据从output文件夹中复制到data文件夹里面。
点击“新建”,输入项目名称,修改文件地址,选择数据库和语言,点击Save,项目新建完成。
2.4关键词共现分析
①修改时间划分,只勾选关键词,勾选下面“精简”里的两个指标,最后点击绿色“开始!”按钮即可。
如果遇到下图这种情况,只需要缩小g-index里面的k值(缩小k值不影响后面的分析), 直到不出现这个报错信息。或者也可以缩短年份,同样可以解决这个问题。
点击可视化
左边的画面为黑色,表明程序还在运行,可以等运行完变成白色,也可以点击停止按钮。画面的左边是关键词出现的频次以及最早出现的年份,右边是控制面板。
在控制板中修改排列方式为“By Freq”,接着可以修改框框中的三个属性的值(控制词语的数量、字大小、节点大小),直到得到满意的图形。
如果觉得词语重叠不好看,可以点击标签中的标签大小,使其均匀分布,这样能是关键词不会重叠,但是就没有频次越高词语越大的效果。
如果不喜欢方形的节点,可以在节点中修改节点形状为圆形。
或者点击功能栏中的节点年轮
如果想修改标签的颜色,按照下面操作即可。
也可以修改标签背景颜色。
也可以去掉背景颜色,将背景颜色透明度拉满即可。
同时在画面左边还有关键词出现的频次以及出现的平均年份
最后要想保存图片的话,点击文件,另存为PNG。
2.5关键词聚类分析
点击功能栏里的聚类按钮,在弹出来的输入框中输入K,最后点击ok
聚类之后,在控制板中进行微调即可
最后保存图片如下图:
如果想做关键词时间线图,就需要在聚类的基础上,点击功能栏中的“TimeLine View”按钮,或者点击控制板里面布局中的TimeLine。
先调整一下背景颜色
如果画面卡白的情况下,可以点击重新运行,然后结束运行。
如果不想要黄色方框形式的节点,可以点击功能栏中的节点年轮按钮。
最后在控制板中进行微调,保存为PNG图片如下图:
2.6关键词突现分析
点击控制板中的“热点”,点击View,弹出的弹窗中会告诉你共有多少个突变词,然后你要输入显示多少个词,如果突变词个数较少,可以缩小Y【0,1】中的值,比如改为0.5,数值越小,突变词越多。
点击确定后,如下结果
2.7发文机构分析
在节点类型中勾选机构,接着点击开始按钮
画面的左边会统计机构发文的频次以及最早发文的时间
三、分析总结
3.1关键词共现/聚类分析
分析结果如下:
- 核心关键词与主题:
- “文本挖掘”和“文本分析”作为最高频次的关键词,显然是该领域的研究核心。它们代表了文本数据处理和分析的基础技术。
- “机器学习”、“深度学习”、“数据挖掘”等关键词的出现,说明文本挖掘技术通常与这些先进的数据分析技术相结合,以实现更复杂的任务。
- 研究热点:
- “情感分析”和“情感分类”的高频次表明,情感分析在文本挖掘领域具有重要地位,尤其是在社交媒体分析、消费者行为预测等方面。
- “政策工具”、“政策文本”、“政策评价”、“政策变迁”等关键词的出现,表明政策分析是文本挖掘的一个重要应用领域,尤其是在政策制定、政策效果评估等方面。
- “大数据”和“人工智能”作为现代科技的核心技术,与文本挖掘技术的结合也显示出该领域的前沿性和广阔的应用前景。
- 应用领域:
- “在线评论”、“网络文本”、“网络舆情”等关键词表明,文本挖掘技术在处理和分析网络数据方面具有广泛应用,特别是在电商、社交媒体等领域。
- “乡村振兴”、“数字经济”、“金融科技”等关键词则揭示了文本挖掘技术在不同领域(如农业、经济、金融等)的应用场景。
- 研究方法与技术:
- “主题模型”、“内容分析”、“量化分析”、“关联规则”等关键词代表了文本挖掘研究中所采用的主要方法和技术。
- “知识图谱”和“可视化”等关键词则显示了研究者如何将复杂的文本数据转化为易于理解和分析的图形或图像。
- 趋势与变化:
- 从关键词的平均年份来看,大多数高频关键词都出现在2020年,这可能与COVID-19疫情的影响有关,导致了对文本挖掘技术的更广泛关注和应用。
- 近年来,“政策量化”、“政策协同”、 金融科技”、“事故致因”等关键词的出现,可能预示着政策分析领域、金融领域、交通领域对文本挖掘技术的需求正在增加,同时也显示出该领域研究方法的多样性和深入性。
综上所述,文本挖掘领域的研究呈现出多样化、深入化和应用化的趋势,不仅涉及先进的技术和方法,还广泛应用于不同领域和场景。未来,随着数据量的不断增加和技术的不断进步,文本挖掘领域的研究将会更加广泛和深入。
3.2关键词突现分析
对文本挖掘领域在近几年内的发展动态和趋势进行如下分析:
- 早期趋势(2019-2020年):
- 大数据与网络爬虫:从2019年到2020年,大数据和网络爬虫作为获取和分析大量文本数据的关键技术,得到了广泛的关注和应用。这表明在这一阶段,研究者们开始重视从各种数据源中自动获取文本信息,并对这些信息进行初步的处理和分析。
- 电子商务:随着电子商务的快速发展,相关的文本挖掘技术也受到了关注。这可能涉及到对消费者评价、产品描述等文本数据的挖掘和分析,以支持商业决策和市场营销活动。
- 特征提取:特征提取是文本挖掘中的一个重要步骤,用于从文本数据中提取出有意义的特征。这一阶段的关注表明,研究者们开始重视文本数据的预处理和特征工程。
- 中期趋势(2020-2021年):
- 神经网络与文本分类:随着深度学习技术的兴起,神经网络在文本分类中的应用逐渐增多。从2020年到2021年,这一趋势尤为明显,表明研究者们开始尝试使用更复杂的模型来提高文本分类的准确性和效率。
- 新冠肺炎与微博舆情分析:2020年新冠肺炎的爆发使得社交媒体上的舆情分析变得尤为重要。微博作为中国主要的社交媒体平台之一,其上的文本数据成为了研究者们分析疫情舆情的重要来源。
- 近期趋势(2020-2022年):
- 文本聚类、情感倾向与满意度:从2020年到2022年,文本聚类、情感倾向分析和满意度评价成为了研究的热点。这表明研究者们开始关注文本数据中的群体特征、情感倾向以及用户满意度,以支持更精细化的分析和决策。
- 情感分析、深度学习、机器学习等技术的深入应用:在这一阶段,情感分析、深度学习、机器学习等技术得到了更深入的应用和研究。研究者们开始探索这些技术在文本挖掘中的新应用和新方法,以应对更复杂和多样的文本数据。
- 新兴趋势(2022年至今):
- 金融科技与事故致因:从2022年开始,金融科技和事故致因等主题开始受到关注。这可能表明文本挖掘技术开始被应用于金融领域的风险管理和事故预防等方面,以支持更智能的决策和风险管理。
总结来说,文本挖掘领域在近几年内经历了从大数据获取和预处理到深度学习、机器学习等技术的深入应用,再到金融科技和事故致因等新兴领域的探索和应用。
3.3发文机构分析
结果分析:
- 研究实力与影响力:这些大学在文本挖掘领域的发文频次高,表明它们在该领域具有较强的研究实力和学术影响力。这些机构可能拥有优秀的师资团队、先进的实验设备和丰富的研究资源,能够支持高质量的研究工作。
- 学科优势与特色:这些大学中,不少是以财经、经济、管理等学科为主的综合性大学,如中南财经政法大学、东北财经大学、上海财经大学等。这些学科领域与文本挖掘技术密切相关,需要处理和分析大量的文本数据,因此这些机构在文本挖掘领域的研究具有天然的优势和特色。
- 研究热点与趋势:这些机构在2019年和2020年开始在文本挖掘领域发表大量论文,可能反映了当时该领域的研究热点和趋势。随着大数据和人工智能技术的快速发展,文本挖掘技术得到了广泛的应用和关注,这些机构也抓住了这一机遇,加大了在该领域的研究投入。
- 学术成果与应用前景:这些机构在文本挖掘领域的研究取得了丰硕的学术成果,并可能在实际应用中发挥了重要作用。例如,在金融领域,文本挖掘技术可以用于分析市场趋势、评估投资风险、优化投资策略等;在社交媒体领域,文本挖掘技术可以用于分析用户行为、情感倾向、舆论动态等。这些应用前景广阔的研究领域为这些机构提供了广阔的研究空间和发展机遇。
资料获取,更多粉丝福利,关注下方公众号获取