SciMetrics:AI 新兴主题识别与可视化用户

本文介绍如何在 SciMetrics 中利用大模型完成“AI 主题识别 → AI 新兴主题可视化 → 结果解读与导出”的完整流程。前半部分以操作为主,后半部分解释核心计算原理。

图1:软件主界面与顶部 AI 菜单

一、功能适用场景

AI 新兴主题可视化适合回答以下问题:

  • 最近几年哪些研究主题正在变得活跃?
  • 哪些文献代表了某个主题的前沿方向?
  • 一个主题是历史延续,还是由新的知识组合产生?
  • 不同主题下的文献在语义、引文、共引或分类关系上是否接近?
  • 哪些新近文献虽然被引次数不高,但可能具有较高的新颖度?

该功能依赖已有的文献数据和 AI 主题识别结果。基本流程:导入文献数据,执行 AI 主题识别,生成 AI 新兴主题可视化图。

 二、数据准备

1. 导入或打开数据集

首先打开 SciMetrics,导入已经下载的文献数据。数据中最好包含文献题名、年份、被引次数、关键词、主题词、引文或分类信息。

如果需要只分析部分文献,可以先在文档列表中勾选目标文献。后续生成新兴主题图时,可以选择“仅勾选文献”。

图2:文献列表图

2. 确认 AI 模型配置

AI 主题识别需要可用的 AI 模型配置。如果模型未配置,在菜单中进入 AI 配置,完成模型、API 地址和密钥等设置。

图3:AI 模型配置窗口

三、第一步:执行 AI 主题识别

1. 打开 AI 主题识别

在主界面顶部菜单中选择:AI → 文档 → AI 主题识别

系统会根据文献题名、摘要或相关文本信息,为每篇文档识别一个或多个主题。识别完成后,这些主题会写入数据集,作为后续桑基图、新兴主题图、主题统计和主题指数计算的基础。

图4: AI 主题识别

2. 是否使用预定义类别

在 AI 主题识别过程中,如果希望主题名称稳定、便于横向比较,可以启用“使用预定义类别”,并输入候选主题名称。AI 会尽量把文献归入这些类别。

如果不启用预定义类别,AI 会根据文献内容自动总结主题。这种方式更适合探索未知主题,但不同批次之间的主题命名可能会略有差异。

推荐做法:

  • 探索性分析:不使用预定义类别,让 AI 自动发现主题。
  • 已有研究框架:使用预定义类别,便于形成稳定的主题体系。
  • 准备做新兴主题图:建议先检查主题名称,必要时使用“编辑 AI 主题”进行修正。

图5:AI 主题识别设置窗口

3. 等待 AI 主题识别完成

执行后,软件会使用智能体分批调用 AI 模型。状态栏会显示当前批次、已更新数量和完成状态。

 识别完成后,可以在文档表或主题相关字段中查看每篇文献的 AI 主题。

图6:AI 主题识别运行过程中的进度状态栏

 4. 编辑或重置 AI 主题

如果发现主题名称不准确,可以对其进行修改和编辑:

图7:编辑 AI 主题

四、第二步:生成 AI 新兴主题可视化

1. 打开新兴主题可视化入口

完成 AI 主题识别后,在主界面顶部菜单中选择:AI → AI 主题 → AI 新兴主题可视化

系统会弹出参数设置窗口,用于选择文献关系、布局方式、分析年份和历史基线。

图8: AI 新兴主题可视化

2. 设置文献关系

“文献关系”决定系统如何计算两篇文献之间是否接近。当前支持以下方式:

  • 关键词:根据共同关键词计算相似度。
  • 主题词:根据主题词或子词计算相似度。
  • 引文/参考文献:根据直接引用或共同参考文献计算关系。
  • 共引:根据两篇文献是否被相同文献引用计算关系。
  • Class1-Class4:根据不同层级的分类信息计算相似度。
  • 混合关系:综合关键词、主题词、引文、共引和分类信息。

推荐设置:

  • 默认建议使用“引文/参考文献”,适合强调知识承接关系。
  • 如果数据中引文信息不完整,可以使用“关键词”或“主题词”。
  • 如果希望综合多种证据,可以使用“混合关系”。
  • 如果项目中 Class1-Class4 分类质量较高,可以选择对应分类层级。

图9:AI 新兴主题 “文献关系”

3. 设置布局方式

当前用户可选布局主要包括:

  • UMAP:默认推荐,适合较大规模文献点云,主题结构更稳定。
  • t-SNE:适合观察局部邻近关系,但不要过度解释全局距离。

建议优先使用 UMAP。如果希望对局部小簇关系做探索,可以尝试 t-SNE 对比。

图 10:布局方式选择

4. 设置分析窗口

分析窗口决定哪些文献会进入图中。常用方式有三种:

  • 最近 N 年:例如最近 5 年,适合寻找当前前沿主题。
  • 自定义年份:例如 2020-2025,适合分析指定阶段。
  • 全部年份:适合整体观察,但“新兴”特征会被历史数据稀释。

如果目标是发现新兴主题,推荐使用“最近 N 年”,并根据学科更新速度设置 N:

  • 快速变化领域:3-5 年。
  • 一般领域:5-8 年。
  • 稳定或长期积累领域:8-10 年。

图 11:分析窗口、最近年份数、自定义年份设置

5. 设置历史基线

历史基线用于判断当前文献和主题相对于过去是否新颖。它不会直接出现在图中,但会参与新颖度计算。

可选方式包括:

  • 分析窗口之前 N 年:默认推荐,用最近历史作为比较对象。
  • 全部历史:适合历史数据完整、希望和全部过去比较的情况。
  • 不使用历史基线:只强调当前时间窗口内部的新近程度和结构。

推荐做法:

  • 常规分析:使用“分析窗口之前 N 年”,基线年份数可设为 10。
  • 数据历史较短:可以减少基线年份数。
  • 只想看最近文献空间分布:可以不使用历史基线,但此时新颖度解释应更谨慎。

图12:历史基线与基线年份数设置。

6. 设置最大文献数和最大主题数

为了保证图形清晰,可以限制进入图中的文献数和主题数。

  • 最大文献数:控制图中最多显示多少篇文献。
  • 最大主题数:控制最多显示多少个 AI 主题。
  • 最小关系强度:过滤较弱关系。
  • 每篇 Top 关系:每篇文献最多保留多少条最强关系。
  • 仅勾选文献:只分析当前勾选的文献。

推荐设置:

  • 小样本精读:文献数 50-150,主题数 10-20。
  • 大规模探索:文献数 500-1000,主题数 30-50。

图13:最大文献数、最大主题数、最小关系强度

7. 点击确定生成图形

设置完成后点击“确定”。软件会计算文献关系、新颖度指数、主题摘要和二维布局,并打开 AI 新兴主题可视化窗口。

图14:AI 新兴主题可视化窗口

五、第三步:阅读新兴主题图

1. 图形区

图形区是文献地图:

  • 每个节点表示一篇文献。
  • 节点大小表示文献被引用次数。
  • 节点颜色深浅表示新颖度,颜色越深通常表示越新颖。
  • 同一主题下的文献使用相同主题颜色和形状。
  • 主题名称显示在对应文献簇附近,前面的 #序号 对应左侧主题列表。
  • 主题凸包表示该主题文献在图中的空间范围,单篇文献主题不绘制凸包。

图15:中央图形区,标注节点、主题标签、主题凸包和图例。

2. 左侧主题列表

左侧上半部分是主题列表,主要字段包括:

  • 序号:与图中主题标签前的 #序号 对应。
  • 主题样式:显示该主题的颜色和节点形状。
  • 主题:AI 识别出的主题名称。
  • 新颖度:该主题的新颖度指数。
  • 文献:该主题下进入图中的文献数量。
  • 被引:该主题下文献的总被引用次数。

点击某个主题后,图中会高亮该主题的文献,同时下方文献列表会切换为该主题下的文献。

图16:左侧主题列表,展示主题新颖度、文献数和被引列

3. 左侧文献列表

左侧下半部分是文献列表,主要字段包括:

  • 序号:当前列表中的文献顺序。
  • 年份:文献发表年份。
  • 题名:文献标题。
  • 新颖度:该文献的新颖度指数。

点击某篇文献后,图中会高亮对应节点。右键文献可以查看原始数据,便于核对题名、年份、引文等信息。

图17:文献列表与“查看原始数据”右键菜单

4. 右侧显示设置

右侧面板用于调整视觉效果:

  • 节点大小:放大或缩小文献节点。
  • 节点边框:调整节点边框粗细,最小可为 0。
  • 节点标签大小:调整文献标签和主题标签字号。
  • 英文换行:控制英文主题名称每行最多显示字符数。
  • 图形缩放:调整整体缩放。
  • 节点标签:显示或隐藏文献标题标签。
  • 主题标签:显示或隐藏主题名称。
  • 节点标签防重叠:自动减少文献标签重叠。
  • 图例:显示或隐藏图例。

图 18:右侧显示设置面板

5. 工具栏常用按钮

窗口上方工具栏包含常用操作:

  • 打开:打开已有 .aitopicmap 文件。
  • 保存:保存当前图,或保存为 SVG。
  • 黑白背景:在黑色和白色背景之间切换。
  • 彩色背景:选择自定义背景色。
  • 重置:恢复默认显示设置。
  • 主题凸包:在关闭凸包、有机包络、凸包之间切换。
  • Excel:导出主题、文献和参数数据。
  • 退出:关闭窗口。

鼠标滚轮可以缩放图形。按住 Shift + 鼠标左键 可以平移图形。主题文字可以用鼠标左键拖动位置。

图19:顶部工具栏保存、背景、凸包、Excel操作

六、主题和文献的交互操作

1. 修改主题名称

在图中的主题文字上右键,或在左侧主题列表中右键,可以选择“修改主题名称”。修改后,主题列表、图中主题标签和对应文献的主题名称会同步更新。

图 20:右键修改主题名称

2. 修改主题颜色和节点形状

在左侧主题列表中右键主题,可以修改主题颜色和节点形状。节点形状支持圆形、方形、三角形、十字形、菱形和星形。

这适合在公众号配图前对重点主题做视觉强调。

图 21:主题颜色和节点形状右键菜单

3. 调整主题文字字体

在可视化区域空白处右键,可以修改主题文字字体。也可以控制是否显示主题文字边框。默认情况下,主题标签不使用背景矩形,主要通过字体样式增强识别。

图22:主题文字字体设置窗口

4. 查看文献原始数据

在文献节点或文献列表中右键,选择“查看原始数据”,可以打开该文献的原始记录。该功能适合在解释某个前沿节点时核对文献细节。

图23:文献原始数据窗口。

5. 去除节点标签重叠

如果打开节点标签后文字重叠较多,可以在节点或空白区域右键,选择“去除节点标签重叠”,也可以在右侧面板勾选“节点标签防重叠”。

七、保存与导出

1. 保存为 .aitopicmap

.aitopicmap 是 AI 新兴主题图的专用文件格式。它会保存模型数据、文献节点、主题信息、分析参数和显示设置。以后可以重新打开继续查看或调整。

2. 保存为 SVG

保存时如果选择 .svg 扩展名,软件会导出当前可视化图形。SVG 适合用于文献、报告、公众号长图或进一步排版。

3. 导出 Excel

点击工具栏中的 Excel 按钮,可以导出数据表。导出的工作簿通常包含:

  • Summary:总体统计。
  • Topics:主题新颖度、文献数、被引数等。
  • Papers:文献题名、年份、被引、新颖度和坐标。
  • Links:文献关系。
  • Options:本次分析参数。

图 24:导出的 Excel 表格

八、如何解读结果

1. 高新颖度主题

主题新颖度越高,说明该主题下文献整体更具有新近性、历史差异性或增长性。它通常代表近期更值得关注的研究方向。

注:新颖度高不等于一定重要。还应结合文献数量、总被引次数和具体文献内容判断。

2. 大节点与深色节点

大节点表示被引用次数较高,通常是影响力较大的文献。深色节点表示新颖度较高,通常是更接近当前前沿的文献。

一个值得重点关注的节点,往往同时具备以下特征:

  • 节点较大。
  • 颜色较深。
  • 位于主题簇的核心或连接多个主题附近。
  • 对应主题的新颖度较高。

3. 主题凸包

主题凸包表示同一主题文献在图中的大致空间范围。凸包面积较大,说明该主题内部文献分布较分散;凸包较紧凑,说明主题内部文献更集中。

单篇文献主题不会绘制凸包,因为单个点无法形成稳定范围。

4. 不同布局的解释方式

UMAP 和 t-SNE 都是降维布局方法。图中距离可以理解为一种“相似性线索”,但不应被解释为严格的数学距离。

更可靠的解读方式是:

  • 看同一主题文献是否形成簇。
  • 看某些主题是否接近或交叠。
  • 看高新颖度节点是否集中出现在某些区域。
  • 看被引高的节点是否位于主题核心位置。

九、参数选择建议

  • 文献关系:引文/参考文献或混合关系。
  • 布局方式:UMAP。
  • 分析窗口:最近 5 年。
  • 历史基线:分析窗口之前 10 年。
  • 最大文献数:300-500。
  • 最大主题数:20-30。
  • 节点标签:默认关闭,只保留主题标签。
  • 主题凸包:使用有机包络。

十、常见问题

1. 为什么生成不了新兴主题图?

常见原因包括:

  • 尚未执行 AI 主题识别。
  • 文档缺少年份。
  • 当前勾选文献过少,但启用了“仅勾选文献”。
  • 数据集中缺少可用于关系计算的关键词、主题词、引文或分类信息。

2. 为什么有些主题没有凸包?

如果一个主题只有一篇文献,系统不会绘制主题凸包。因为单个点无法形成范围。

3. 为什么同一主题的文献没有完全挤在一起?

布局同时考虑文献特征相似性和主题聚拢。系统会尽量让同一主题靠近,但如果某些文献在关键词、引文或分类上差异较大,它们可能仍然分散。

4. 为什么被引高的文献不一定新颖度高?

被引次数表示影响力或关注度,新颖度表示相对于历史和当前时间窗口的创新程度。经典文献可能被引很高,但不一定属于新兴主题。

5. 为什么 t-SNE 和 UMAP 的图不一样?

两者都是降维算法,但优化目标不同。UMAP通常更适合保持整体结构,t-SNE更强调局部邻近关系。因此两种图可以互相参考,但不要把坐标距离解释得过于绝对。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注