本文介绍如何在 SciMetrics 中利用大模型完成“AI 主题识别 → AI 新兴主题可视化 → 结果解读与导出”的完整流程。前半部分以操作为主,后半部分解释核心计算原理。

图1:软件主界面与顶部 AI 菜单
一、功能适用场景
AI 新兴主题可视化适合回答以下问题:
- 最近几年哪些研究主题正在变得活跃?
- 哪些文献代表了某个主题的前沿方向?
- 一个主题是历史延续,还是由新的知识组合产生?
- 不同主题下的文献在语义、引文、共引或分类关系上是否接近?
- 哪些新近文献虽然被引次数不高,但可能具有较高的新颖度?
该功能依赖已有的文献数据和 AI 主题识别结果。基本流程:导入文献数据,执行 AI 主题识别,生成 AI 新兴主题可视化图。
二、数据准备
1. 导入或打开数据集
首先打开 SciMetrics,导入已经下载的文献数据。数据中最好包含文献题名、年份、被引次数、关键词、主题词、引文或分类信息。
如果需要只分析部分文献,可以先在文档列表中勾选目标文献。后续生成新兴主题图时,可以选择“仅勾选文献”。

图2:文献列表图
2. 确认 AI 模型配置
AI 主题识别需要可用的 AI 模型配置。如果模型未配置,在菜单中进入 AI 配置,完成模型、API 地址和密钥等设置。

图3:AI 模型配置窗口
三、第一步:执行 AI 主题识别
1. 打开 AI 主题识别
在主界面顶部菜单中选择:AI → 文档 → AI 主题识别
系统会根据文献题名、摘要或相关文本信息,为每篇文档识别一个或多个主题。识别完成后,这些主题会写入数据集,作为后续桑基图、新兴主题图、主题统计和主题指数计算的基础。

图4: AI 主题识别
2. 是否使用预定义类别
在 AI 主题识别过程中,如果希望主题名称稳定、便于横向比较,可以启用“使用预定义类别”,并输入候选主题名称。AI 会尽量把文献归入这些类别。
如果不启用预定义类别,AI 会根据文献内容自动总结主题。这种方式更适合探索未知主题,但不同批次之间的主题命名可能会略有差异。
推荐做法:
- 探索性分析:不使用预定义类别,让 AI 自动发现主题。
- 已有研究框架:使用预定义类别,便于形成稳定的主题体系。
- 准备做新兴主题图:建议先检查主题名称,必要时使用“编辑 AI 主题”进行修正。

图5:AI 主题识别设置窗口
3. 等待 AI 主题识别完成
执行后,软件会使用智能体分批调用 AI 模型。状态栏会显示当前批次、已更新数量和完成状态。
识别完成后,可以在文档表或主题相关字段中查看每篇文献的 AI 主题。

图6:AI 主题识别运行过程中的进度状态栏
4. 编辑或重置 AI 主题
如果发现主题名称不准确,可以对其进行修改和编辑:

图7:编辑 AI 主题
四、第二步:生成 AI 新兴主题可视化
1. 打开新兴主题可视化入口
完成 AI 主题识别后,在主界面顶部菜单中选择:AI → AI 主题 → AI 新兴主题可视化
系统会弹出参数设置窗口,用于选择文献关系、布局方式、分析年份和历史基线。

图8: AI 新兴主题可视化
2. 设置文献关系
“文献关系”决定系统如何计算两篇文献之间是否接近。当前支持以下方式:
- 关键词:根据共同关键词计算相似度。
- 主题词:根据主题词或子词计算相似度。
- 引文/参考文献:根据直接引用或共同参考文献计算关系。
- 共引:根据两篇文献是否被相同文献引用计算关系。
- Class1-Class4:根据不同层级的分类信息计算相似度。
- 混合关系:综合关键词、主题词、引文、共引和分类信息。
推荐设置:
- 默认建议使用“引文/参考文献”,适合强调知识承接关系。
- 如果数据中引文信息不完整,可以使用“关键词”或“主题词”。
- 如果希望综合多种证据,可以使用“混合关系”。
- 如果项目中 Class1-Class4 分类质量较高,可以选择对应分类层级。

图9:AI 新兴主题 “文献关系”
3. 设置布局方式
当前用户可选布局主要包括:
- UMAP:默认推荐,适合较大规模文献点云,主题结构更稳定。
- t-SNE:适合观察局部邻近关系,但不要过度解释全局距离。
建议优先使用 UMAP。如果希望对局部小簇关系做探索,可以尝试 t-SNE 对比。



图 10:布局方式选择
4. 设置分析窗口
分析窗口决定哪些文献会进入图中。常用方式有三种:
- 最近 N 年:例如最近 5 年,适合寻找当前前沿主题。
- 自定义年份:例如 2020-2025,适合分析指定阶段。
- 全部年份:适合整体观察,但“新兴”特征会被历史数据稀释。
如果目标是发现新兴主题,推荐使用“最近 N 年”,并根据学科更新速度设置 N:
- 快速变化领域:3-5 年。
- 一般领域:5-8 年。
- 稳定或长期积累领域:8-10 年。

图 11:分析窗口、最近年份数、自定义年份设置
5. 设置历史基线
历史基线用于判断当前文献和主题相对于过去是否新颖。它不会直接出现在图中,但会参与新颖度计算。
可选方式包括:
- 分析窗口之前 N 年:默认推荐,用最近历史作为比较对象。
- 全部历史:适合历史数据完整、希望和全部过去比较的情况。
- 不使用历史基线:只强调当前时间窗口内部的新近程度和结构。
推荐做法:
- 常规分析:使用“分析窗口之前 N 年”,基线年份数可设为 10。
- 数据历史较短:可以减少基线年份数。
- 只想看最近文献空间分布:可以不使用历史基线,但此时新颖度解释应更谨慎。

图12:历史基线与基线年份数设置。
6. 设置最大文献数和最大主题数
为了保证图形清晰,可以限制进入图中的文献数和主题数。
- 最大文献数:控制图中最多显示多少篇文献。
- 最大主题数:控制最多显示多少个 AI 主题。
- 最小关系强度:过滤较弱关系。
- 每篇 Top 关系:每篇文献最多保留多少条最强关系。
- 仅勾选文献:只分析当前勾选的文献。
推荐设置:
- 小样本精读:文献数 50-150,主题数 10-20。
- 大规模探索:文献数 500-1000,主题数 30-50。

图13:最大文献数、最大主题数、最小关系强度
7. 点击确定生成图形
设置完成后点击“确定”。软件会计算文献关系、新颖度指数、主题摘要和二维布局,并打开 AI 新兴主题可视化窗口。

图14:AI 新兴主题可视化窗口
五、第三步:阅读新兴主题图
1. 图形区
图形区是文献地图:
- 每个节点表示一篇文献。
- 节点大小表示文献被引用次数。
- 节点颜色深浅表示新颖度,颜色越深通常表示越新颖。
- 同一主题下的文献使用相同主题颜色和形状。
- 主题名称显示在对应文献簇附近,前面的 #序号 对应左侧主题列表。
- 主题凸包表示该主题文献在图中的空间范围,单篇文献主题不绘制凸包。

图15:中央图形区,标注节点、主题标签、主题凸包和图例。
2. 左侧主题列表
左侧上半部分是主题列表,主要字段包括:
- 序号:与图中主题标签前的 #序号 对应。
- 主题样式:显示该主题的颜色和节点形状。
- 主题:AI 识别出的主题名称。
- 新颖度:该主题的新颖度指数。
- 文献:该主题下进入图中的文献数量。
- 被引:该主题下文献的总被引用次数。
点击某个主题后,图中会高亮该主题的文献,同时下方文献列表会切换为该主题下的文献。

图16:左侧主题列表,展示主题新颖度、文献数和被引列
3. 左侧文献列表
左侧下半部分是文献列表,主要字段包括:
- 序号:当前列表中的文献顺序。
- 年份:文献发表年份。
- 题名:文献标题。
- 新颖度:该文献的新颖度指数。
点击某篇文献后,图中会高亮对应节点。右键文献可以查看原始数据,便于核对题名、年份、引文等信息。

图17:文献列表与“查看原始数据”右键菜单
4. 右侧显示设置
右侧面板用于调整视觉效果:
- 节点大小:放大或缩小文献节点。
- 节点边框:调整节点边框粗细,最小可为 0。
- 节点标签大小:调整文献标签和主题标签字号。
- 英文换行:控制英文主题名称每行最多显示字符数。
- 图形缩放:调整整体缩放。
- 节点标签:显示或隐藏文献标题标签。
- 主题标签:显示或隐藏主题名称。
- 节点标签防重叠:自动减少文献标签重叠。
- 图例:显示或隐藏图例。

图 18:右侧显示设置面板
5. 工具栏常用按钮
窗口上方工具栏包含常用操作:
- 打开:打开已有 .aitopicmap 文件。
- 保存:保存当前图,或保存为 SVG。
- 黑白背景:在黑色和白色背景之间切换。
- 彩色背景:选择自定义背景色。
- 重置:恢复默认显示设置。
- 主题凸包:在关闭凸包、有机包络、凸包之间切换。
- Excel:导出主题、文献和参数数据。
- 退出:关闭窗口。
鼠标滚轮可以缩放图形。按住 Shift + 鼠标左键 可以平移图形。主题文字可以用鼠标左键拖动位置。

图19:顶部工具栏保存、背景、凸包、Excel操作
六、主题和文献的交互操作
1. 修改主题名称
在图中的主题文字上右键,或在左侧主题列表中右键,可以选择“修改主题名称”。修改后,主题列表、图中主题标签和对应文献的主题名称会同步更新。

图 20:右键修改主题名称
2. 修改主题颜色和节点形状
在左侧主题列表中右键主题,可以修改主题颜色和节点形状。节点形状支持圆形、方形、三角形、十字形、菱形和星形。
这适合在公众号配图前对重点主题做视觉强调。

图 21:主题颜色和节点形状右键菜单
3. 调整主题文字字体
在可视化区域空白处右键,可以修改主题文字字体。也可以控制是否显示主题文字边框。默认情况下,主题标签不使用背景矩形,主要通过字体样式增强识别。

图22:主题文字字体设置窗口
4. 查看文献原始数据
在文献节点或文献列表中右键,选择“查看原始数据”,可以打开该文献的原始记录。该功能适合在解释某个前沿节点时核对文献细节。

图23:文献原始数据窗口。
5. 去除节点标签重叠
如果打开节点标签后文字重叠较多,可以在节点或空白区域右键,选择“去除节点标签重叠”,也可以在右侧面板勾选“节点标签防重叠”。
七、保存与导出
1. 保存为 .aitopicmap
.aitopicmap 是 AI 新兴主题图的专用文件格式。它会保存模型数据、文献节点、主题信息、分析参数和显示设置。以后可以重新打开继续查看或调整。
2. 保存为 SVG
保存时如果选择 .svg 扩展名,软件会导出当前可视化图形。SVG 适合用于文献、报告、公众号长图或进一步排版。
3. 导出 Excel
点击工具栏中的 Excel 按钮,可以导出数据表。导出的工作簿通常包含:
- Summary:总体统计。
- Topics:主题新颖度、文献数、被引数等。
- Papers:文献题名、年份、被引、新颖度和坐标。
- Links:文献关系。
- Options:本次分析参数。

图 24:导出的 Excel 表格
八、如何解读结果
1. 高新颖度主题
主题新颖度越高,说明该主题下文献整体更具有新近性、历史差异性或增长性。它通常代表近期更值得关注的研究方向。
注:新颖度高不等于一定重要。还应结合文献数量、总被引次数和具体文献内容判断。
2. 大节点与深色节点
大节点表示被引用次数较高,通常是影响力较大的文献。深色节点表示新颖度较高,通常是更接近当前前沿的文献。
一个值得重点关注的节点,往往同时具备以下特征:
- 节点较大。
- 颜色较深。
- 位于主题簇的核心或连接多个主题附近。
- 对应主题的新颖度较高。
3. 主题凸包
主题凸包表示同一主题文献在图中的大致空间范围。凸包面积较大,说明该主题内部文献分布较分散;凸包较紧凑,说明主题内部文献更集中。
单篇文献主题不会绘制凸包,因为单个点无法形成稳定范围。
4. 不同布局的解释方式
UMAP 和 t-SNE 都是降维布局方法。图中距离可以理解为一种“相似性线索”,但不应被解释为严格的数学距离。
更可靠的解读方式是:
- 看同一主题文献是否形成簇。
- 看某些主题是否接近或交叠。
- 看高新颖度节点是否集中出现在某些区域。
- 看被引高的节点是否位于主题核心位置。
九、参数选择建议
- 文献关系:引文/参考文献或混合关系。
- 布局方式:UMAP。
- 分析窗口:最近 5 年。
- 历史基线:分析窗口之前 10 年。
- 最大文献数:300-500。
- 最大主题数:20-30。
- 节点标签:默认关闭,只保留主题标签。
- 主题凸包:使用有机包络。
十、常见问题
1. 为什么生成不了新兴主题图?
常见原因包括:
- 尚未执行 AI 主题识别。
- 文档缺少年份。
- 当前勾选文献过少,但启用了“仅勾选文献”。
- 数据集中缺少可用于关系计算的关键词、主题词、引文或分类信息。
2. 为什么有些主题没有凸包?
如果一个主题只有一篇文献,系统不会绘制主题凸包。因为单个点无法形成范围。
3. 为什么同一主题的文献没有完全挤在一起?
布局同时考虑文献特征相似性和主题聚拢。系统会尽量让同一主题靠近,但如果某些文献在关键词、引文或分类上差异较大,它们可能仍然分散。
4. 为什么被引高的文献不一定新颖度高?
被引次数表示影响力或关注度,新颖度表示相对于历史和当前时间窗口的创新程度。经典文献可能被引很高,但不一定属于新兴主题。
5. 为什么 t-SNE 和 UMAP 的图不一样?
两者都是降维算法,但优化目标不同。UMAP通常更适合保持整体结构,t-SNE更强调局部邻近关系。因此两种图可以互相参考,但不要把坐标距离解释得过于绝对。