SciMetrics：AI 新兴主题识别与可视化用户

本文介绍如何在 SciMetrics 中利用大模型完成“AI 主题识别 → AI 新兴主题可视化 → 结果解读与导出”的完整流程。前半部分以操作为主，后半部分解释核心计算原理。

图1：软件主界面与顶部 AI 菜单

一、功能适用场景

AI 新兴主题可视化适合回答以下问题：

最近几年哪些研究主题正在变得活跃？
哪些文献代表了某个主题的前沿方向？
一个主题是历史延续，还是由新的知识组合产生？
不同主题下的文献在语义、引文、共引或分类关系上是否接近？
哪些新近文献虽然被引次数不高，但可能具有较高的新颖度？

该功能依赖已有的文献数据和 AI 主题识别结果。基本流程：导入文献数据，执行 AI 主题识别，生成 AI 新兴主题可视化图。

二、数据准备

1. 导入或打开数据集

首先打开 SciMetrics，导入已经下载的文献数据。数据中最好包含文献题名、年份、被引次数、关键词、主题词、引文或分类信息。

如果需要只分析部分文献，可以先在文档列表中勾选目标文献。后续生成新兴主题图时，可以选择“仅勾选文献”。

图2：文献列表图

2. 确认 AI 模型配置

AI 主题识别需要可用的 AI 模型配置。如果模型未配置，在菜单中进入 AI 配置，完成模型、API 地址和密钥等设置。

图3：AI 模型配置窗口

三、第一步：执行 AI 主题识别

1. 打开 AI 主题识别

在主界面顶部菜单中选择：AI → 文档 → AI 主题识别

系统会根据文献题名、摘要或相关文本信息，为每篇文档识别一个或多个主题。识别完成后，这些主题会写入数据集，作为后续桑基图、新兴主题图、主题统计和主题指数计算的基础。

图4： AI 主题识别

2. 是否使用预定义类别

在 AI 主题识别过程中，如果希望主题名称稳定、便于横向比较，可以启用“使用预定义类别”，并输入候选主题名称。AI 会尽量把文献归入这些类别。

如果不启用预定义类别，AI 会根据文献内容自动总结主题。这种方式更适合探索未知主题，但不同批次之间的主题命名可能会略有差异。

推荐做法：

探索性分析：不使用预定义类别，让 AI 自动发现主题。
已有研究框架：使用预定义类别，便于形成稳定的主题体系。
准备做新兴主题图：建议先检查主题名称，必要时使用“编辑 AI 主题”进行修正。

图5：AI 主题识别设置窗口

3. 等待 AI 主题识别完成

执行后，软件会使用智能体分批调用 AI 模型。状态栏会显示当前批次、已更新数量和完成状态。

识别完成后，可以在文档表或主题相关字段中查看每篇文献的 AI 主题。

图6：AI 主题识别运行过程中的进度状态栏

4. 编辑或重置 AI 主题

如果发现主题名称不准确，可以对其进行修改和编辑：

图7：编辑 AI 主题

四、第二步：生成 AI 新兴主题可视化

1. 打开新兴主题可视化入口

完成 AI 主题识别后，在主界面顶部菜单中选择：AI → AI 主题 → AI 新兴主题可视化

系统会弹出参数设置窗口，用于选择文献关系、布局方式、分析年份和历史基线。

图8： AI 新兴主题可视化

2. 设置文献关系

“文献关系”决定系统如何计算两篇文献之间是否接近。当前支持以下方式：

关键词：根据共同关键词计算相似度。
主题词：根据主题词或子词计算相似度。
引文/参考文献：根据直接引用或共同参考文献计算关系。
共引：根据两篇文献是否被相同文献引用计算关系。
Class1-Class4：根据不同层级的分类信息计算相似度。
混合关系：综合关键词、主题词、引文、共引和分类信息。

推荐设置：

默认建议使用“引文/参考文献”，适合强调知识承接关系。
如果数据中引文信息不完整，可以使用“关键词”或“主题词”。
如果希望综合多种证据，可以使用“混合关系”。
如果项目中 Class1-Class4 分类质量较高，可以选择对应分类层级。

图9：AI 新兴主题 “文献关系”

3. 设置布局方式

当前用户可选布局主要包括：

UMAP：默认推荐，适合较大规模文献点云，主题结构更稳定。
t-SNE：适合观察局部邻近关系，但不要过度解释全局距离。

建议优先使用 UMAP。如果希望对局部小簇关系做探索，可以尝试 t-SNE 对比。

图 10：布局方式选择

4. 设置分析窗口

分析窗口决定哪些文献会进入图中。常用方式有三种：

最近 N 年：例如最近 5 年，适合寻找当前前沿主题。
自定义年份：例如 2020-2025，适合分析指定阶段。
全部年份：适合整体观察，但“新兴”特征会被历史数据稀释。

如果目标是发现新兴主题，推荐使用“最近 N 年”，并根据学科更新速度设置 N：

快速变化领域：3-5 年。
一般领域：5-8 年。
稳定或长期积累领域：8-10 年。

图 11：分析窗口、最近年份数、自定义年份设置

5. 设置历史基线

历史基线用于判断当前文献和主题相对于过去是否新颖。它不会直接出现在图中，但会参与新颖度计算。

可选方式包括：

分析窗口之前 N 年：默认推荐，用最近历史作为比较对象。
全部历史：适合历史数据完整、希望和全部过去比较的情况。
不使用历史基线：只强调当前时间窗口内部的新近程度和结构。

推荐做法：

常规分析：使用“分析窗口之前 N 年”，基线年份数可设为 10。
数据历史较短：可以减少基线年份数。
只想看最近文献空间分布：可以不使用历史基线，但此时新颖度解释应更谨慎。

图12：历史基线与基线年份数设置。

6. 设置最大文献数和最大主题数

为了保证图形清晰，可以限制进入图中的文献数和主题数。

最大文献数：控制图中最多显示多少篇文献。
最大主题数：控制最多显示多少个 AI 主题。
最小关系强度：过滤较弱关系。
每篇 Top 关系：每篇文献最多保留多少条最强关系。
仅勾选文献：只分析当前勾选的文献。

推荐设置：

小样本精读：文献数 50-150，主题数 10-20。
大规模探索：文献数 500-1000，主题数 30-50。

图13：最大文献数、最大主题数、最小关系强度

7. 点击确定生成图形

设置完成后点击“确定”。软件会计算文献关系、新颖度指数、主题摘要和二维布局，并打开 AI 新兴主题可视化窗口。

图14：AI 新兴主题可视化窗口

五、第三步：阅读新兴主题图

1. 图形区

图形区是文献地图：

每个节点表示一篇文献。
节点大小表示文献被引用次数。
节点颜色深浅表示新颖度，颜色越深通常表示越新颖。
同一主题下的文献使用相同主题颜色和形状。
主题名称显示在对应文献簇附近，前面的 #序号对应左侧主题列表。
主题凸包表示该主题文献在图中的空间范围，单篇文献主题不绘制凸包。

图15：中央图形区，标注节点、主题标签、主题凸包和图例。

2. 左侧主题列表

左侧上半部分是主题列表，主要字段包括：

序号：与图中主题标签前的 #序号对应。
主题样式：显示该主题的颜色和节点形状。
主题：AI 识别出的主题名称。
新颖度：该主题的新颖度指数。
文献：该主题下进入图中的文献数量。
被引：该主题下文献的总被引用次数。

点击某个主题后，图中会高亮该主题的文献，同时下方文献列表会切换为该主题下的文献。

图16：左侧主题列表，展示主题新颖度、文献数和被引列

3. 左侧文献列表

左侧下半部分是文献列表，主要字段包括：

序号：当前列表中的文献顺序。
年份：文献发表年份。
题名：文献标题。
新颖度：该文献的新颖度指数。

点击某篇文献后，图中会高亮对应节点。右键文献可以查看原始数据，便于核对题名、年份、引文等信息。

图17：文献列表与“查看原始数据”右键菜单

4. 右侧显示设置

右侧面板用于调整视觉效果：

节点大小：放大或缩小文献节点。
节点边框：调整节点边框粗细，最小可为 0。
节点标签大小：调整文献标签和主题标签字号。
英文换行：控制英文主题名称每行最多显示字符数。
图形缩放：调整整体缩放。
节点标签：显示或隐藏文献标题标签。
主题标签：显示或隐藏主题名称。
节点标签防重叠：自动减少文献标签重叠。
图例：显示或隐藏图例。

图 18：右侧显示设置面板

5. 工具栏常用按钮

窗口上方工具栏包含常用操作：

打开：打开已有 .aitopicmap 文件。
保存：保存当前图，或保存为 SVG。
黑白背景：在黑色和白色背景之间切换。
彩色背景：选择自定义背景色。
重置：恢复默认显示设置。
主题凸包：在关闭凸包、有机包络、凸包之间切换。
Excel：导出主题、文献和参数数据。
退出：关闭窗口。

鼠标滚轮可以缩放图形。按住 Shift + 鼠标左键可以平移图形。主题文字可以用鼠标左键拖动位置。

图19：顶部工具栏保存、背景、凸包、Excel操作

六、主题和文献的交互操作

1. 修改主题名称

在图中的主题文字上右键，或在左侧主题列表中右键，可以选择“修改主题名称”。修改后，主题列表、图中主题标签和对应文献的主题名称会同步更新。

图 20：右键修改主题名称

2. 修改主题颜色和节点形状

在左侧主题列表中右键主题，可以修改主题颜色和节点形状。节点形状支持圆形、方形、三角形、十字形、菱形和星形。

这适合在公众号配图前对重点主题做视觉强调。

图 21：主题颜色和节点形状右键菜单

3. 调整主题文字字体

在可视化区域空白处右键，可以修改主题文字字体。也可以控制是否显示主题文字边框。默认情况下，主题标签不使用背景矩形，主要通过字体样式增强识别。

图22：主题文字字体设置窗口

4. 查看文献原始数据

在文献节点或文献列表中右键，选择“查看原始数据”，可以打开该文献的原始记录。该功能适合在解释某个前沿节点时核对文献细节。

图23：文献原始数据窗口。

5. 去除节点标签重叠

如果打开节点标签后文字重叠较多，可以在节点或空白区域右键，选择“去除节点标签重叠”，也可以在右侧面板勾选“节点标签防重叠”。

七、保存与导出

1. 保存为 .aitopicmap

.aitopicmap 是 AI 新兴主题图的专用文件格式。它会保存模型数据、文献节点、主题信息、分析参数和显示设置。以后可以重新打开继续查看或调整。

2. 保存为 SVG

保存时如果选择 .svg 扩展名，软件会导出当前可视化图形。SVG 适合用于文献、报告、公众号长图或进一步排版。

3. 导出 Excel

点击工具栏中的 Excel 按钮，可以导出数据表。导出的工作簿通常包含：

Summary：总体统计。
Topics：主题新颖度、文献数、被引数等。
Papers：文献题名、年份、被引、新颖度和坐标。
Links：文献关系。
Options：本次分析参数。

图 24：导出的 Excel 表格

八、如何解读结果

1. 高新颖度主题

主题新颖度越高，说明该主题下文献整体更具有新近性、历史差异性或增长性。它通常代表近期更值得关注的研究方向。

注：新颖度高不等于一定重要。还应结合文献数量、总被引次数和具体文献内容判断。

2. 大节点与深色节点

大节点表示被引用次数较高，通常是影响力较大的文献。深色节点表示新颖度较高，通常是更接近当前前沿的文献。

一个值得重点关注的节点，往往同时具备以下特征：

节点较大。
颜色较深。
位于主题簇的核心或连接多个主题附近。
对应主题的新颖度较高。

3. 主题凸包

主题凸包表示同一主题文献在图中的大致空间范围。凸包面积较大，说明该主题内部文献分布较分散；凸包较紧凑，说明主题内部文献更集中。

单篇文献主题不会绘制凸包，因为单个点无法形成稳定范围。

4. 不同布局的解释方式

UMAP 和 t-SNE 都是降维布局方法。图中距离可以理解为一种“相似性线索”，但不应被解释为严格的数学距离。

更可靠的解读方式是：

看同一主题文献是否形成簇。
看某些主题是否接近或交叠。
看高新颖度节点是否集中出现在某些区域。
看被引高的节点是否位于主题核心位置。

九、参数选择建议

文献关系：引文/参考文献或混合关系。
布局方式：UMAP。
分析窗口：最近 5 年。
历史基线：分析窗口之前 10 年。
最大文献数：300-500。
最大主题数：20-30。
节点标签：默认关闭，只保留主题标签。
主题凸包：使用有机包络。

十、常见问题

1. 为什么生成不了新兴主题图？

常见原因包括：

尚未执行 AI 主题识别。
文档缺少年份。
当前勾选文献过少，但启用了“仅勾选文献”。
数据集中缺少可用于关系计算的关键词、主题词、引文或分类信息。

2. 为什么有些主题没有凸包？

如果一个主题只有一篇文献，系统不会绘制主题凸包。因为单个点无法形成范围。

3. 为什么同一主题的文献没有完全挤在一起？

布局同时考虑文献特征相似性和主题聚拢。系统会尽量让同一主题靠近，但如果某些文献在关键词、引文或分类上差异较大，它们可能仍然分散。

4. 为什么被引高的文献不一定新颖度高？

被引次数表示影响力或关注度，新颖度表示相对于历史和当前时间窗口的创新程度。经典文献可能被引很高，但不一定属于新兴主题。

5. 为什么 t-SNE 和 UMAP 的图不一样？

两者都是降维算法，但优化目标不同。UMAP通常更适合保持整体结构，t-SNE更强调局部邻近关系。因此两种图可以互相参考，但不要把坐标距离解释得过于绝对。