本手册用于指导用户在 SciMetrics中完成 AI 主题发展潜力指数计算和 AI 主题桑基图可视化分析。
说明:软件界面中该指数可能显示为“AI 主题发展力指数”,本手册统一称为“AI 主题发展潜力指数”。“桑基图”英文“Sankey 图”。
一、操作方法
1. 使用前准备
在计算指数或绘制桑基图之前,需要先完成数据读取、数据清洗和 AI 主题识别。建议按以下顺序准备:
1. 打开软件,导入待分析的文献数据。
2. 检查文献表中是否包含题名、摘要、关键词、年份、作者、机构、分类、引文或参考文献等字段。
3. 如需使用 AI 自动识别主题,先进入 智能 -> AI 接口配置,填写模型地址、模型名称和 API Key。
4. 在文献数据表中确认需要参与分析的文献已被勾选。如果后续参数选择“仅使用已勾选文献”,未勾选文献不会参与计算。

图1:数据导入后的主界面
建议在开始分析前完成以下检查:
| 检查项 | 说明 |
| 文献年份 | AI 主题发展潜力指数和桑基图都依赖年份字段,年份缺失会影响趋势分析。 |
| AI 主题 | 文献需已有 AI 主题,否则指数和桑基图无法生成有效结果。 |
| 作者与机构 | 指数中的作者进入、机构进入和机构布局均衡度依赖相关字段。 |
| 分类字段 | 学科融合度通常依赖类别 1 / 一级学科等分类字段。 |
| 引文数据 | 引文影响力依赖被引次数或参考文献关系,缺失时该维度贡献会降低。 |
2. 生成或检查 AI 主题
如果当前数据集中还没有 AI 主题,请先生成 AI 主题。
操作步骤:
1. 在主界面进入 智能 -> 文档 -> AI 主题识别。
2. 等待 AI 主题识别完成。
3. 切换到文献表,查看 AI主题 字段是否已有主题内容。
4. 如需人工修正主题,可进入 智能 -> 文档 -> 编辑 AI 主题。
5. 如主题结果需要重新生成,可进入 智能 -> 文档 -> 重置 AI 主题 后再次识别。

图2: AI 主题识别菜单入口
注意事项:
- 一个文献可以对应一个或多个 AI 主题。
- 主题名称应尽量稳定、简洁,避免同义词过多造成主题被拆散。
- 若已做过人工编辑,重新识别或重置 AI 主题可能覆盖原有结果。
3. 计算 AI 主题发展潜力指数
AI 主题发展潜力指数用于识别哪些 AI 主题具有较好的增长趋势、近期活跃度、引用影响、作者和机构进入、学科融合与持续发展基础。
操作步骤:
1. 确认已打开包含 AI 主题的数据集。
2. 进入 指数 -> AI主题指数 -> AI主题发展力指数。
3. 在弹出的保存窗口中选择导出位置。
4. 建议使用默认文件名,或命名为 AI主题发展潜力指数\\\_项目名\\\_日期.xlsx。
5. 点击保存,软件会自动计算并导出 Excel 文件。

图3: AI主题发展力指数菜单入口
导出的 Excel 文件通常包含两个工作表:
| 工作表 | 内容 |
| AI Topic Growth | 各 AI 主题的发展潜力指数、排名、分项得分和原始统计量。 |
| Method | 指数名称、默认参数、计算公式和各分项含义。 |
AI Topic Growth 工作表中的关键字段如下:
| 字段 | 含义 |
| Rank | 主题排名,按综合指数从高到低排列。 |
| Topic | AI 主题名称。 |
| AITopicGrowthIndex | AI 主题发展潜力综合指数。 |
| TopicScaleScore | 主题规模得分,反映该主题总体文献规模。 |
| GrowthMomentumScore | 增长动能得分,反映近年文献增长情况。 |
| CitationImpactScore | 引文影响得分,反映主题文献平均被引影响。 |
| AuthorEntryScore | 作者进入得分,反映近年首次进入该主题的作者比例。 |
| InstitutionEntryScore | 机构进入得分,反映近年首次进入该主题的机构比例。 |
| DisciplineFusionScore | 学科融合得分,反映主题涉及学科类别的均衡程度。 |
| InstitutionLayoutBalanceScore | 机构布局均衡得分,反映参与机构分布是否均衡。 |
| TimeWindowStabilityScore | 时间窗口稳定得分,反映主题是否具有持续产出。 |
| DocumentCount | 该主题相关文献总量。 |
| RecentDocumentCount | 最近若干年该主题相关文献数量。 |
- AITopicGrowthIndex 越高,表示该主题综合发展潜力越强。
- 如果某主题 GrowthMomentumScore 高但 TopicScaleScore 低,通常说明该方向规模尚小但增长较快,适合作为新兴机会方向观察。
- 如果某主题 TopicScaleScore 和 CitationImpactScore 高,但 GrowthMomentumScore 低,通常说明该方向已有积累,但近期增长可能趋缓。
- 如果 AuthorEntryScore 和 InstitutionEntryScore 高,说明近期有更多新作者、新机构进入,可能代表研究共同体正在扩张。
- 如果 DisciplineFusionScore 高,说明该主题具有较强跨学科特征,适合用于识别交叉融合方向。

图4:导出的 AI Topic Growth 工作表示例
4. 绘制 AI 主题桑基图可视化
AI 主题桑基图用于观察主题随时间的延续、分化、合流和转移关系。图中每一列代表一个时间片,每个节点代表该时间片中的一个 AI 主题,节点之间的连线表示相邻时间片之间主题的关联强度。
操作步骤:
1. 确认当前数据集已经完成 AI 主题识别。
2. 进入 智能 -> AI主题 -> AI 主题桑基图。
3. 在参数窗口中设置时间切片和连接方式。
4. 点击确定,软件会生成 AI 主题桑基图窗口。

图5: AI 主题桑基图 菜单入口

图6:AI 主题桑基图参数设置窗口
参数说明:
| 参数 | 默认值 | 说明 |
| 时间间隔 | 1 | 每个时间片包含的年份数。1 表示按年展示,3 表示每 3 年合并为一个时间片。 |
| 连接方式 | 关键词相似度 | 用于判断相邻时间片中主题之间的关联。可选关键词相似度、主题词相似度、引证关系。 |
| 每段最大主题 | 20 | 每个时间片中最多展示的主题数量,按文献数量筛选。 |
| 最小相似度 | 0.1 | 只有关联强度达到该阈值的主题连线才会显示。 |
| 仅使用已勾选文献 | 默认勾选 | 勾选后只分析当前被选中的文献。 |
参数选择建议:
| 分析目标 | 推荐设置 |
| 观察年度主题演化 | 时间间隔设为 1,每段最大主题设为 15 到 25。 |
| 数据年份较长或主题较多 | 时间间隔设为 2 到 5,减少视觉拥挤。 |
| 希望看到更多弱关联 | 适当降低最小相似度,如 0.05 到 0.08。 |
| 希望图形更清晰 | 提高最小相似度,如 0.15 到 0.2,并减少每段最大主题数。 |
| 关注知识内容延续 | 连接方式选择关键词相似度或主题词相似度。 |
| 关注引用脉络延续 | 连接方式选择引证关系。 |
生成后的窗口主要包含三部分:
| 区域 | 作用 |
| 左侧主题列表 | 显示时间片、主题名称和文献数量,可搜索和选择节点。 |
| 中间桑基图 | 展示主题在不同时间片之间的流动关系。 |
| 右侧显示设置 | 调整节点大小、连线宽度、连线透明度、曲率、标签大小、缩放比例等。 |

图7: AI 主题桑基图主窗口
常用交互:
| 操作 | 效果 |
| 鼠标滚轮 | 缩放图形。 |
| Shift + 鼠标左键拖动 | 平移图形视图。 |
| 点击左侧主题列表中的主题 | 高亮该主题及相关连线。 |
| 点击图形空白处 | 取消高亮选择。 |
| 在左侧搜索框输入关键词 | 筛选主题节点。 |
| 点击重置按钮 | 恢复默认缩放、背景和显示设置。 |
| 点击黑白背景按钮 | 在黑色和白色背景之间切换。 |
截图占位:选择某一主题节点后的高亮效果。
截图占位:调整连线宽度、透明度和标签大小后的效果。
5. 保存和导出桑基图结果
在 AI 主题桑基图窗口中,可以保存图形工程文件,也可以导出图片或数据。
| 操作 | 说明 |
| 打开 | 打开已有 .sankey 文件。 |
| 保存为 .sankey | 保存桑基图数据和显示设置,便于下次继续编辑。 |
| 保存为 .svg | 导出矢量图,适合插入论文、报告或幻灯片。 |
| 导出 Excel | 导出桑基图节点、连线和参数数据,便于复核和二次分析。 |
建议:
- 用于继续编辑时,保存为 .sankey。
- 用于论文或报告插图时,保存为 .svg。
- 用于检查节点、连线和相似度数值时,导出 Excel。
6. 常见问题处理
| 问题 | 可能原因 | 处理方法 |
| 无法计算指数 | 数据集中没有 AI 主题 | 先执行 AI 主题识别。 |
| 指数结果为空 | 文献没有有效主题或文献表缺失 | 检查文献表、AI主题字段和数据读取状态。 |
| 桑基图没有节点 | 没有 AI 主题或年份无法解析 | 检查 AI 主题和年份字段。 |
| 桑基图节点很多、图形拥挤 | 每段最大主题数过高或时间间隔过小 | 增大时间间隔,减少每段最大主题数。 |
| 桑基图连线过少 | 最小相似度过高或连接方式不适合 | 降低最小相似度,尝试更换连接方式。 |
| 某些主题被拆分 | AI 主题命名不一致或同义词未合并 | 使用编辑 AI 主题功能统一主题名称。 |
| 指数排名与直觉不一致 | 指数综合考虑多维指标,不只看发文量 | 同时查看分项得分,判断高分来自哪个维度。 |
二、原理说明
1. 数据基础
AI 主题发展潜力指数和 AI 主题桑基图都建立在“文献 – AI 主题 – 时间”的基础数据结构之上。
核心数据包括:
| 数据 | 作用 |
| 文献 ID | 用于连接文献、主题、作者、机构、分类和引文信息。 |
| AI 主题 | 用于定义分析对象,即每个主题的发展潜力和演化关系。 |
| 年份 | 用于判断近期增长、时间窗口稳定性和主题演化路径。 |
| 作者 | 用于计算作者进入情况。 |
| 机构 | 用于计算机构进入和机构布局均衡度。 |
| 类别 / 学科 | 用于计算学科融合度。 |
| 被引次数 / 参考文献 | 用于计算引文影响或引证关系。 |
| 关键词 / 主题词 | 用于计算桑基图中主题之间的内容相似性。 |
2. AI 主题发展潜力指数原理
AI 主题发展潜力指数不是单纯的发文量排名,而是将主题规模、增长动能、引用影响、主体进入、学科融合、机构布局和时间稳定性综合起来,判断一个主题是否具有持续发展潜力。
系统默认使用最近 3 年作为近期窗口,使用 3 年作为时间稳定性统计窗口。每个分项先在主题之间进行归一化,再按权重加权求和。
综合公式为:
TGPI =
0.15 \\\* TopicScale
+ 0.18 \\\* GrowthMomentum
+ 0.12 \\\* CitationImpact
+ 0.12 \\\* AuthorEntry
+ 0.12 \\\* InstitutionEntry
+ 0.11 \\\* DisciplineFusion
+ 0.10 \\\* InstitutionLayoutBalance
+ 0.10 \\\* TimeWindowStability
其中:
| 分项 | 含义 | 解释 |
| TopicScale | 主题规模 | 该主题相关文献总量的归一化值。 |
| GrowthMomentum | 增长动能 | 最近若干年该主题文献数量的归一化值。 |
| CitationImpact | 引文影响 | 该主题文献平均被引次数的归一化值。 |
| AuthorEntry | 作者进入 | 最近若干年首次进入该主题的作者数占该主题作者总数的比例,并归一化。 |
| InstitutionEntry | 机构进入 | 最近若干年首次进入该主题的机构数占该主题机构总数的比例,并归一化。 |
| DisciplineFusion | 学科融合 | 该主题相关学科类别分布的 Shannon 均衡度,并归一化。 |
| InstitutionLayoutBalance | 机构布局均衡 | 该主题相关文献在机构上的 Shannon 均衡度,并归一化。 |
| TimeWindowStability | 时间窗口稳定 | 按固定时间窗口统计主题文献分布的 Shannon 均衡度,并归一化。 |
归一化的作用是让不同量纲的指标可以放在同一尺度下比较。例如,文献数量、被引次数、作者比例和 Shannon 均衡度的原始数值范围不同,归一化后才能进行加权合成。
指数解读时应注意:
- 该指数是相对指数,主要用于同一数据集内不同主题之间的比较。
- 指数高不代表主题一定“成熟”,而是表示其在当前数据集中呈现较强发展潜力。
- 对新兴主题而言,综合指数、增长动能、作者进入和机构进入通常更值得关注。
- 对成熟主题而言,主题规模、引文影响和时间稳定性通常更能体现持续影响。
3. 桑基图可视化原理
AI 主题桑基图将主题演化过程表示为跨时间片的流动关系。
基本流程如下:
1. 根据文献年份确定最早年份和时间范围。
2. 按用户设置的时间间隔切分时间片。
3. 在每个时间片内统计各 AI 主题对应的文献数量。
4. 每个时间片只保留文献数量排名靠前的若干主题。
5. 计算相邻时间片中主题之间的关联强度。
6. 将主题表示为节点,将关联表示为连线,生成桑基图。
节点含义:
- 每个节点代表一个时间片中的一个 AI 主题。
- 节点高度与该主题在该时间片中的文献数量相关。
- 同名主题在相邻时间片中会被优先视为延续关系。
连线含义:
- 连线表示相邻时间片中两个主题之间存在内容或引证关联。
- 连线越粗,表示关联强度越高。
- 连线颜色通常跟随来源主题,便于追踪主题流向。
不同连接方式的计算逻辑:
| 连接方式 | 原理 | 适用场景 |
| 关键词相似度 | 比较两个主题相关文献的关键词集合,使用集合交集和并集计算相似性。 | 观察研究内容是否延续。 |
| 主题词相似度 | 比较两个主题相关文献的主题词集合,判断专业术语层面的相似性。 | 观察概念和术语体系演化。 |
| 引证关系 | 比较两个主题相关文献的参考文献或引证特征,判断知识基础是否相连。 | 观察知识脉络和引用传统延续。 |
当使用关键词相似度或主题词相似度时,主题之间的相似度可理解为 Jaccard 相似性:
Similarity = 共同特征数量 / 全部特征数量
当使用引证关系时,系统主要根据共同参考文献或引证特征判断关联强度。共同引证基础越多,主题之间的连线越强。
4. 如何结合指数和桑基图解读主题发展
指数和桑基图适合配合使用:
| 观察对象 | 指数提供的信息 | 桑基图提供的信息 |
| 高潜力主题 | 哪些主题综合潜力更高 | 这些主题是否有连续演化路径 |
| 新兴主题 | 哪些主题近期增长明显 | 新主题从哪个历史方向发展而来 |
| 稳定主题 | 哪些主题持续产出、影响较稳 | 主题是否长期保持连续流动 |
| 分化主题 | 分项得分是否呈现扩张迹象 | 一个主题是否分流为多个方向 |
| 融合主题 | 学科融合和机构布局是否较高 | 多条主题流是否汇入同一方向 |
典型判断方式:
- 高指数且在桑基图中连续存在:说明该主题既有综合潜力,也有清晰演化基础。
- 高增长但桑基图中刚出现:可能是新兴主题,需要结合文献内容进一步判断。
- 桑基图中连线很强但指数不高:说明主题延续性好,但近期增长、进入或融合维度可能不足。
- 指数高但桑基图连线弱:可能是主题命名变化、关键词差异较大,或该主题具有跳跃式发展特征。
5. 方法局限与使用建议
使用该功能时需注意以下局限:
1. AI 主题识别质量会直接影响指数和桑基图结果。
2. 年份字段缺失或格式不规范,会影响增长和演化分析。
3. 引文数据不足时,引文影响和引证关系的解释应更加谨慎。
4. 不同数据集之间的指数不宜直接比较,除非数据来源、时间范围和清洗规则一致。
5. 若主题命名存在同义词、缩写或中英文混用,应先统一主题名称。
6. 勾选文献会改变分析范围,导出结果时应记录是否使用了“仅使用已勾选文献”。
推荐工作流:
1. 先完成数据清洗和 AI 主题识别。
2. 导出 AI 主题发展潜力指数,确定重点主题。
3. 对重点主题绘制 AI 主题桑基图,观察演化路径。
4. 将指数分项、桑基图流向和代表性文献结合,形成分析结论。