SciMetrics:AI 主题发展潜力指数与桑基图可视化用户手册

本手册用于指导用户在 SciMetrics中完成 AI 主题发展潜力指数计算和 AI 主题桑基图可视化分析。

说明:软件界面中该指数可能显示为“AI 主题发展力指数”,本手册统一称为“AI 主题发展潜力指数”。“桑基图”英文“Sankey 图”。

一、操作方法

1. 使用前准备

在计算指数或绘制桑基图之前,需要先完成数据读取、数据清洗和 AI 主题识别。建议按以下顺序准备:

1. 打开软件,导入待分析的文献数据。

2. 检查文献表中是否包含题名、摘要、关键词、年份、作者、机构、分类、引文或参考文献等字段。

3. 如需使用 AI 自动识别主题,先进入 智能 -> AI 接口配置,填写模型地址、模型名称和 API Key。

4. 在文献数据表中确认需要参与分析的文献已被勾选。如果后续参数选择“仅使用已勾选文献”,未勾选文献不会参与计算。

图1:数据导入后的主界面

建议在开始分析前完成以下检查:

 检查项说明
文献年份AI 主题发展潜力指数和桑基图都依赖年份字段,年份缺失会影响趋势分析。
AI 主题文献需已有 AI 主题,否则指数和桑基图无法生成有效结果。
作者与机构指数中的作者进入、机构进入和机构布局均衡度依赖相关字段。
分类字段学科融合度通常依赖类别 1 / 一级学科等分类字段。
引文数据引文影响力依赖被引次数或参考文献关系,缺失时该维度贡献会降低。

2. 生成或检查 AI 主题

如果当前数据集中还没有 AI 主题,请先生成 AI 主题。

操作步骤:

1. 在主界面进入 智能 -> 文档 -> AI 主题识别。

2. 等待 AI 主题识别完成。

3. 切换到文献表,查看 AI主题 字段是否已有主题内容。

4. 如需人工修正主题,可进入 智能 -> 文档 -> 编辑 AI 主题。

5. 如主题结果需要重新生成,可进入 智能 -> 文档 -> 重置 AI 主题 后再次识别。

图2: AI 主题识别菜单入口

注意事项:

  • 一个文献可以对应一个或多个 AI 主题。
  • 主题名称应尽量稳定、简洁,避免同义词过多造成主题被拆散。
  • 若已做过人工编辑,重新识别或重置 AI 主题可能覆盖原有结果。

3. 计算 AI 主题发展潜力指数

AI 主题发展潜力指数用于识别哪些 AI 主题具有较好的增长趋势、近期活跃度、引用影响、作者和机构进入、学科融合与持续发展基础。

操作步骤:

1. 确认已打开包含 AI 主题的数据集。

2. 进入 指数 -> AI主题指数 -> AI主题发展力指数。

3. 在弹出的保存窗口中选择导出位置。

4. 建议使用默认文件名,或命名为 AI主题发展潜力指数\\\_项目名\\\_日期.xlsx。

5. 点击保存,软件会自动计算并导出 Excel 文件。

图3: AI主题发展力指数菜单入口

导出的 Excel 文件通常包含两个工作表:

工作表内容
AI Topic Growth各 AI 主题的发展潜力指数、排名、分项得分和原始统计量。
Method指数名称、默认参数、计算公式和各分项含义。

AI Topic Growth 工作表中的关键字段如下:

字段含义
Rank主题排名,按综合指数从高到低排列。
TopicAI 主题名称。
AITopicGrowthIndexAI 主题发展潜力综合指数。
TopicScaleScore主题规模得分,反映该主题总体文献规模。
GrowthMomentumScore增长动能得分,反映近年文献增长情况。
CitationImpactScore引文影响得分,反映主题文献平均被引影响。
AuthorEntryScore作者进入得分,反映近年首次进入该主题的作者比例。
InstitutionEntryScore机构进入得分,反映近年首次进入该主题的机构比例。
DisciplineFusionScore学科融合得分,反映主题涉及学科类别的均衡程度。
InstitutionLayoutBalanceScore机构布局均衡得分,反映参与机构分布是否均衡。
TimeWindowStabilityScore时间窗口稳定得分,反映主题是否具有持续产出。
DocumentCount该主题相关文献总量。
RecentDocumentCount最近若干年该主题相关文献数量。
  • AITopicGrowthIndex 越高,表示该主题综合发展潜力越强。
  • 如果某主题 GrowthMomentumScore 高但 TopicScaleScore 低,通常说明该方向规模尚小但增长较快,适合作为新兴机会方向观察。
  • 如果某主题 TopicScaleScore 和 CitationImpactScore 高,但 GrowthMomentumScore 低,通常说明该方向已有积累,但近期增长可能趋缓。
  • 如果 AuthorEntryScore 和 InstitutionEntryScore 高,说明近期有更多新作者、新机构进入,可能代表研究共同体正在扩张。
  • 如果 DisciplineFusionScore 高,说明该主题具有较强跨学科特征,适合用于识别交叉融合方向。

图4:导出的 AI Topic Growth 工作表示例

4. 绘制 AI 主题桑基图可视化

AI 主题桑基图用于观察主题随时间的延续、分化、合流和转移关系。图中每一列代表一个时间片,每个节点代表该时间片中的一个 AI 主题,节点之间的连线表示相邻时间片之间主题的关联强度。

操作步骤:

1. 确认当前数据集已经完成 AI 主题识别。

2. 进入 智能 -> AI主题 -> AI 主题桑基图。

3. 在参数窗口中设置时间切片和连接方式。

4. 点击确定,软件会生成 AI 主题桑基图窗口。

图5: AI 主题桑基图 菜单入口

图6:AI 主题桑基图参数设置窗口

参数说明:

参数默认值说明
时间间隔1每个时间片包含的年份数。1 表示按年展示,3 表示每 3 年合并为一个时间片。
连接方式关键词相似度用于判断相邻时间片中主题之间的关联。可选关键词相似度、主题词相似度、引证关系。
每段最大主题20每个时间片中最多展示的主题数量,按文献数量筛选。
最小相似度0.1只有关联强度达到该阈值的主题连线才会显示。
仅使用已勾选文献默认勾选勾选后只分析当前被选中的文献。

参数选择建议:

分析目标推荐设置
观察年度主题演化时间间隔设为 1,每段最大主题设为 15 到 25。
数据年份较长或主题较多时间间隔设为 2 到 5,减少视觉拥挤。
希望看到更多弱关联适当降低最小相似度,如 0.05 到 0.08。
希望图形更清晰提高最小相似度,如 0.15 到 0.2,并减少每段最大主题数。
关注知识内容延续连接方式选择关键词相似度或主题词相似度。
关注引用脉络延续连接方式选择引证关系。

生成后的窗口主要包含三部分:

区域作用
左侧主题列表显示时间片、主题名称和文献数量,可搜索和选择节点。
中间桑基图展示主题在不同时间片之间的流动关系。
右侧显示设置调整节点大小、连线宽度、连线透明度、曲率、标签大小、缩放比例等。

图7: AI 主题桑基图主窗口

常用交互:

操作效果
鼠标滚轮缩放图形。
Shift + 鼠标左键拖动平移图形视图。
点击左侧主题列表中的主题高亮该主题及相关连线。
点击图形空白处取消高亮选择。
在左侧搜索框输入关键词筛选主题节点。
点击重置按钮恢复默认缩放、背景和显示设置。
点击黑白背景按钮在黑色和白色背景之间切换。

截图占位:选择某一主题节点后的高亮效果。

截图占位:调整连线宽度、透明度和标签大小后的效果。

5. 保存和导出桑基图结果

在 AI 主题桑基图窗口中,可以保存图形工程文件,也可以导出图片或数据。

操作说明
打开打开已有 .sankey 文件。
保存为 .sankey保存桑基图数据和显示设置,便于下次继续编辑。
保存为 .svg导出矢量图,适合插入论文、报告或幻灯片。
导出 Excel导出桑基图节点、连线和参数数据,便于复核和二次分析。

建议:

  • 用于继续编辑时,保存为 .sankey。
  • 用于论文或报告插图时,保存为 .svg。
  • 用于检查节点、连线和相似度数值时,导出 Excel。

6. 常见问题处理

问题可能原因处理方法
无法计算指数数据集中没有 AI 主题先执行 AI 主题识别。
指数结果为空文献没有有效主题或文献表缺失检查文献表、AI主题字段和数据读取状态。
桑基图没有节点没有 AI 主题或年份无法解析检查 AI 主题和年份字段。
桑基图节点很多、图形拥挤每段最大主题数过高或时间间隔过小增大时间间隔,减少每段最大主题数。
桑基图连线过少最小相似度过高或连接方式不适合降低最小相似度,尝试更换连接方式。
某些主题被拆分AI 主题命名不一致或同义词未合并使用编辑 AI 主题功能统一主题名称。
指数排名与直觉不一致指数综合考虑多维指标,不只看发文量同时查看分项得分,判断高分来自哪个维度。

二、原理说明

1. 数据基础

AI 主题发展潜力指数和 AI 主题桑基图都建立在“文献 – AI 主题 – 时间”的基础数据结构之上。

核心数据包括:

数据作用
文献 ID用于连接文献、主题、作者、机构、分类和引文信息。
AI 主题用于定义分析对象,即每个主题的发展潜力和演化关系。
年份用于判断近期增长、时间窗口稳定性和主题演化路径。
作者用于计算作者进入情况。
机构用于计算机构进入和机构布局均衡度。
类别 / 学科用于计算学科融合度。
被引次数 / 参考文献用于计算引文影响或引证关系。
关键词 / 主题词用于计算桑基图中主题之间的内容相似性。

2. AI 主题发展潜力指数原理

AI 主题发展潜力指数不是单纯的发文量排名,而是将主题规模、增长动能、引用影响、主体进入、学科融合、机构布局和时间稳定性综合起来,判断一个主题是否具有持续发展潜力。

系统默认使用最近 3 年作为近期窗口,使用 3 年作为时间稳定性统计窗口。每个分项先在主题之间进行归一化,再按权重加权求和。

综合公式为:

        
    TGPI =   
    0.15 \\\* TopicScale   
    + 0.18 \\\* GrowthMomentum   
    + 0.12 \\\* CitationImpact   
    + 0.12 \\\* AuthorEntry   
    + 0.12 \\\* InstitutionEntry   
    + 0.11 \\\* DisciplineFusion   
    + 0.10 \\\* InstitutionLayoutBalance   
    + 0.10 \\\* TimeWindowStability   
        

其中:

分项含义解释
TopicScale主题规模该主题相关文献总量的归一化值。
GrowthMomentum增长动能最近若干年该主题文献数量的归一化值。
CitationImpact引文影响该主题文献平均被引次数的归一化值。
AuthorEntry作者进入最近若干年首次进入该主题的作者数占该主题作者总数的比例,并归一化。
InstitutionEntry机构进入最近若干年首次进入该主题的机构数占该主题机构总数的比例,并归一化。
DisciplineFusion学科融合该主题相关学科类别分布的 Shannon 均衡度,并归一化。
InstitutionLayoutBalance机构布局均衡该主题相关文献在机构上的 Shannon 均衡度,并归一化。
TimeWindowStability时间窗口稳定按固定时间窗口统计主题文献分布的 Shannon 均衡度,并归一化。

归一化的作用是让不同量纲的指标可以放在同一尺度下比较。例如,文献数量、被引次数、作者比例和 Shannon 均衡度的原始数值范围不同,归一化后才能进行加权合成。

指数解读时应注意:

  • 该指数是相对指数,主要用于同一数据集内不同主题之间的比较。
  • 指数高不代表主题一定“成熟”,而是表示其在当前数据集中呈现较强发展潜力。
  • 对新兴主题而言,综合指数、增长动能、作者进入和机构进入通常更值得关注。
  • 对成熟主题而言,主题规模、引文影响和时间稳定性通常更能体现持续影响。

3. 桑基图可视化原理

AI 主题桑基图将主题演化过程表示为跨时间片的流动关系。

基本流程如下:

1. 根据文献年份确定最早年份和时间范围。

2. 按用户设置的时间间隔切分时间片。

3. 在每个时间片内统计各 AI 主题对应的文献数量。

4. 每个时间片只保留文献数量排名靠前的若干主题。

5. 计算相邻时间片中主题之间的关联强度。

6. 将主题表示为节点,将关联表示为连线,生成桑基图。

节点含义:

  • 每个节点代表一个时间片中的一个 AI 主题。
  • 节点高度与该主题在该时间片中的文献数量相关。
  • 同名主题在相邻时间片中会被优先视为延续关系。

连线含义:

  • 连线表示相邻时间片中两个主题之间存在内容或引证关联。
  • 连线越粗,表示关联强度越高。
  • 连线颜色通常跟随来源主题,便于追踪主题流向。

不同连接方式的计算逻辑:

连接方式原理适用场景
关键词相似度比较两个主题相关文献的关键词集合,使用集合交集和并集计算相似性。观察研究内容是否延续。
主题词相似度比较两个主题相关文献的主题词集合,判断专业术语层面的相似性。观察概念和术语体系演化。
引证关系比较两个主题相关文献的参考文献或引证特征,判断知识基础是否相连。观察知识脉络和引用传统延续。

当使用关键词相似度或主题词相似度时,主题之间的相似度可理解为 Jaccard 相似性:

        
    Similarity = 共同特征数量 / 全部特征数量   
        

当使用引证关系时,系统主要根据共同参考文献或引证特征判断关联强度。共同引证基础越多,主题之间的连线越强。

4. 如何结合指数和桑基图解读主题发展

指数和桑基图适合配合使用:

观察对象指数提供的信息桑基图提供的信息
高潜力主题哪些主题综合潜力更高这些主题是否有连续演化路径
新兴主题哪些主题近期增长明显新主题从哪个历史方向发展而来
稳定主题哪些主题持续产出、影响较稳主题是否长期保持连续流动
分化主题分项得分是否呈现扩张迹象一个主题是否分流为多个方向
融合主题学科融合和机构布局是否较高多条主题流是否汇入同一方向

典型判断方式:

  • 高指数且在桑基图中连续存在:说明该主题既有综合潜力,也有清晰演化基础。
  • 高增长但桑基图中刚出现:可能是新兴主题,需要结合文献内容进一步判断。
  • 桑基图中连线很强但指数不高:说明主题延续性好,但近期增长、进入或融合维度可能不足。
  • 指数高但桑基图连线弱:可能是主题命名变化、关键词差异较大,或该主题具有跳跃式发展特征。

5. 方法局限与使用建议

使用该功能时需注意以下局限:

1. AI 主题识别质量会直接影响指数和桑基图结果。

2. 年份字段缺失或格式不规范,会影响增长和演化分析。

3. 引文数据不足时,引文影响和引证关系的解释应更加谨慎。

4. 不同数据集之间的指数不宜直接比较,除非数据来源、时间范围和清洗规则一致。

5. 若主题命名存在同义词、缩写或中英文混用,应先统一主题名称。

6. 勾选文献会改变分析范围,导出结果时应记录是否使用了“仅使用已勾选文献”。

推荐工作流:

1. 先完成数据清洗和 AI 主题识别。

2. 导出 AI 主题发展潜力指数,确定重点主题。

3. 对重点主题绘制 AI 主题桑基图,观察演化路径。

4. 将指数分项、桑基图流向和代表性文献结合,形成分析结论。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注