作者归档：admin

SciMetrics：AI主题竞争力指数与分布图可视化用户手册

发表评论

本手册用于指导用户在 SciMetrics 中完成 AI 主题竞争力指数计算、AI 主题竞争分布图生成、地形图观察、热力矩阵辅助分析与结果导出。

图1：SciMetrics “指数”和“AI”菜单

一、操作方法

1. 功能适用场景

AI 主题竞争力指数与分布图适合回答以下问题：

哪些作者、机构或国家在某些 AI 主题上具有更强竞争贡献？
某个主题的主要竞争主体是谁？
高竞争贡献论文在主题空间中集中在哪里？
不同 AI 主题之间是否形成相近的竞争格局？
能否同时用指数表、分布图、地形图和热力矩阵支撑报告结论？

该功能包含两个层次：

层次	功能	主要用途
指数层	AI 主题竞争力指数	导出作者、机构、国家在各 AI 主题上的竞争力矩阵
可视化层	AI 主题竞争分布图	用论文节点、主题空间、地形峰值和热力矩阵展示竞争格局

图2：AI 主题竞争分布图窗口

2. 准备数据

2.1 打开或导入数据集

首先打开 SciMetrics，并导入已经整理好的文献数据。建议数据中至少包含：

数据字段	用途
题名	显示论文节点和论文列表
年份	支持分布图模型的年份信息
被引次数	参与竞争贡献计算，并决定节点大小
AI 主题	决定论文所属主题和竞争力矩阵列
作者	生成作者维度竞争力指数和主体着色
机构	生成机构维度竞争力指数和主体着色
国家	生成国家维度竞争力指数和主体着色
关键词、主题词、引用、分类	用于构建论文间混合关系和空间布局

如果只希望分析部分文献，可先在文献列表中勾选目标论文。后续指数和分布图窗口中的“仅使用勾选文献”会读取这些勾选状态。

图3：数据集后的文献列表

2.2 生成或检查 AI 主题

进入：

AI → 文档 → AI 主题识别

系统会为文献生成 AI 主题。AI 主题是竞争力指数和分布图的共同基础，没有 AI 主题时无法计算。

生成后建议检查：

文献是否已经写入 AI 主题；
主题名称是否清晰、可解释；
同义或近义主题是否需要合并；
明显错误的主题是否需要修改。

如需调整，可使用：

AI → 文档 → 编辑 AI 主题
AI → 文档 → 替换 AI 主题
AI → 文档 → 重置 AI 主题

图4：AI 主题识别菜单

2.3 检查作者、机构和国家数据

竞争力指数支持三个主体维度：

维度	使用的数据
作者	作者表和文献-作者关系
机构	机构表和文献-机构关系
国家	国家表和文献-国家关系

建议在计算前检查作者、机构、国家标签页：

是否存在明显重复或错误名称；
是否已经完成必要的作者消歧、机构规范化或国家规范化；
如果只分析部分主体，是否已经勾选目标主体；
文献与主体的关联是否完整。

3. 导出 AI 主题竞争力指数

进入：

指数 → AI 主题竞争力指数

系统会弹出指数计算选项窗口。

选项	含义	建议
仅使用勾选文献	只计算当前勾选的文献	做专题子集分析时勾选
仅使用勾选主体	只计算勾选的作者、机构、国家	做重点主体比较时勾选

如果取消勾选，系统会使用全部文献或全部主体。数据量较大时计算可能耗时较长，软件会在后台执行。

图5：AI主题竞争力指数入口

图6：AI 主题竞争力指数选项窗口

点击“确定”后选择保存位置。系统会导出 Excel 文件，默认文件名类似：

AITopicCompetitivenessIndex_yyyyMMdd_HHmmss.xlsx

Excel 中主要包含：

工作表	内容
Content	工作表目录
Author Competitiveness	作者-主题归一化竞争力矩阵
Affiliation Competitiveness	机构-主题归一化竞争力矩阵
Country Competitiveness	国家-主题归一化竞争力矩阵
Author Raw Score	作者-主题下论文原始贡献的累计值
Affiliation Raw Score	机构-主题下论文原始贡献的累计值
Country Raw Score	国家-主题下论文原始贡献的累计值
Method	指标公式、归一化方式和数据范围说明

图7：AI主题竞争力指数 Excel

4. 生成 AI 主题竞争分布图

完成 AI 主题识别并确认主体数据后，进入：

AI → AI主题 → AI 主题竞争分布图

也可以在文献数据集的右键菜单中选择“AI 主题竞争分布图”。

系统会弹出维度选择窗口，用于确定本次分布图以哪类主体作为竞争维度：

维度	适合问题
作者	哪些学者在不同 AI 主题中贡献突出
机构	哪些高校、科研院所或企业在不同主题中占优
国家	哪些国家或地区在不同 AI 主题中表现更强

窗口中同样提供“仅使用勾选文献”和“仅使用勾选主体”。确认后，系统会计算竞争力指数，并生成分布图模型。

图8：AI 主题竞争分布图` 菜单入口

图9：AI 主题竞争分布图维度选择窗口

5. 认识分布图窗口

生成完成后会打开 AI 主题竞争分布图窗口。窗口主要分为五个区域：

区域	功能
顶部菜单	打开、保存、语言、帮助等
顶部工具栏	打开、保存、背景、重置、主题凸包、同主题选择、导出 Excel、退出
左侧主题与论文列表	查看主题竞争贡献、论文竞争贡献、论文数量和被引次数
中央可视化页签	在“分布图”“地形图”“热力矩阵”之间切换
右侧设置页签	分别调整分布图、地形图和热力矩阵参数

图10：AI 主题竞争分布图窗口

中央区域包含三个页签：

页签	说明
分布图	以论文为节点展示竞争贡献在主题空间中的分布
地形图	将主题竞争贡献转为山峰和地形表面
热力矩阵	以主体-主题矩阵补充展示竞争力数值

6. 阅读左侧主题列表和论文列表

左侧上半部分是主题列表。常见列包括：

列	含义
序号	主题在当前视图中的显示序号
主题样式	主题颜色和节点形状
主题	AI 主题名称
竞争贡献	该主题归一化后的竞争贡献强度
论文	进入图中的论文数量
被引	该主题论文的总被引次数

点击某个主题后：

分布图会高亮该主题下的论文节点；
地形图会同步高亮相应主题；
论文列表会切换为该主题下的论文；
底部状态栏显示主题竞争贡献。

左侧下半部分是论文列表。常见列包括：

列	含义
序号	论文在当前列表中的排序
年份	论文发表年份
题名	论文题名
竞争贡献	该论文在所选维度下的竞争贡献
被引	论文被引次数

点击某篇论文后，分布图会高亮该论文及同主题论文组。

图11：AI 主题竞争分布图主题列表

7. 阅读分布图视图

“分布图”页签是新版功能的核心视图。

基本含义如下：

图形元素	含义
论文节点	每个节点表示一篇进入模型的论文
节点大小	通常与被引次数相关，被引越高节点越大
节点颜色	可按竞争贡献着色，也可按作者、机构、国家主体着色
节点形状	用于区分主题，可自定义为圆形、方形、三角形、十字、菱形、星形
主题标签	显示主题编号和主题名称
主题凸包	用半透明边界圈出同一主题论文的空间范围
图例	解释节点大小、竞争贡献颜色、主题颜色或主体颜色

图12：AI 主题竞争分布图可视化

7.1 分布图右侧设置

右侧“分布图”设置页签包含以下常用参数：

参数	作用
节点大小	整体放大或缩小论文节点
节点边框	调整论文节点边框粗细
主题文字大小	调整主题标签字号
英文换行长度	控制英文主题名称或图例文字的换行
大小差异	调整节点大小差异的明显程度
图形缩放	放大或缩小分布图
论文标签位置	控制论文标签显示在节点右侧、右上、上方或下方
节点着色	在“按竞争贡献”和“按主体”之间切换
主体类型	当按主体着色时，选择作者、机构或国家
论文标签	是否显示论文标签
主题标签	是否显示主题标签
避免标签重叠	自动减少论文标签重叠
主题图例	是否显示主题图例
主体图例	是否显示主体图例
图例数值	是否在图例中显示数量或贡献值
图例换行长度	控制图例文字换行

截图占位 18：分布图右侧设置面板，展示节点大小、节点着色、主体类型、标签和图例开关。

图13：AI 主题竞争分布图参数调整

7.2 节点着色方式

分布图支持两种主要着色方式：

着色方式	解释	适用场景
按竞争贡献	颜色深浅表示论文竞争贡献高低	查找高贡献论文和高贡献区域
按主体	根据作者、机构或国家给节点分配颜色	观察主体在主题空间中的分布

如果选择“按主体”，需要数据集中存在文献与作者、机构或国家的关联。若当前图文件没有原始主体映射数据，或所选主体数据不可用，系统会回退为按竞争贡献着色。

图14：AI 按竞争贡献着色的分布图

7.3 主题样式编辑

在左侧主题列表中右键某个主题，可以进行以下操作：

操作	作用
修改主题名称	修改当前分布图中的主题显示名称
删除主题	从当前视图中移除该主题及其论文节点和连线
颜色	修改该主题颜色
节点形状	设置该主题的节点形状

可选节点形状包括：

圆形；
方形；
三角形；
十字；
菱形；
星形。

这些设置会影响分布图中的节点显示，也会影响图例和保存后的图文件。

图15：AI 主题列表右键菜单

7.4 主题凸包

顶部工具栏中的“凸包”按钮用于切换主题范围显示。点击后会在三种模式之间循环：

模式	说明
无凸包	不显示主题边界
有机凸包	使用更贴合节点分布的柔和边界
凸包	使用较规整的几何边界

主题凸包适合在报告中展示不同主题在论文空间中的范围，但如果主题很多或节点过密，可以关闭凸包以减少遮挡。

图16：AI主题分布凸包效果图

7.5 节点选择和拖动

分布图支持交互式调整：

操作	效果
鼠标滚轮	缩放分布图
Shift + 左键拖动空白处	平移分布图
点击主题	高亮主题论文
点击论文	高亮论文及同主题论文组
顶部“选择同类节点”	选中当前论文所在主题的全部节点
拖动选中节点	移动同主题节点组
拖动主题标签	手动调整主题标签位置
点击空白处	清除当前高亮

在制作报告图片时，可以先选中某个主题或论文，再微调节点组和主题标签，使图形更清晰。

图17：AI主题节点高亮的效果

7.6 右键功能

分布图中可通过右键菜单进行补充操作：

位置	右键功能
主题标签或空白区域	设置主题字体
论文节点	查看原始数据
论文节点或空白区域	处理论文标签重叠

“查看原始数据”会尝试打开该论文在本地缓存中的原始记录，便于从可视化结果回到文献详情。

图18：分布图右键菜单修改字体

8. 阅读地形图视图

切换到“地形图”页签后，系统会把竞争分布图转换为三维地形表达。

地形图的基本含义：

图形元素	含义
山峰	AI 主题
山峰高度	主题竞争贡献强度
山峰位置	来自分布图中的主题空间位置
点	主题内论文节点
点颜色	可按竞争贡献或主体着色
主题图例	展示主题名称、编号和贡献值
主体图例	展示作者、机构或国家颜色

图19：AI主题地形图视图全景

8.1 地形图右侧设置

右侧“地形图”设置页签包含：

参数	作用
图形缩放	放大或缩小地形图
旋转角度	调整左右旋转视角
视角高度	调整俯视或平视角度
山体强度	调整山峰高度的视觉强弱
主题间距	调整主题山峰之间的距离
节点大小	调整地形图中的论文点大小
主题文字大小	调整地形图主题标签字号
高贡献标签数	控制显示多少个高竞争贡献主题标签
大山头标签数	控制显示多少个大规模主题标签
显示引导线	控制主题标签与山峰之间的引导线
节点着色	选择按竞争贡献或按主体着色
主体类型	选择作者、机构或国家
显示主题编号	是否在主题标签中显示编号
显示主题名称	是否在主题标签中显示名称
主题图例	是否显示主题图例
图例数值	是否显示贡献值或数量
主体图例	是否显示主体颜色图例

“高贡献标签数”用于控制地形图中显示多少个高竞争贡献主题标签。

8.2 地形图交互

地形图支持以下鼠标操作：

操作	效果
鼠标滚轮	缩放地形图
左键拖动	旋转地形图
右键拖动	平移地形图
点击主题附近	高亮主题
右键空白处	打开主题文字字体设置

地形图适合用于展示整体竞争地貌，例如某个主题形成明显高峰、多个主题形成相邻峰群，或者某类主体在高贡献区域中分布集中。

9. 阅读热力矩阵视图

“热力矩阵”页签用于补充展示主体-主题竞争力矩阵。它与旧的“AI 主题竞争热力图”功能有关，但在新版分布图窗口中作为辅助页签出现。

热力矩阵的基本含义：

元素	含义
行	作者、机构或国家主体
列	AI 主题
单元格颜色	竞争力强弱
单元格数值	原始分数或归一化分数
主题编号	与主题列表和分布图主题对应

图20：AI主题分布热力图

右侧“热力矩阵”设置包括：

参数	作用
主题数	控制显示的主题数量
主体数	控制显示的主体数量
标签大小	调整行列文字字号
主题文字角度	调整主题列标签旋转角度
原始分数	在原始贡献和归一化竞争力之间切换
显示主题编号	是否显示主题编号
显示主题名称	是否显示主题名称
显示数值	是否在单元格中显示数值
图例	是否显示热力矩阵图例
交换行列	将主体和主题轴对调
矩阵聚类	根据竞争力模式重排行列，使相似主体或主题靠近
重置矩阵聚类	恢复原始排序

热力矩阵适合查看精确的主体-主题对应关系。若需要导出独立热力图 SVG，可继续使用旧的“AI 主题竞争热力图”功能；新版分布图窗口中的 SVG 保存主要导出分布图视图。

10. 背景、重置和语言

顶部工具栏提供常用全局操作：

按钮	作用
打开	打开 .topiccompetitionmap 文件
保存	保存 .topiccompetitionmap 或导出 SVG
黑白背景	在黑色和白色背景之间切换
自定义背景	通过颜色选择器设置背景色
重置	恢复默认显示参数、视角、标签和背景
凸包	切换主题凸包模式
选择同类节点	选择当前论文同主题节点组
Excel	导出分布图数据
退出	关闭窗口

背景颜色会同步应用于分布图、地形图和热力矩阵。深色背景适合屏幕演示，浅色背景适合 Word、论文和打印材料。

11. 保存、打开和导出

11.1 保存为 .topiccompetitionmap

在分布图窗口点击“保存”，选择 AI 主题竞争分布图文件格式时，系统会保存为：

*.topiccompetitionmap

该文件用于保存 AI 主题竞争分布图模型和显示样式。

保存内容包括：

论文节点、主题、连线和布局坐标；
主题颜色、节点形状和标签位置；
分布图显示设置；
背景颜色；
图例、标签、凸包等渲染设置。

需要注意：.topiccompetitionmap 主要保存分布图模型和样式。若单独打开该文件时没有原始数据集上下文，按主体着色和内嵌热力矩阵可能无法完整恢复，系统会回退到按竞争贡献着色，或隐藏热力矩阵页签。

11.2 打开 .topiccompetitionmap

可以从分布图窗口工具栏点击“打开”，也可以在主界面打开 .topiccompetitionmap 文件。打开后可继续查看分布图，并调整已有显示样式。

11.3 导出 SVG

在保存窗口中选择 SVG 文件格式时，系统会导出当前分布图模型的 SVG 图像。SVG 适合插入 Word、PPT、论文或继续在矢量软件中编辑。

说明：当前 SVG 导出由分布图视图完成，主要输出分布图画面。如果需要保存地形图或热力矩阵画面，建议使用截图工具；如果需要独立热力图 SVG，可使用“AI 主题竞争热力图”功能。

11.4 导出 Excel

点击顶部工具栏中的 Excel 按钮，可导出分布图数据。默认文件名类似：

ai_topic_competition_distribution_data_yyyyMMdd_HHmmss.xlsx

虽然文件名和部分字段沿用主题竞争分布图结构，但在 AI 主题竞争分布图中，CompetitionContribution 等字段实际表示竞争贡献。

Excel 中主要工作表包括：

工作表	内容
Summary	节点数、连线数、主题数等概要
Topics	主题竞争贡献、论文数、被引、坐标
Papers	论文竞争贡献、年份、被引、坐标
Links	论文间关系
Settings	分布图模型参数

12. 推荐工作流

建议按以下流程完成一次分析：

导入或打开数据集
→ 生成或检查 AI 主题
→ 检查作者、机构、国家数据
→ 需要时勾选文献和主体
→ 导出 AI 主题竞争力指数 Excel
→ 生成 AI 主题竞争分布图
→ 在分布图中查看高贡献论文和主体分布
→ 在地形图中观察主题竞争峰值
→ 在热力矩阵中核对主体-主题数值
→ 调整颜色、形状、标签、图例和背景
→ 保存 `.topiccompetitionmap`，导出 SVG、Excel 或截图
→ 将指数表、分布图、地形图和热力矩阵写入报告

二、原理说明

1. 数据基础

AI 主题竞争力指数和 AI 主题竞争分布图依赖同一批基础数据：

数据	作用
文献	竞争贡献的基本单位
AI 主题	定义竞争的主题方向
被引次数	衡量文献在主题中的引用贡献
作者、机构、国家	竞争主体
文献-主体关系	将文献贡献分配给作者、机构或国家
关键词、主题词、引用、共引、分类	构建论文间关系和空间布局

系统优先读取专门的文献-主题关系表；如果没有，则从文献表中的 AI 主题字段读取主题，并按分隔符拆分多主题。

2. AI 主题竞争力指数原理

AI 主题竞争力指数的目标，是计算某个主体在某个 AI 主题中的相对竞争贡献。

设：

d 表示一篇文献；
t 表示一个 AI 主题；
e 表示一个主体，可以是作者、机构或国家；
T(d) 表示文献 d 所属的 AI 主题集合；
Citation(d) 表示文献 d 的被引次数。

2.1 主题分摊

如果一篇文献属于多个 AI 主题，系统会按主题数量平均分摊：

TopicWeight(d,t) = 1 / |T(d)|

这样可以避免多主题文献在每个主题中都被重复计为完整贡献。

2.2 引用平滑

当前默认使用引用平滑：

CitationWeight(d) = Citation(d) + 1

这样零被引文献仍然可以贡献少量权重，不会在计算中完全消失。

2.3 主题内归一分母

对每个主题 t，系统计算该主题下所有文献的平滑引用总量：

TopicCitationTotal(t) = sum(Citation(i) + 1), i 属于主题 t

2.4 文献对主题的贡献

一篇文献 d 对主题 t 的贡献为：

Contribution(d,t) = 1 / |T(d)| * (Citation(d) + 1) / TopicCitationTotal(t)

如果关闭引用平滑，则公式中的 Citation(d) + 1 会改为 Citation(d)。

2.5 主体原始分数

如果主体 e 与文献 d 存在关联，并且文献 d 属于主题 t，则该文献贡献会计入主体 e 在主题 t 下的原始分数：

RawScore(e,t) = sum Contribution(d,t)

当前实现不按同一文献中的作者数、机构数或国家数再次分摊。也就是说，只要某作者、机构或国家参与了该文献，该主体在对应维度中会获得该文献对主题的完整贡献。

2.6 按主题归一化

为了比较同一主题下不同主体的竞争力，系统对每个主题独立归一化：

TCI(e,t) = RawScore(e,t) / max_e RawScore(e,t)

归一化后，每个主题中最高主体的竞争力为 1，其余主体介于 0 到 1 之间。

3. 分布图生成原理

AI 主题竞争分布图基于论文关系布局和竞争贡献计算，把论文、主题和主体映射到同一个可视空间中。

当前分布图模型的主要参数为：

参数	当前实现
论文关系	混合关系
布局方式	UMAP
分析年份	全部年份
历史基线	不使用历史基线
最大论文数	用户设定
最大主题数	用户设定
最小关系强度	0.08
每篇论文保留关系	Top 8

系统先根据关键词、主题词、引用、共引和分类等信息构建论文间混合关系，再用 UMAP 将论文投影到二维空间。随后，系统计算论文与主题的竞争贡献，并写入分布图模型：

数据项	含义
论文竞争贡献	论文在其主题中的归一化贡献强度
论文归一化贡献	论文在其主题中的归一化贡献强度
论文原始贡献	按引用和主题归属累计得到的原始贡献
论文原始贡献	按引用和主题归属累计得到的原始贡献
主题竞争贡献	同一主题内论文贡献的综合结果
主题原始贡献	主题下论文原始贡献的累计值

因此，在导出的分布图数据 Excel 中，如果看到 CompetitionContribution，应按“竞争贡献”解释，而不是按“竞争贡献”解释。

4. 分布图可视化原理

分布图把论文、主题和主体映射到同一个二维画面：

可视化编码	数据含义
节点位置	论文间混合关系布局结果
节点大小	论文被引次数
节点颜色	竞争贡献或主体类别
节点形状	主题样式
主题标签位置	主题论文的空间中心，可手动微调
主题凸包	同一主题论文的空间边界
图例	解释节点大小、主题颜色、主体颜色和贡献强度

分布图主要用于观察“竞争贡献在论文空间中的分布”。距离越近的论文，通常表示它们在混合关系中更接近；但二维布局是降维结果，不宜把任意两点之间的距离解释为精确数值。

5. 地形图生成原理

地形图把分布图中的主题空间进一步转化为地形表达。

5.1 主题位置

主题山峰的位置来自分布图中的主题位置。竞争结构相近、论文空间接近的主题，在地形图中也更容易靠近。

5.2 山峰高度

山峰高度主要反映主题竞争贡献。竞争贡献越高，山峰越明显。右侧“山体强度”可以改变高度的视觉表现，但不改变原始数据。

5.3 论文点颜色

地形图中的论文点可按两种方式着色：

着色方式	解释
按竞争贡献	点颜色表示论文竞争贡献高低
按主体	点颜色表示作者、机构或国家主体

按主体着色依赖原始数据集中的文献-主体映射。如果映射不可用，系统会提示数据不可用，并回退到按竞争贡献着色。

5.4 标签选择

地形图中的标签有两类：

标签类型	含义
高贡献标签	优先显示竞争贡献较高的主题
大山头标签	优先显示论文规模较大或峰体显著的主题

二者结合使用，可以同时看见“贡献高的主题”和“规模大的主题”。

6. 热力矩阵原理

热力矩阵从同一次竞争力计算结果中提取主体-主题矩阵。

可显示两种数值：

数值	含义
原始分数	主体在主题中的累计原始贡献
归一化分数	同一主题内按最高主体归一化后的竞争力

矩阵聚类会根据行列的竞争力模式重新排序，使相似主体或相似主题更靠近。聚类只改变显示顺序，不改变计算结果。

7. 文件格式与导出原理

7.1 指数 Excel

指数 Excel 是最适合做精确数值分析的结果文件。其标准矩阵包括作者、机构和国家三个维度，并保留归一化分数与原始分数。

7.2 .topiccompetitionmap

.topiccompetitionmap 是分布图模型文件。它保存节点、主题、连线、布局和显示样式，适合后续重新打开继续调整图形。

由于文件结构沿用 AI 主题竞争分布图，文件名和部分字段可能出现 competition 或 contribution 字样。在 AI 主题竞争分布图中，应根据窗口标题和本手册说明，将这些字段解释为竞争分布图模型和竞争贡献。

7.3 SVG

SVG 导出主要面向分布图视图，适合报告和排版。如果要保存地形图或热力矩阵，可使用截图工具；如果要导出独立热力图 SVG，可使用“AI 主题竞争热力图”功能。

7.4 分布图数据 Excel

分布图数据 Excel 导出的是图模型数据，包括 Topics、Papers、Links 和 Settings。它适合复核图中节点、主题、坐标和贡献值，但不等同于完整的 AI 主题竞争力指数 Excel。

8. 结果解读建议

8.1 用指数表做精确判断

如果需要判断“哪个主体在某个主题上最强”，应优先查看 AI 主题竞争力指数 Excel。归一化分数适合主题内比较，原始分数适合观察累计贡献规模。

8.2 用分布图观察高贡献论文和主体分布

分布图适合发现：

高贡献论文是否集中在少数主题区域；
某些主体是否覆盖多个主题；
同一主体是否在高贡献区域形成连续分布；
某些主题是否存在明显的核心论文群。

8.3 用地形图观察整体竞争地貌

地形图适合展示宏观格局：

哪些主题形成竞争高峰；
高峰之间是否相互靠近；
哪些主题规模较大但贡献不一定最高；
哪些主体颜色集中在高峰区域。

8.4 用热力矩阵核对主体-主题关系

热力矩阵适合回答：

某个主体在哪些主题上更强；
某个主题下有哪些主体竞争力突出；
不同主体的优势主题是否相似；
聚类后是否出现相近竞争模式的主体群。

9. 常见问题

9.1 为什么生成不了 AI 主题竞争分布图？

常见原因包括：

尚未生成 AI 主题；
文献没有年份或被引次数；
所选维度缺少作者、机构或国家数据；
勾选了“仅使用勾选文献”但没有勾选文献；
勾选了“仅使用勾选主体”但没有勾选对应主体。

9.2 为什么按主体着色不可用？

按主体着色需要原始数据集中存在文献与作者、机构或国家的映射。如果打开的是单独保存的 .topiccompetitionmap 文件，原始主体映射可能不可用，系统会回退为按竞争贡献着色。

9.3 为什么热力矩阵和分布图的数值显示不完全一样？

分布图中的论文和主题竞争贡献用于展示论文空间与主题峰值；热力矩阵展示主体-主题矩阵。二者来自同一竞争力思想，但展示对象不同：分布图强调论文和主题，热力矩阵强调主体和主题。

9.4 为什么 SVG 不是地形图或热力矩阵？

当前分布图窗口的 SVG 导出主要输出分布图视图。地形图和热力矩阵建议使用截图保存，或使用独立热力图功能导出热力图 SVG。

9.5 主题名称、颜色和形状修改后会影响原始数据吗？

在分布图窗口中修改主题名称、颜色、形状或删除主题，主要影响当前可视化模型和保存的图文件，不建议将其理解为对原始数据集的全面回写。若要长期修订 AI 主题，建议回到数据集中的 AI 主题编辑功能处理。

10. 使用建议

做正式报告前，先导出 AI 主题竞争力指数 Excel，保留可复核数据。
分布图中优先使用“按竞争贡献”查找高贡献区域，再切换“按主体”观察主体分布。
主题很多时，关闭论文标签，只保留主题标签和图例。
做展示图时，可使用主题凸包、主题形状和主体图例增强可读性。
地形图适合呈现宏观格局，热力矩阵适合支撑精确比较。
保存 .topiccompetitionmap 作为可编辑图文件，同时导出 SVG 或截图用于报告。

SciMetrics：AI主题竞争力指数与热力图可视化用户手册

发表评论

SciMetrics：AI主题竞争力指数与热力图可视化用户手册

本手册用于指导用户在 SciMetrics 中完成 AI 主题竞争力指数计算、AI 主题竞争热力图展示和 AI 主题竞争力地形图可视化分析。

说明：当前 SciM 项目中，该功能在界面资源中显示为“AI 主题竞争热力图”，窗口内包含“热力图视图”和“地形图视图”两个页签。本手册将二者合称为“AI 主题竞争力可视化”。

图1：SciMetrics 主界面

一、操作方法

1. 功能适用场景

AI 主题竞争力指数和可视化适合回答以下问题：

在同一个 AI 主题下，哪些作者、机构或国家更具竞争力？
某个作者、机构或国家在哪些 AI 主题上具有相对优势？
不同 AI 主题的竞争主体是否集中，还是存在多主体竞争？
某些主题是否形成明显的竞争高峰或主体集群？
如何将 AI 主题竞争格局导出为 Excel、热力图或可继续编辑的工程文件？

该功能依赖已有文献数据和 AI 主题识别结果。一般流程是：先导入或打开数据集，再执行 AI 主题识别，之后导出竞争力指数或生成竞争力热力图与地形图。

2. 准备工作

2.1 导入或打开数据集

首先打开 SciMetrics，并导入已经整理好的文献数据。建议数据中至少包含：

数据项	作用
文献编号	连接文献、主题、作者、机构和国家关系
题名或记录名	便于检查文献内容
被引次数	用于计算文献在主题内的引用权重
作者	用于作者维度竞争力
机构	用于机构维度竞争力
国家或地区	用于国家维度竞争力
AI 主题	用于定义竞争力矩阵的主题列

图2：SciMetrics 打开数据集后的文献列表

2.2 生成或检查 AI 主题

如果当前数据集还没有 AI 主题，请先执行：

AI → 文档 → AI 主题识别

识别完成后，可以在文献表中查看 AI主题字段。若主题名称需要统一，可继续使用：

AI → 文档 → 编辑 AI 主题
AI → 文档 → 批量替换 AI 主题
AI → 文档 → 重置 AI 主题

图3：`AI → 文档 → AI 主题识别` 菜单入口

图4：文献表中的 `AI主题` 字段示例

注意事项：

一篇文献可以对应一个或多个 AI 主题。
主题名称应尽量稳定、简洁，避免同义词、缩写和中英文混用造成主题被拆散。
重置 AI 主题后，原有人工编辑结果可能被覆盖。

2.3 检查作者、机构和国家数据

AI 主题竞争力指数支持三个主体维度：

维度	需要的数据表
作者	作者表和文献-作者关系
机构	机构表和文献-机构关系
国家	国家表和文献-国家关系

如果某一维度缺少关系数据，该维度的指数表或可视化可能为空。

3. 导出 AI 主题竞争力指数

AI 主题竞争力指数可以直接导出为 Excel 工作簿。

操作步骤：

确认已经打开包含 AI 主题的数据集。
在主界面顶部菜单中选择：

指数 → AI 主题竞争力指数

也可以从 AI 菜单进入：

AI → 指数 → AI 主题竞争力指数

在弹出的保存窗口中选择导出位置。
建议使用默认文件名，或命名为 AI主题竞争力指数_项目名_日期.xlsx。
点击保存，软件会自动计算并导出 Excel 文件。

图5：`指数 → AI 主题竞争力指数` 菜单入口

导出的 Excel 文件通常包含以下工作表：

工作表	内容
`Author Competitiveness`	作者在各 AI 主题下的归一化竞争力
`Affiliation Competitiveness`	机构在各 AI 主题下的归一化竞争力
`Country Competitiveness`	国家在各 AI 主题下的归一化竞争力
`Author Raw Score`	作者在各 AI 主题下的原始得分
`Affiliation Raw Score`	机构在各 AI 主题下的原始得分
`Country Raw Score`	国家在各 AI 主题下的原始得分
`Method`	指数名称、公式、归一化方式和权重说明

图6：导出的 Excel 文件

结果解读建议：

Competitiveness 工作表中的值通常在 0-1 之间。
每个 AI 主题列独立归一化，因此同一列内可以直接比较不同主体。
Raw Score 工作表保留原始得分，适合辅助观察同一主体在不同主题上的贡献基础。
不同主题列之间不宜只用归一化分直接比较绝对规模。

4. 生成 AI 主题竞争热力图与地形图

完成 AI 主题识别后，可以生成可视化窗口。

操作步骤：

在主界面顶部菜单中选择：

AI → AI主题 → AI 主题竞争热力图

也可以在文献数据集页面的右键菜单中选择“AI 主题竞争热力图”。

系统会弹出“维度”选择窗口。
选择作者、机构或国家。
点击“确定”。
软件会显示忙碌窗口并计算 AI 主题竞争力矩阵。
计算完成后，打开 AI 主题竞争热力图窗口。

图7：`AI → AI主题 → AI 主题竞争热力图` 菜单入口

图8：数据集右键菜单中的“AI 主题竞争热力图”入口

图 9：维度选择窗口

当前窗口由以下区域组成：

区域	作用
顶部菜单和工具栏	打开、保存、切换背景、重置、导出 Excel、退出
左侧主题列表	显示当前进入可视化的主题编号、主题名称和论文数量
中央可视化页签	在热力图视图和地形图视图之间切换
右侧设置页签	与中央视图同步，分别调整热力图或地形图参数
状态栏	显示 Ready、打开、保存、导出等状态信息

图 10：AI 主题竞争热力图窗口全景

5. 阅读热力图视图

窗口中央默认显示“热力图视图”。热力图是一个“主体 × AI 主题”的矩阵：

每一行表示一个竞争主体，例如作者、机构或国家。
每一列表示一个 AI 主题。
每个单元格表示该主体在该主题下的竞争力得分。
默认显示归一化竞争力分。
勾选“原始分”后显示 Raw Score。
单元格足够大时会显示数值；如果格子太小，数值会自动隐藏。

图 11：热力图视图

左侧主题列表包含：

列	说明
序号	当前视图中的主题编号
主题	AI 主题名称
论文	该主题关联的文献数量

图 12：左侧主题列表，展示主题编号、主题名称和论文数量

右侧热力图设置包括：

设置项	默认值或范围	说明
主题数	默认 16，范围 4-30	控制热力图显示多少个主题
主体数	默认 35，范围 8-80	控制显示多少个作者、机构或国家
标签大小	默认 13，范围 9-24	调整标题、行标签、列标签和数值大小
主题文字角度	默认 315，范围 0-360	调整顶部主题文字旋转角度
原始分	默认关闭	开启后显示 Raw Score
显示主题编号	默认开启	控制是否显示 `#1`、`#2` 等编号
显示主题名称	默认关闭	控制顶部是否显示主题名称
图例	默认开启	控制颜色图例是否显示
热力图颜色	默认橙红色高值端	调整高竞争力单元格的强调颜色

常用操作：

如果主题名称较长，可以只显示主题编号，通过左侧主题列表查找编号对应的主题名称。
如果用于报告截图，可以打开“显示主题名称”，再调节“主题文字角度”。
如果单元格数字看不清，可减少主题数或主体数。
如果需要展示绝对贡献基础，可勾选“原始分”。

6. 阅读地形图视图

切换到“地形图视图”后，系统会把同一套竞争力数据转换为地形图。

地形图的基本含义：

每座山峰代表一个 AI 主题。
山峰高度反映该主题在当前维度下的综合竞争强度。
山峰位置根据不同主题在竞争主体上的得分结构计算，竞争主体结构相似的主题会更接近。
地形上的点表示主题内的论文规模分布。当前窗口生成模型时主要用于表达主题规模和密度，不建议把每个点都解释为可追溯的具体论文。
点的颜色对应竞争主体图例，通常取当前维度下的重点作者、机构或国家。
左侧主题图例用于对应主题编号和主题名称，右侧主体图例用于对应点颜色和竞争主体。

右侧地形图设置包括：

设置项	默认值或范围	说明
图形缩放	默认 1，范围 0.46-3.2	放大或缩小地形图
视角水平角	默认约 -16 度，范围 -180 到 180	调整地形图左右旋转角度
视角高度	默认 0.78，范围 0.46-1.18	调整观察俯仰角
山体强度	默认 1，范围 0.7-1.6	调整山峰高度
主题间距	默认 1，范围 0.65-1.55	调整主题之间的空间距离
节点大小	默认 0.5，范围 0.35-3	调整论文点大小
主题文字大小	默认 11，范围 8-20	调整地形图主题标签字号
主题标签数	默认 5，最大不低于主题总数	控制显示多少个主题标签
显示引导线	默认开启	显示主题标签到山峰的连接线
显示主题编号	默认开启	显示 `#1`、`#2` 等主题编号
显示主题名称	默认关闭	显示主题名称
主题图例	默认开启	显示左侧主题图例
主体图例	默认开启	显示右侧主体图例

图 13：地形图右侧设置面板

地形图支持鼠标交互：

操作	效果
鼠标滚轮	缩放地形图
鼠标左键拖动	旋转视角
鼠标右键拖动	平移视图
鼠标左键点击山峰附近	高亮最近主题
右键地形图空白处	打开主题文字字体设置

图14：点击某个主题山峰后的高亮效果

图15：主题文字字体设置

地形图使用建议：

做整体格局展示时，先调节“图形缩放”和“视角高度”，让山峰形态清楚。
主题较多时，可减少“主题标签数”，保留重点主题标签。
如果山峰过密，可增大“主题间距”。
如果需要强调主题竞争强度差异，可适当增加“山体强度”。
如果点过密，可减小“节点大小”；如果点不明显，可增大“节点大小”。

7. 修改主题名称、删除主题和调整颜色

在左侧主题列表中右键某个主题，可以执行：

修改主题名称。
删除主题。
修改热力图颜色。

修改主题名称和删除主题只影响当前可视化模型，不会直接修改原始数据集中的 AI 主题字段。若需要保留这些显示层面的调整，请保存为 .topicheatmap 文件。

图16：修改主题名称、删除主题和颜色设置

8. 切换背景

顶部工具栏提供两种背景操作：

黑白背景：在黑色和白色背景之间切换。
彩色背景：打开颜色选择器，自定义背景颜色。

背景颜色会同时应用于热力图视图和地形图视图。深色背景适合屏幕演示，浅色背景适合 Word、论文和打印材料。

9. 保存、打开和导出

9.1 保存为 `.topicheatmap`

点击工具栏“保存”，选择 .topicheatmap 格式，可以保存当前可视化模型。

.topicheatmap 文件会保存：

当前主题和主体矩阵。
当前主题重命名或删除后的结果。
热力图显示设置，如原始分、主题编号、主题名称、图例、主题文字角度、背景色和热力图颜色。
地形图主题文字字体样式。

需要注意：.topicheatmap 不包含原始数据集。重新打开后不能根据原始数据重新计算主题数和主体数，只能查看、调整显示并导出当前模型。

图17：保存 `.topicheatmap` 文件的保存窗口

9.2 打开 `.topicheatmap`

可以从窗口工具栏点击“打开”，也可以在主界面直接打开 .topicheatmap 文件。打开后会进入同一个可视化窗口，并可继续在热力图视图和地形图视图之间切换。

9.3 导出 SVG

在保存窗口中选择 .svg 格式，可以导出当前热力图为 SVG 矢量图。当前实现的 SVG 导出基于热力图模型，适合用于报告、论文和 PPT 插图。

如果需要保存地形图画面，建议使用系统截图工具或软件截图功能进行截图。

9.4 导出 Excel

点击工具栏 Excel 按钮，可以导出数据表。

当前窗口来源	导出内容
从当前数据集生成	导出完整 AI 主题竞争力指数工作簿，包含作者、机构、国家三类矩阵和方法说明
从 `.topicheatmap` 文件打开	导出当前热力图矩阵和主题摘要

10. 推荐工作流

推荐按以下流程完成一次完整分析：

导入或打开文献数据
→ 执行 AI 主题识别
→ 检查并规范 AI 主题名称
→ 导出 AI 主题竞争力指数 Excel
→ 打开 AI 主题竞争热力图
→ 选择作者、机构或国家维度
→ 在热力图视图中观察主体-主题竞争矩阵
→ 在地形图视图中观察主题竞争峰值和主题间结构
→ 调整主题数、主体数、标签、颜色和背景
→ 保存 .topicheatmap
→ 导出 Excel 或 SVG
→ 将热力图、地形图截图和关键指数数值写入报告

二、原理说明

1. 数据基础

AI 主题竞争力指数以“文献 – AI 主题 – 竞争主体”为基础结构。系统主要读取以下数据：

数据	典型表或字段	作用
文献基础信息	`docTable.Id`、`Record`、`Time`、`ReferencedNumber`、`AITopics`	获取文献、题名、年份、被引次数和 AI 主题字段
AI 主题关系	`docTopicTable.DocId`、`Topic`	判断每篇文献属于哪些 AI 主题
作者	`authorTable`、`docAuthorTable`	计算作者维度竞争力
机构	`affiliationTable`、`docAffiliationTable`	计算机构维度竞争力
国家	`countryTable`、`docCountryTable`	计算国家维度竞争力

主题读取优先级：

优先读取 docTopicTable。
如果没有有效主题关系，则读取 docTable.AITopics。
docTable.AITopics 中多个主题使用 | 分隔。

2. AI 主题竞争力指数原理

AI 主题竞争力指数不是简单的发文量排名，而是综合文献的主题归属和主题内引用权重，衡量作者、机构或国家在某个 AI 主题下的相对竞争力。

基础符号如下：

符号	含义
`d`	一篇文献
`t`	一个 AI 主题
`e`	一个竞争主体，可以是作者、机构或国家
`T(d)`	文献 `d` 关联的 AI 主题集合
`D(t)`	关联到主题 `t` 的文献集合
`D(e,t)`	同时包含主体 `e` 且关联主题 `t` 的文献集合
`Citation(d)`	文献 `d` 的被引次数

2.1 主题分摊权重

一篇文献可能属于多个 AI 主题。为避免多主题文献在多个主题中被重复放大，系统使用主题分摊权重：

TopicWeight(d,t) = 1 / |T(d)|

如果一篇文献同时属于 4 个 AI 主题，则它对每个主题的主题权重为 1/4。

2.2 引用权重

当前实现默认启用引用平滑，即使用 Citation(d)+1。这样零被引文献也会保留基础贡献。

CitationWeight(d,t) =
(Citation(d)+1) / sum_{i in D(t)}(Citation(i)+1)

如果某主题下所有文献平滑后的被引总和为 100，某篇文献被引次数为 10，则该文献在主题中的引用权重为：

(10 + 1) / 100 = 0.11

2.3 实体贡献方式

当前版本不使用实体分摊权重。只要作者、机构或国家参与了一篇文献，该主体就在对应维度上获得该文献的完整贡献。

这种设计便于解释为“参与即贡献”，适合用于观察主体在主题中的参与和影响基础。

2.4 原始得分

主体 e 在主题 t 上的原始得分为：

RawScore(e,t) =
sum_{d in D(e,t)}
[
1 / |T(d)|
* (Citation(d)+1) / sum_{i in D(t)}(Citation(i)+1)
]

该得分同时体现：

文献数量：主体参与的相关文献越多，贡献累加越多。
主题归属：多主题文献按主题数量分摊。
引用影响：高被引文献在主题内贡献更高。

2.5 按主题归一化

为了比较同一 AI 主题下不同主体的相对竞争力，系统对每个主题列独立归一化：

AITCI(e,t) = RawScore(e,t) / max_e RawScore(e,t)

归一化后，每个主题列中最高主体得分为 1，其他主体得分表示其相对于该主题最高主体的竞争力比例。

3. 热力图模型原理

热力图不是显示全部矩阵，而是从完整竞争力矩阵中筛选重点主题和重点主体。

主题筛选排序逻辑：

按主题综合竞争力总分降序。
再按原始得分总和降序。
再按主题关联论文数量降序。
最后按主题名称排序。

主体筛选排序逻辑：

在当前显示主题范围内，按主体竞争力总分降序。
再按原始得分总和降序。
最后按主体名称排序。

右侧“主题数”和“主体数”决定最终展示多少列和多少行。当前 SciM 窗口默认每个主题只保留 1 个 Top 主体标签，并在地形图中根据主题论文数量生成规模点。

4. 热力图绘制原理

热力图单元格可以显示两种值：

模式	数值来源	适合用途
默认模式	归一化竞争力 `AITCI(e,t)`	比较同一主题下不同主体的相对优势
原始分模式	`RawScore(e,t)`	辅助观察主体在不同主题上的贡献基础

颜色按当前显示矩阵中的最小值和最大值进行映射。调整主题数、主体数或切换原始分后，当前矩阵范围可能改变，因此颜色也会变化。精确比较应以数值或 Excel 为准。

热力图列标题可显示主题编号、主题名称或二者同时显示。主题名称较长时，系统会截断显示，以保证图形可读。

5. 地形图生成原理

地形图将热力图矩阵进一步转换为空间地形。

5.1 主题位置

系统为每个 AI 主题构建一个竞争力向量。向量中的元素是当前显示主体在该主题下的竞争力得分。

然后计算主题向量之间的余弦相似度：

Similarity(t1,t2) =
cosine(Vector(t1), Vector(t2))

竞争主体结构越相似的主题，在地形图中越容易靠近；结构差异越大的主题，空间距离越远。随后系统会进行位置松弛和主题间距调整，避免主题过度重叠。

5.2 山峰高度

每个主题被表示为一个山峰。山峰高度主要来自主题在当前维度下的总竞争力或总原始得分，并结合主题竞争集中度进行增强。

直观理解：

总得分越高，山峰越高。
竞争越集中，山峰更容易形成尖峰。
论文数量会影响山峰范围，论文数越多，山峰范围通常越宽。

5.3 论文点和主体颜色

地形图中的点用于表达主题内部的论文规模和密度。点的颜色来自主体图例，通常对应当前维度下的重点作者、机构或国家。

系统会优先尝试从数据集中读取文献与主体的对应关系；如果无法精确对应，则根据主题的 Top 主体或当前主体列表分配颜色。因此，地形图更适合观察主题竞争格局和主体颜色分布，不宜把每个点都当作一条可精确追溯的文献记录解释。

5.4 地形表面

系统将每个主题山峰看作一个二维高斯峰，并把多个主题峰叠加成连续地形表面。渲染时会根据高度生成颜色带：

低处接近水面或沙地色。
中部接近草地色。
高处接近岩石或雪顶色。

这种地形表达可以帮助用户快速识别：

哪些主题形成竞争高峰。
哪些主题在竞争结构上接近。
哪些主体颜色集中在某些主题区域。

6. 文件格式与导出原理

6.1 指数 Excel

指数 Excel 保存完整三维度矩阵，包括作者、机构、国家的归一化竞争力表、原始得分表和方法说明表。它适合做数值复核和后续统计分析。

6.2 `.topicheatmap`

.topicheatmap 是 AI 主题竞争力可视化工程文件。它保存当前可视化模型和部分显示设置，可用于后续继续打开查看。

由于该文件不保存完整原始数据集，重新打开后不能重新计算主题数、主体数或维度，只能基于文件中的当前模型继续显示和导出。

6.3 SVG

当前 SVG 导出由热力图导出器完成，主要输出热力图视图。若需要地形图图片，应使用截图方式保存当前地形图画面。

7. 结果解读建议

7.1 同一主题下比较主体

在热力图中沿同一列比较颜色和数值，可以判断哪些主体在该主题下更有竞争力。

示例：

主题：Large Language Models
机构 A = 1.0000
机构 B = 0.7200
机构 C = 0.3100

可解读为：机构 A 在该主题下竞争力最高，机构 B 约为机构 A 的 72%，机构 C 约为机构 A 的 31%。

7.2 同一主体跨主题观察优势方向

在热力图中沿同一行观察颜色较强的单元格，可以判断该主体在哪些主题中更有相对优势。

需要注意，默认归一化分强调的是“主题内部相对位置”。如果要看同一主体在不同主题上的绝对贡献，应结合原始分或 Raw Score 工作表。

7.3 用地形图观察整体竞争格局

地形图适合从整体上观察主题竞争峰值和空间关系：

高而尖的山峰：可能表示该主题竞争强度高且集中。
高而宽的山峰：可能表示该主题竞争强度高且参与论文较多。
相互接近的山峰：说明这些主题在竞争主体结构上较相似。
某些颜色集中在某个区域：说明对应主体在这些主题上布局较集中。

7.4 配合指数表形成结论

建议使用热力图和地形图发现格局，再回到 Excel 查看精确数值。报告中可以用热力图说明主体-主题矩阵，用地形图展示整体竞争地貌，用 Excel 数值支撑关键判断。

8. 常见问题

8.1 为什么生成不了竞争热力图？

常见原因包括：

尚未打开数据集。
数据集中没有 AI 主题。
docTable 缺失。
作者、机构或国家关系表为空。

请先完成数据导入和 AI 主题识别，再生成可视化。

8.2 为什么某个维度没有数据？

通常是因为缺少对应主体关系。例如作者维度需要文献-作者关系，机构维度需要文献-机构关系，国家维度需要文献-国家关系。

8.3 为什么热力图和地形图颜色含义不同？

热力图颜色表示单元格得分强弱。地形图中山体颜色主要表示地形高度，点颜色表示主体图例。二者用于不同层面的阅读。

8.4 为什么 `.topicheatmap` 打开后不能重新计算？

.topicheatmap 只保存当前模型和显示设置，不包含原始数据集。没有原始数据集，系统无法重新计算新的主题数、主体数和维度。

8.5 为什么 SVG 不是地形图？

当前保存为 SVG 时使用的是热力图 SVG 导出器。地形图是交互渲染视图，若需要保存地形图画面，请使用截图方式。

8.6 为什么地形图中的点不能逐个对应论文？

当前 SciM 竞争力可视化窗口主要用地形点表达主题规模和密度。由于窗口生成模型时默认不保留完整论文点清单，地形图中的点更适合解释为主题规模分布，而不是逐条文献记录。

9. 使用建议

用于学科服务报告时，建议按以下方式组织结果：

用指数 Excel 给出重点主题下 Top 作者、机构或国家。
用热力图展示多个主题和多个主体之间的竞争矩阵。
用地形图截图展示主题竞争峰值和主题间结构。
对 2-3 个重点主题做文字解释，说明优势主体、竞争集中度和可能的发展方向。
在报告末尾注明数据来源、时间范围、AI 主题识别方式和是否使用原始分。

SciMetrics：双一流高校外部人才精准引进-基于 SCI 的影响力指标用户手册

发表评论

本手册面向“双一流”高校外部人才引进、学科方向布局、战略情报分析和图书馆学科服务场景，说明如何使用 SciMetrics 的影响力指标功能，对 SCI 数据中的作者、机构、国家或地区进行多维度影响力分析，为外部人才精准发现、候选人筛选、合作路径判断和引进决策提供数据支持。

本手册的数据源使用 SCI，为便于表述，下文中的 SCI 指学校订购的 Web of Science Core Collection 中 SCI / SCIE 相关论文数据。

一、操作方法

1. 操作流程总览

影响力指标分析建议按以下流程完成：

步骤	操作	目的
1	从 SCI 下载文献数据	获取目标学科、方向或人才主题的论文与参考文献信息。
2	选择 JCR 词典	为 SCI 期刊匹配 JCR 分区和 CNS 等高质量成果标识（SciMetrics提供）。
3	读取 SCI 数据	将下载文件导入 SciMetrics，生成文献、作者、机构、国家和参考文献等数据表。
4	数据检查与勾选	检查作者、机构、国家、出版物和参考文献字段，确定参与计算的数据范围。
5	计算影响力指标	导出作者、机构或国家影响力指数。
6	存储 Excel 结果	保存 .xlsm 结果文件，并用于排序、筛选、复核和报告撰写。

图1：人才影响力分析流程

2. 从 SCI 下载数据

在 SCI 平台下载数据时，建议先围绕学校拟引进方向建立检索式。检索对象可以是学科主题、关键技术、重点期刊、目标机构、代表性专家团队或其组合。

常见检索方式：

检索方式	适用场景
主题检索	适合围绕某个学科方向、前沿技术或交叉领域发现外部人才。
期刊检索	适合围绕高水平期刊成果发现候选作者。
机构检索	适合从目标高校、科研院所或企业研发机构中挖掘人才。
作者检索	适合对已知候选人进行成果核验和影响力复核。
主题 + 年份	适合关注近年活跃人才和新兴方向人才。

图2：SCI 平台检索式设置页面

下载建议：

1. 在 SCI 平台完成检索后，进入检索结果列表。

2. 根据数据量选择全部结果、当前页结果或分批导出。

3. 导出格式建议选择 Plain Text 或 Excel，并与后续读取过滤器保持一致。

4. 导出内容建议选择 Full Record and Cited References，确保包含完整记录和参考文献。

5. 如平台限制单次导出数量，应按记录号分批下载，并保持文件命名连续。

6. 下载后将同一检索式、同一时间范围的数据文件放入同一个文件夹。

图4：选择 Full Record and Cited References 的导出设置

建议保留的核心字段：

字段类型	说明
文献唯一标识	如 UT、DOI 等，用于识别和去重。
题名、摘要、关键词	用于主题理解、成果核验和报告撰写。
作者与作者全称	用于作者影响力计算和同名复核。
地址 / 机构字段	用于机构归属、国家归属和合作关系判断。
通讯作者与通讯地址	用于判断候选人的主导研究能力和联系方式。
来源期刊与年份	用于 JCR 分区匹配、发文时间跨度计算和成果质量判断。
参考文献	用于计算领域 H 指数和影响力扩散类指标。

数据下载后建议进行以下检查：

文件是否可以正常打开。
每批数据的记录范围是否连续，是否存在重复下载。
导出内容中是否包含参考文献字段。
检索式、下载日期、数据库范围和时间范围是否已记录。

3. 选择 JCR 词典

JCR 词典用于把 SCI 文献中的来源期刊和发表年份匹配到 JCR 分区，从而生成 JCR第一分区、JCR第二分区、JCR第三分区、JCR第四分区和 CNS三刊等字段。

在读取 SCI 数据前，建议先确认出版物词典使用的是 JCR 版本。

操作步骤：

1. 打开 SciMetrics。

2. 进入数据读取窗口，切换到字典或字典文件设置区域。

3. 找到出版物词典。

4. 将出版物词典选择为 JCR 分区词典。

5. 如果系统已内置 JCR 词典并设为默认出版物词典，可保持默认设置。

图5：数据读取窗口中的字典页

图6：选择出版物 / JCR 分区词典的位置

JCR 词典选择建议：

情况	建议
分析 2000-2024 年 SCI 数据	可使用内置 JCR 分区词典，例如 publicationdic_Jcr_2000_2024.txt。
分析最新年份数据	检查 JCR 词典是否覆盖最新发表年份；未覆盖时，最新年份论文的 JCR 字段可能为空。
分析历史跨度较长的数据	确认 JCR 词典覆盖数据中的最早和最晚年份。
正式人才报告	在报告中说明 JCR 词典版本和覆盖年份。

注意：

JCR 分区依赖“期刊名称 + 发表年份”的匹配。
如果 SCI 数据中的期刊名称与词典名称差异较大，可能出现分区无法匹配。
如果未选择 JCR 词典，影响力指标仍可计算，但 JCR 分区和 CNS 成果字段可能为空或不完整。

4. 读取 SCI 数据

完成数据下载和 JCR 词典选择后，开始读取 SCI 数据。

操作步骤：

1. 在主界面进入数据 -> 数据分析。

2. 在文件中选择下载好的 SCI 数据文件；如为分批下载，可一次选择多个文件。

3. 在过滤器中选择 SCI / Web of Science 对应的读取过滤器。

4. 如果系统弹出推荐过滤器，可优先使用系统推荐的 SCI 过滤器。

5. 根据下载格式确认过滤器类型，例如 .txt 数据选择文本格式过滤器，.xlsx 数据选择 Excel 格式过滤器。

6. 在编码中选择与文件一致的编码，SCI 文本数据通常可优先尝试 UTF-8。

7. 在语言中选择英文或中英。

8. 设置时间范围；如需要完整分析，可保留覆盖全部年份的范围。

9. 检查统计、分析等选项，确保作者、机构、国家、出版物、时间和参考文献相关字段会被读取。

10. 点击计算，等待数据读取完成。

图7：数据 -> 导入菜单入口

图8：选择 SCI 数据文件、过滤器、编码和保存位置

过滤器选择建议：

数据情况	建议过滤器
SCI 文本数据	选择 Web of Science / SCI 文本读取过滤器。
SCI Excel 数据	选择 Web of Science / SCI Excel 读取过滤器。
用于外部人才引进	优先选择能解析作者、机构、国家和通讯信息的 SCI 人才分析过滤器。
需要 JCR 分区	选择能够保留来源期刊和年份字段的过滤器，并配合 JCR 出版物词典。

读取完成后，应在数据集区域检查以下数据表：

数据表	检查重点
文献表	题名、年份、来源期刊、文献 ID 是否正常。
作者表	作者名称、作者全称、数量和分组是否正常。
机构表	外部机构名称是否被正确解析。
国家表	国家或地区字段是否完整。
出版物表	期刊名称是否能与 JCR 词典匹配。
参考文献表	是否读取到引用关系；该表直接影响 H 指数和影响力指数。

图9：SCI 数据读取完成后的数据集标签页

图10：文献表、作者表、机构表、国家表、出版物表和参考文献表检查示例

5. 数据检查、清洗与勾选

影响力指标以当前数据集中的记录和勾选范围为基础。计算前建议先完成必要的数据检查和清洗。

作者检查：

1. 在作者表中检查同一作者是否存在多种写法。

2. 对同一候选人的不同名称写法进行合并或分组。

3. 对高排名候选人，建议结合机构、研究方向和代表论文进行人工复核。

机构检查：

1. 合并同一机构的不同写法。

2. 对大学、学院、研究所、附属医院等层级进行统一。

3. 如只分析外部人才，可排除本校机构相关记录。

图11：作者表清洗、分组和勾选界面

图12：机构表中排除本校机构、保留外部机构的示例

6. 计算作者影响力指标

作者影响力指标是外部人才引进中最常用的结果表，用于发现高影响候选人、近期活跃候选人和与国内已有合作基础的候选人。

操作步骤：

1. 确认 SCI 数据已读取完成。

2. 确认作者表、文献表、机构表、国家表、出版物表和参考文献表正常。

3. 确认 JCR 词典已正确选择，出版物分区能够匹配。

4. 如只分析部分作者，在作者表中先勾选目标记录。

5. 进入指数 -> 影响力指数 -> 作者影响力指数。

6. 在保存窗口中选择导出位置。

7. 输入文件名并保存为 .xlsm 文件。

图13：指数 -> 影响力指数 -> 作者影响力指数菜单入口

图14：作者影响力指数保存为 .xlsm 的窗口

7. 计算机构和国家影响力指标

机构影响力和国家影响力常用于外部人才引进的前期研判。

机构影响力：

1. 进入指数 -> 影响力指数 -> 机构影响力指数。

2. 选择保存位置。

3. 保存为 .xlsm 文件。

4. 用于识别高影响来源机构、重点高校、科研院所和企业研发团队。

国家或地区影响力：

1. 进入指数 -> 影响力指数 -> 国家影响力指数。

2. 选择保存位置。

3. 保存为 .xlsm 文件。

4. 用于观察目标学科的国际竞争格局和合作网络。

人才引进场景下，建议采用“机构筛选 -> 作者定位 -> 成果复核”的顺序：

1. 先用机构影响力指数识别目标领域中的高影响外部机构。

2. 再在高影响机构中定位高影响作者。

3. 最后用作者影响力指数和文献明细核验候选人的代表成果、近期活跃度和合作基础。

8. 存储 Excel 结果

影响力指标导出的结果文件为 Excel 宏工作簿，后缀通常为 .xlsm。建议保留 .xlsm 格式，不要直接另存为普通 .xlsx，以免影响工作簿中的宏、格式或后续处理能力。

导出结果通常包含两个工作表：

工作表	内容	用途
Sheet1	指标汇总表	用于排序、筛选、候选人分层和报告制表。
Sheet2	主体与文献明细表	用于核验代表论文、作者机构、合作关系和成果出处。

图15：作者影响力指数 Excel 文件中的 Sheet1

建议同时保存：

文件	作用
SCI 原始下载文件	保证数据来源可追溯。
检索式说明	保证检索口径可复核。
JCR 词典版本说明	说明 JCR 分区字段的来源。
SciMetrics 数据集文件	便于后续继续分析或复算。
影响力指数 .xlsm	作为人才筛选和报告撰写的核心结果。

9. 读取 Excel 指标结果

导出后的 Sheet1 是核心指标表。常见字段如下：

字段	含义
编号	作者、机构或国家记录编号。
记录	原始记录名称。
分组	清洗或分组后的标准名称。
数量	相关成果数量。
通讯论文	作为通讯作者或通讯主体的论文数量。
JCR第一分区	JCR Q1 论文数量。
JCR第二分区	JCR Q2 论文数量。
JCR第三分区	JCR Q3 论文数量。
JCR第四分区	JCR Q4 论文数量。
CNS三刊	Cell、Nature、Science 等顶级期刊成果数量。
领域H指数	基于当前 SCI 数据集计算的领域 H 指数。
综合影响力指数	主体在领域引用关系中的总体影响占比。
对其他作者影响力指数	排除同作者内部影响后的外部作者影响。
对其他机构影响力指数	排除同机构内部影响后的跨机构影响。
对其他国家地区影响力指数	排除同国家或地区内部影响后的跨国家影响。
最早发文时间	主体在当前 SCI 数据集中的最早发文年份。
最晚发文时间	主体在当前 SCI 数据集中的最近发文年份。
国家/地区合作字段	作者成果中共同出现的国家或地区数量，用于判断国际合作网络，以及与中国、国内机构或国内科研人员的合作基础。

对于外部人才引进，建议重点查看以下辅助判断字段：

辅助字段	判断重点
最早发文时间	判断候选人在该方向中的积累起点和学术资历。
最晚发文时间	判断候选人近年是否仍活跃，避免把早期高影响但已转向或停滞的人才误列为重点候选。
国家/地区合作字段	判断候选人与中国、国内机构或国内科研人员是否已有合作基础；可结合 Sheet2 文献明细进一步核验具体合作论文、机构和作者。

10. 面向外部人才引进的解读方式

建议按“影响力、活跃度、主导能力、合作基础、平台适配度”五个维度解释结果。

候选类型	典型指标特征	建议动作
高影响领军候选人	领域 H 指数高、综合影响力高、近年仍有产出。	作为重点引进或高层次人才联系对象。
青年潜力候选人	发文时间较新、Q1 论文较多、外部影响开始出现。	进入青年人才储备库，持续跟踪。
主导型候选人	通讯论文多、Q1/Q2 成果多。	重点评估独立 PI 能力和团队建设潜力。
国际扩散型候选人	对其他国家地区影响力较高。	适合作为国际合作和学科国际化引进对象。
与中国已有合作候选人	国家/地区合作字段中存在中国相关合作，或 Sheet2 显示与国内机构、国内科研人员共同发表。	更容易建立联系，可优先纳入合作型引进或柔性引进候选。
平台适配型候选人	研究方向与学校重点平台高度契合，影响力中等以上。	交由学院和平台专家进一步评估。

解读建议：

不要只看论文数量，要结合外部影响力、高质量成果和近年活跃度。
青年候选人可适当降低总量要求，更重视近期产出、Q1 成果和外部引用扩散。
高层次候选人应同时具备高影响、持续产出和较强跨机构扩散。
对与中国已有合作的候选人，应进一步核验具体合作论文、国内合作者和合作机构。
正式人才报告应说明 SCI 检索式、下载日期、JCR 词典版本和人工复核规则。

11. 导出报告和后续分析

影响力指标导出后，可进一步用于：

1. 外部人才候选名单初筛。

2. 目标学科高影响作者榜单。

3. 重点来源机构和团队清单。

4. 候选引进人才 SCI 成果清单。

5. 候选人与校内团队的合作潜力分析。

6. 候选人与中国科研人员或国内机构合作基础分析。

7. 双一流学科建设外部人才引进专题报告。

图17：基于 SCI 影响力指标生成的人才梯队分析表。

建议在报告中保留以下信息：

信息	作用
数据来源	说明只使用 SCI 数据。
检索式和时间范围	保证结果可复核。
下载日期和批次	说明 SCI 数据下载时点和分批情况。
JCR 词典版本	说明 JCR 分区字段的匹配依据。
数据清洗规则	说明作者、机构、国家名称如何合并。
指标解释	避免把影响力指标误读为单一排名。
人工复核说明	对人才评价和引进决策尤其重要。

二、原理说明

1. 指标设计思想

影响力指标的核心思想是：在一个给定 SCI 检索数据集中，考察某个主体不仅贡献了多少论文，还考察其成果是否被领域内其他论文引用，以及这种影响是否突破自身作者群体、机构圈层和国家或地区边界。

相比单纯发文量，影响力指标更适合外部人才引进，因为它能够区分：

1. 数量型产出与高影响产出。

2. 内部循环影响与外部扩散影响。

3. 短期活跃与长期稳定影响。

4. 跟随型成果与主导型成果。

5. 本地影响与跨机构、跨国家影响。

2. SCI 数据和领域边界

本功能的计算对象不是全世界所有论文，而是用户当前下载并读取的 SCI 数据集。因此，指标解释必须绑定检索式、时间范围和数据下载日期。

例如，用户以“人工智能 + 医学影像”为主题下载 2018-2025 年 SCI 数据，则影响力指标反映的是候选人在该主题和该时间范围内的影响力，而不是候选人在所有学科中的总影响力。

3. JCR 词典匹配原理

JCR 词典通过“来源期刊 + 发表年份”匹配论文的期刊分区。匹配成功后，系统可统计主体名下的 Q1、Q2、Q3、Q4 论文数量，以及 CNS 三刊相关成果数量。

    SCI 论文来源期刊 + 发表年份 -> JCR 词典 -> JCR 分区字段

如果期刊名称不一致、年份超出词典覆盖范围，或未选择 JCR 词典，则对应论文可能无法获得 JCR 分区。

4. 领域内引用关系

系统首先从 SCI 下载数据中的参考文献关系提取领域内引用关系。所谓领域内引用，是指当前 SCI 数据集中的文献之间形成的引用关系。

例如，数据集中论文 A 引用了论文 B，且 A、B 都在当前数据集中，则形成一条领域内引用关系。

    论文 A -> 引用 -> 论文 B

系统会统计所有领域内引用关系总数，记为 R。后续影响力指数都以这个总数作为归一化分母。

5. 领域 H 指数

领域 H 指数用于衡量主体在当前 SCI 检索领域中的稳定影响。

计算方式：

1. 统计某主体相关论文在当前 SCI 数据集中的领域内被引次数。

2. 按被引次数从高到低排序。

3. 如果某主体至少有 h 篇论文分别被引用不少于 h 次，则其领域 H 指数为 h。

示例：

    某作者论文的领域内被引次数为：12, 8, 5, 3, 1
    该作者领域 H 指数为 4

因为前 4 篇论文均至少被引用 4 次，第 5 篇不满足 5 次。

6. 综合影响力指数

综合影响力指数表示某主体相关成果在领域内引用关系中的总体占比。

    综合影响力指数 = 主体相关引用关系数量 / 领域内全部引用关系数量

该指标越高，说明该主体在当前 SCI 数据集所代表的知识网络中影响越大。

7. 对其他作者影响力指数

对其他作者影响力指数用于衡量主体的影响是否扩散到其他作者群体。

系统会判断引用关系两端是否存在相同作者。如果引用论文和被引论文没有共同作者，则计入“对其他作者影响”。

    对其他作者影响力指数 = 跨作者引用关系数量 / 领域内全部引用关系数量

该指标可帮助识别候选人的影响是否突破自身团队或自引圈层。

8. 对其他机构影响力指数

对其他机构影响力指数用于衡量主体影响是否扩散到其他机构。

系统会比较引用论文和被引论文两端的机构集合。如果没有共同机构，则计入“对其他机构影响”。

    对其他机构影响力指数 = 跨机构引用关系数量 / 领域内全部引用关系数量

该指标适合用于判断候选人才或机构的外部认可度。

9. 对其他国家地区影响力指数

对其他国家地区影响力指数用于衡量影响是否跨越国家或地区边界。

系统会比较引用论文和被引论文两端的国家或地区集合。如果没有共同国家或地区，则计入“对其他国家地区影响”。

    对其他国家地区影响力指数 = 跨国家或地区引用关系数量 / 领域内全部引用关系数量

该指标适合分析国际影响力、海外合作潜力和全球学术扩散。

10. 通讯论文、高质量成果与发文时间

除引用扩散指标外，系统还统计以下辅助指标：

指标	原理
通讯论文	通过作者表与通讯作者表匹配，统计主体作为通讯作者的论文数量。
通讯作者邮箱	汇总作者关联邮箱中占比最高的邮箱。
邮箱准确百分比	某邮箱在该作者相关文献中的出现比例。
JCR 分区	根据 JCR 词典统计 Q1、Q2、Q3、Q4 成果数量。
CNS 三刊	统计 Cell、Nature、Science 等顶级期刊相关成果。
发文时间跨度	统计主体最早和最晚发文时间。
国家/地区合作关系	统计作者成果中共同出现的国家或地区，并结合文献明细观察候选人与中国机构、国内科研人员及其他国家科研人员的合作基础。

这些指标有助于从“主导能力、成果质量、持续活跃度、国内合作基础”四个方面补充影响力解释。对于人才引进而言，最晚发文时间可以辅助判断候选人是否仍在活跃产出，与中国或国内机构的合作关系则可以辅助判断联系路径、合作基础和引进可行性。

11. 输出结果的逻辑

导出的 .xlsm 文件包含两个层次：

层次	作用
指标汇总表	用于排序、筛选和比较主体影响力。
文献明细表	用于回溯某主体对应的 SCI 论文成果。

这种设计适合人才工作中的“先筛选、再核验”流程：

1. 先通过指标汇总表定位高潜力人才或机构。

2. 再通过文献明细表核验代表性成果。

3. 最后结合专家判断、简历材料、项目经历和学院需求进行综合决策。

12. 使用边界

影响力指标适合辅助外部人才引进初筛和战略研判，但不应作为唯一评价依据。

需要注意：

1. 指标只反映当前 SCI 检索数据集范围内的影响力。

2. 不同学科之间不可直接横向比较。

3. SCI 数据下载范围、检索式和年份设置会直接影响结果。

4. JCR 词典版本会影响 Q1-Q4 和 CNS 统计结果。

5. 作者、机构清洗质量会直接影响指标准确性。

6. 高影响不等于完全适配学校发展方向。

7. 外部人才引进还需结合年龄阶段、任职机构、研究方向、平台需求、团队适配和发展潜力。

推荐使用方式：

用指标发现候选对象。
用明细表核验代表性成果。
用 JCR 字段识别高质量论文。
用最晚发文时间判断近期活跃度。
用国内合作关系判断联系路径和引进可能性。
用专家判断评估学术质量和平台匹配度。

SciMetrics高校图书馆学科服务：基于教师花名册精准定位本校论文成果的 AI 作者映射用户手册

发表评论

本手册面向高校图书馆学科服务场景，说明如何使用 SciMetrics 的 AI 作者映射功能，基于学校、学院或科研团队花名册，将文献数据库中的作者记录精准映射到本校教师，从而支持教师科研成果梳理、学科画像、学院成果统计和论文认领核验。

说明：本功能适用于“作者”和“通讯作者”两类对象。界面中可能显示为“AI 作者映射”或“AI 通讯作者映射”。

一、操作方法

1. 典型应用场景

高校图书馆在开展学科服务时，常常需要回答以下问题：

1. 某学院、某学科、某团队的老师近年发表了哪些论文？

2. 学校花名册中的教师，哪些可以在 WoS、Scopus、CNKI 等文献数据中精准定位？

3. 同名作者、英文缩写作者、拼音作者如何归并到校内真实教师？

4. 如何区分本校教师成果和校外同名作者成果？

5. 如何统计某教师、某学院或某岗位类型的论文成果、引用表现和合作网络？

AI 作者映射的核心用途，是把文献作者表中的原始作者写法，映射到用户提供的花名册标准写法。例如：

文献中的作者写法	花名册中的教师记录	映射结果
Wang, Q.	计算机学院-王强	计算机学院-王强
Chen Qiang	图书馆学系-陈强	图书馆学系-陈强
Li, B.[School of Packaging]	包装学院-李彪	包装学院-李彪
Wang Q.	计算机学院-王强、材料学院-王清	`计算机学院-王强

图1：高校图书馆学科服务中使用教师花名册匹配论文成果的示意图

2. 使用前准备

使用 AI 作者映射前，建议准备三类数据：

数据	说明
文献数据	从 WoS、Scopus、CNKI、万方、PubMed 等来源导入的论文数据。
作者或通讯作者表	软件读取文献后自动生成的作者表、通讯作者表。
单位花名册	学校、学院、学科或团队的教师名单，每行一位教师。

花名册建议包含尽可能多的辅助信息，尤其是学院、部门、单位、岗位或学科方向。推荐格式：

    计算机学院-王强
    材料科学与工程学院-李娜
    图书情报学院-陈强
    包装学院-李彪
    医学部-王琦

准备花名册时建议遵循以下原则：

1. 每行只放一位教师。

2. 同一个教师使用一种标准写法。

3. 学院或部门名称尽量完整。

4. 同名教师必须加上学院、部门或其他辅助信息。

5. 离职、退休、附属医院、兼职教师是否纳入，应先由图书馆或业务部门确定口径。

图2：学校教师花名册示例

3. 导入文献数据并确认作者表

操作步骤：

1. 打开软件，导入需要分析的文献数据。

2. 数据读取完成后，在数据表区域查看作者表和通讯作者表。

3. 检查作者记录是否包含英文姓名、拼音姓名、缩写姓名、机构信息等内容。

4. 按业务需要勾选需要处理的作者记录。

图3：作者表中显示英文缩写、拼音和机构信息的作者记录

说明：

如果要统计全部参与作者成果，可在作者表中使用 AI 作者映射。
如果只关注通讯作者成果，可在通讯作者表中使用 AI 通讯作者映射。
如果只处理本校成果，建议先通过机构、国家、省份或检索条件筛选出相关文献，再进行作者映射。

4. 选择要映射的作者记录

AI 作者映射只处理当前选中的作者记录。使用前需要先在作者表或通讯作者表中选择记录。

操作步骤：

1. 打开作者表或通讯作者表。

2. 勾选或选中需要映射的作者记录。

3. 对于初次使用，建议先选择几十条记录进行测试。

4. 测试结果符合预期后，再扩大到学院、学科或全校范围。

图4：智能体批量处理

建议：

首次运行可先选择同一学院或同一学科的作者，便于检查结果。
如果作者数量较多，建议启用智能体分批处理。
如果同名作者较多，花名册中一定要保留学院或部门信息。

5. 打开 AI 作者映射功能

有两种常用入口。

入口一：主菜单

1. 进入智能 -> AI分组 -> AI 作者映射。

2. 如果当前处理的是通讯作者，进入智能 -> AI分组 -> AI 通讯作者映射。

入口二：右键菜单

1. 在作者表中选中记录。

2. 右键打开菜单，选择 AI 作者映射。

3. 在通讯作者表中右键时，选择 AI 通讯作者映射。

图5：主菜单中的智能 -> AI分组 -> AI 作者映射入口

图6：作者表右键菜单中的 AI 作者映射入口

6. 配置 AI 作者映射参数

打开功能后，会出现 AI 设置窗口。主要配置项包括模型、API Key、作者名单、分批处理和提示词。

图7：AI 作者映射设置窗口

参数说明：

参数	说明
模型	选择用于作者映射的 AI 模型。
API Key	输入模型调用所需的密钥。
作者/通讯作者名单	粘贴学校、学院或团队花名册。AI 只会从这份名单中选择结果。
启用分批处理	当选中作者较多时，建议启用。
每批数量	每次提交给 AI 的作者记录数，默认一般为 100。
提示词配置	映射规则说明，通常不需要修改。

操作步骤：

1. 在模型中选择已配置的 AI 模型。

2. 填写或确认 API Key。

3. 将单位花名册粘贴到作者/通讯作者名单输入框。

4. 作者数量较多时勾选启用分批处理。

5. 设置每批数量，建议从 50 到 100 开始。

6. 点击确定，开始映射。

7. 查看映射结果

映射完成后，软件会把结果写回作者表或通讯作者表。

关键字段：

字段	含义
Record	文献数据中提取的原始作者写法。
Group	AI 映射后的花名册标准写法。
GroupId	映射标记，通常包含 AuthorMap、判断类型和模型名称。
ParId	分组父级信息，作者映射时一般置为 0。

映射结果示例：

Record	Group	GroupId
Wang, Q.	计算机学院-王强	AuthorMap[Matched][模型名]
Chen, Q.[Beijing Inst Graph Commun]	图书情报学院-陈强	AuthorMap[Matched][模型名]
Wang Q.	`计算机学院-王强	材料学院-王清`

图8：作者表中 Group 字段写入映射结果

结果类型说明：

类型	含义	处理建议
Matched	AI 判断可以唯一匹配到花名册中的某位教师。	可作为初步可信结果，建议抽样核验。
Ambiguous	AI 判断可能对应多位教师，结果用 `	` 分隔。
Unmatched	无法在花名册中找到合理候选。	不写入 Group，可补充花名册或人工复核。

8. 利用映射结果定位教师论文成果

作者映射完成后，可以用 Group 字段把文献作者统一到校内教师身份，从而开展成果统计。

常见操作：

1. 在作者表中搜索某位教师的标准写法，如计算机学院-王强。

2. 使用“查看相关”功能定位该教师关联的文献。

3. 导出数据表或统计表，形成教师成果清单。

4. 按学院、学科或团队字段汇总教师论文数量、期刊、年份、合作机构等。

5. 对通讯作者映射结果单独统计，用于分析本校主导成果。

图9：截图占位：通过 Group 字段搜索某位教师

图10：查看某位教师关联论文列表

高校图书馆常见成果清单字段建议：

字段	说明
教师标准名称	来自花名册映射结果，如计算机学院-王强。
原始作者写法	文献数据库中的作者名称。
论文题名	文献标题。
发表年份	用于年度成果统计。
期刊 / 会议	用于成果来源分析。
作者类型	普通作者或通讯作者。
本校机构	用于确认是否为本校成果。
被引次数	用于影响力分析。
DOI / 文献号	用于后续核验。

9. 结果复核建议

AI 作者映射可以显著提高定位效率，但涉及科研成果认领时，建议保留人工复核环节。

优先复核以下记录：

1. Group 中包含 | 的多候选记录。

2. 同名或同姓同首字母作者。

3. 文献作者缺少机构信息的记录。

4. 花名册中存在同名教师的学院。

5. 英文缩写过短的记录，例如 Wang, J.、Li, Y.。

6. 跨学院、附属医院、联合培养或兼职教师相关记录。

复核方法：

方法	说明
看机构地址	判断论文机构是否与教师所在学院或学校一致。
看研究方向	题名、关键词、摘要是否符合教师研究方向。
看通讯作者	通讯作者邮箱或地址是否指向本校。
看合作网络	共同作者是否为同一学院或团队成员。
查 DOI / 原文	对关键成果进行外部核验。

10. 保存和复用

AI 作者映射设置中的作者名单会被保存，便于下次继续使用。对于图书馆学科服务工作，建议建立多个花名册版本。

推荐命名方式：

    全校教师花名册_2026
    计算机学院教师花名册_2026
    图书情报学院教师花名册_2026
    附属医院通讯作者名单_2026
    重点学科团队名单_2026

建议工作流：

1. 学校层面建立全校花名册。

2. 学院层面维护学院花名册。

3. 学科服务馆员可按服务对象维护专题花名册。

4. 每次成果统计前记录使用的花名册版本。

5. 对人工修正后的映射结果定期回填到花名册或规则库。

二、原理说明

1. AI 作者映射的基本逻辑

AI 作者映射本质上是一个“受控名单匹配”任务。系统把两类信息发送给 AI：

1. 用户提供的作者名单或通讯作者名单。

2. 当前选中的待识别作者记录。

AI 必须只从用户提供的名单中选择候选，不能编造名单外人员。匹配成功后，系统将名单中的原始写法写入 Group 字段。

例如，花名册中是：

    计算机学院-王强
    材料学院-王清

待识别作者是：

   Wang, Q.

如果无法唯一判断是王强还是王清，AI 应返回多候选结果，并写为：

计算机学院-王强|材料学院-王清

2. 匹配依据

AI 作者映射会综合使用以下线索：

线索	说明
中文姓名	直接比较中文姓名是否一致。
拼音姓名	比较王强与 Wang Qiang、Qiang Wang 等写法。
缩写姓名	比较 Wang, Q.、Wang Q 等姓氏加首字母形式。
姓名前后顺序	同时考虑名在前、姓在前。
学院 / 部门	用作辅助证据，提高或降低置信度。
机构地址	作者记录中带机构信息时，可辅助判断是否为本校教师。
候选唯一性	如果同姓同首字母只有一个候选，可判为匹配；多个候选则判为模糊。

3. 写回规则

系统解析 AI 返回的 JSON 结果，并按以下方式写回数据表：

AI 返回	系统写回
group_value 不为空	写入 Group 字段。
decision = Matched	GroupId 写入 AuthorMap[Matched][模型名]。
decision = Ambiguous	GroupId 写入 AuthorMap[Ambiguous][模型名]。
decision = Unmatched 且无 group_value	不写入映射结果。
多个候选	使用 `

系统要求 AI 返回结果覆盖每一个待识别 ID。如果某些 ID 被模型遗漏，程序会尝试只对遗漏 ID 再次请求，以提高结果完整性。

4. 为什么适合高校图书馆学科服务

高校成果分析的难点不只是“作者重名”，还包括：

1. 中文姓名在国际数据库中常被写成拼音。

2. 许多数据库只保留姓氏和名字首字母。

3. 同一学校内可能存在多位同姓同首字母教师。

4. 作者机构字段常包含英文缩写、旧机构名、二级学院或附属医院名称。

5. 学科服务需要按本校组织体系统计，而不是只按数据库作者字符串统计。

AI 作者映射允许图书馆把“组织花名册”作为受控知识输入，让 AI 在名单范围内完成解释和匹配，从而把文献数据转化为面向学校管理和学科服务的教师成果数据。

5. 方法局限

使用该功能时，需要注意以下限制：

1. AI 映射结果不能替代最终人工认领。

2. 花名册越完整，映射结果越稳定。

3. 缺少机构、题名或学科信息时，缩写作者更容易产生多候选。

4. 同姓同首字母教师较多时，应优先使用学院花名册分批处理。

5. 不同模型对复杂姓名和机构线索的判断能力不同，建议固定模型版本。

6. 成果用于正式考核、绩效或评价时，应进行人工复核和留痕。

推荐原则：

用 AI 做初筛和批量归并。
用馆员复核处理模糊候选。
用教师本人或学院确认关键成果。
用固定花名册版本保证统计口径一致。

SciMetrics：AI 主题发展潜力指数与桑基图可视化用户手册

发表评论

本手册用于指导用户在 SciMetrics中完成 AI 主题发展潜力指数计算和 AI 主题桑基图可视化分析。

说明：软件界面中该指数可能显示为“AI 主题发展力指数”，本手册统一称为“AI 主题发展潜力指数”。“桑基图”英文“Sankey 图”。

一、操作方法

1. 使用前准备

在计算指数或绘制桑基图之前，需要先完成数据读取、数据清洗和 AI 主题识别。建议按以下顺序准备：

1. 打开软件，导入待分析的文献数据。

2. 检查文献表中是否包含题名、摘要、关键词、年份、作者、机构、分类、引文或参考文献等字段。

3. 如需使用 AI 自动识别主题，先进入智能 -> AI 接口配置，填写模型地址、模型名称和 API Key。

4. 在文献数据表中确认需要参与分析的文献已被勾选。如果后续参数选择“仅使用已勾选文献”，未勾选文献不会参与计算。

图1：数据导入后的主界面

建议在开始分析前完成以下检查：

检查项	说明
文献年份	AI 主题发展潜力指数和桑基图都依赖年份字段，年份缺失会影响趋势分析。
AI 主题	文献需已有 AI 主题，否则指数和桑基图无法生成有效结果。
作者与机构	指数中的作者进入、机构进入和机构布局均衡度依赖相关字段。
分类字段	学科融合度通常依赖类别 1 / 一级学科等分类字段。
引文数据	引文影响力依赖被引次数或参考文献关系，缺失时该维度贡献会降低。

2. 生成或检查 AI 主题

如果当前数据集中还没有 AI 主题，请先生成 AI 主题。

操作步骤：

1. 在主界面进入智能 -> 文档 -> AI 主题识别。

2. 等待 AI 主题识别完成。

3. 切换到文献表，查看 AI主题字段是否已有主题内容。

4. 如需人工修正主题，可进入智能 -> 文档 -> 编辑 AI 主题。

5. 如主题结果需要重新生成，可进入智能 -> 文档 -> 重置 AI 主题后再次识别。

图2： AI 主题识别菜单入口

注意事项：

一个文献可以对应一个或多个 AI 主题。
主题名称应尽量稳定、简洁，避免同义词过多造成主题被拆散。
若已做过人工编辑，重新识别或重置 AI 主题可能覆盖原有结果。

3. 计算 AI 主题发展潜力指数

AI 主题发展潜力指数用于识别哪些 AI 主题具有较好的增长趋势、近期活跃度、引用影响、作者和机构进入、学科融合与持续发展基础。

操作步骤：

1. 确认已打开包含 AI 主题的数据集。

2. 进入指数 -> AI主题指数 -> AI主题发展力指数。

3. 在弹出的保存窗口中选择导出位置。

4. 建议使用默认文件名，或命名为 AI主题发展潜力指数\\\_项目名\\\_日期.xlsx。

5. 点击保存，软件会自动计算并导出 Excel 文件。

图3： AI主题发展力指数菜单入口

导出的 Excel 文件通常包含两个工作表：

工作表	内容
AI Topic Growth	各 AI 主题的发展潜力指数、排名、分项得分和原始统计量。
Method	指数名称、默认参数、计算公式和各分项含义。

AI Topic Growth 工作表中的关键字段如下：

字段	含义
Rank	主题排名，按综合指数从高到低排列。
Topic	AI 主题名称。
AITopicGrowthIndex	AI 主题发展潜力综合指数。
TopicScaleScore	主题规模得分，反映该主题总体文献规模。
GrowthMomentumScore	增长动能得分，反映近年文献增长情况。
CitationImpactScore	引文影响得分，反映主题文献平均被引影响。
AuthorEntryScore	作者进入得分，反映近年首次进入该主题的作者比例。
InstitutionEntryScore	机构进入得分，反映近年首次进入该主题的机构比例。
DisciplineFusionScore	学科融合得分，反映主题涉及学科类别的均衡程度。
InstitutionLayoutBalanceScore	机构布局均衡得分，反映参与机构分布是否均衡。
TimeWindowStabilityScore	时间窗口稳定得分，反映主题是否具有持续产出。
DocumentCount	该主题相关文献总量。
RecentDocumentCount	最近若干年该主题相关文献数量。

AITopicGrowthIndex 越高，表示该主题综合发展潜力越强。
如果某主题 GrowthMomentumScore 高但 TopicScaleScore 低，通常说明该方向规模尚小但增长较快，适合作为新兴机会方向观察。
如果某主题 TopicScaleScore 和 CitationImpactScore 高，但 GrowthMomentumScore 低，通常说明该方向已有积累，但近期增长可能趋缓。
如果 AuthorEntryScore 和 InstitutionEntryScore 高，说明近期有更多新作者、新机构进入，可能代表研究共同体正在扩张。
如果 DisciplineFusionScore 高，说明该主题具有较强跨学科特征，适合用于识别交叉融合方向。

图4：导出的 AI Topic Growth 工作表示例

4. 绘制 AI 主题桑基图可视化

AI 主题桑基图用于观察主题随时间的延续、分化、合流和转移关系。图中每一列代表一个时间片，每个节点代表该时间片中的一个 AI 主题，节点之间的连线表示相邻时间片之间主题的关联强度。

操作步骤：

1. 确认当前数据集已经完成 AI 主题识别。

2. 进入智能 -> AI主题 -> AI 主题桑基图。

3. 在参数窗口中设置时间切片和连接方式。

4. 点击确定，软件会生成 AI 主题桑基图窗口。

图5： AI 主题桑基图菜单入口

图6：AI 主题桑基图参数设置窗口

参数说明：

参数	默认值	说明
时间间隔	1	每个时间片包含的年份数。1 表示按年展示，3 表示每 3 年合并为一个时间片。
连接方式	关键词相似度	用于判断相邻时间片中主题之间的关联。可选关键词相似度、主题词相似度、引证关系。
每段最大主题	20	每个时间片中最多展示的主题数量，按文献数量筛选。
最小相似度	0.1	只有关联强度达到该阈值的主题连线才会显示。
仅使用已勾选文献	默认勾选	勾选后只分析当前被选中的文献。

参数选择建议：

分析目标	推荐设置
观察年度主题演化	时间间隔设为 1，每段最大主题设为 15 到 25。
数据年份较长或主题较多	时间间隔设为 2 到 5，减少视觉拥挤。
希望看到更多弱关联	适当降低最小相似度，如 0.05 到 0.08。
希望图形更清晰	提高最小相似度，如 0.15 到 0.2，并减少每段最大主题数。
关注知识内容延续	连接方式选择关键词相似度或主题词相似度。
关注引用脉络延续	连接方式选择引证关系。

生成后的窗口主要包含三部分：

区域	作用
左侧主题列表	显示时间片、主题名称和文献数量，可搜索和选择节点。
中间桑基图	展示主题在不同时间片之间的流动关系。
右侧显示设置	调整节点大小、连线宽度、连线透明度、曲率、标签大小、缩放比例等。

图7： AI 主题桑基图主窗口

常用交互：

操作	效果
鼠标滚轮	缩放图形。
Shift + 鼠标左键拖动	平移图形视图。
点击左侧主题列表中的主题	高亮该主题及相关连线。
点击图形空白处	取消高亮选择。
在左侧搜索框输入关键词	筛选主题节点。
点击重置按钮	恢复默认缩放、背景和显示设置。
点击黑白背景按钮	在黑色和白色背景之间切换。

截图占位：选择某一主题节点后的高亮效果。

截图占位：调整连线宽度、透明度和标签大小后的效果。

5. 保存和导出桑基图结果

在 AI 主题桑基图窗口中，可以保存图形工程文件，也可以导出图片或数据。

操作	说明
打开	打开已有 .sankey 文件。
保存为 .sankey	保存桑基图数据和显示设置，便于下次继续编辑。
保存为 .svg	导出矢量图，适合插入论文、报告或幻灯片。
导出 Excel	导出桑基图节点、连线和参数数据，便于复核和二次分析。

建议：

用于继续编辑时，保存为 .sankey。
用于论文或报告插图时，保存为 .svg。
用于检查节点、连线和相似度数值时，导出 Excel。

6. 常见问题处理

问题	可能原因	处理方法
无法计算指数	数据集中没有 AI 主题	先执行 AI 主题识别。
指数结果为空	文献没有有效主题或文献表缺失	检查文献表、AI主题字段和数据读取状态。
桑基图没有节点	没有 AI 主题或年份无法解析	检查 AI 主题和年份字段。
桑基图节点很多、图形拥挤	每段最大主题数过高或时间间隔过小	增大时间间隔，减少每段最大主题数。
桑基图连线过少	最小相似度过高或连接方式不适合	降低最小相似度，尝试更换连接方式。
某些主题被拆分	AI 主题命名不一致或同义词未合并	使用编辑 AI 主题功能统一主题名称。
指数排名与直觉不一致	指数综合考虑多维指标，不只看发文量	同时查看分项得分，判断高分来自哪个维度。

二、原理说明

1. 数据基础

AI 主题发展潜力指数和 AI 主题桑基图都建立在“文献 – AI 主题 – 时间”的基础数据结构之上。

核心数据包括：

数据	作用
文献 ID	用于连接文献、主题、作者、机构、分类和引文信息。
AI 主题	用于定义分析对象，即每个主题的发展潜力和演化关系。
年份	用于判断近期增长、时间窗口稳定性和主题演化路径。
作者	用于计算作者进入情况。
机构	用于计算机构进入和机构布局均衡度。
类别 / 学科	用于计算学科融合度。
被引次数 / 参考文献	用于计算引文影响或引证关系。
关键词 / 主题词	用于计算桑基图中主题之间的内容相似性。

2. AI 主题发展潜力指数原理

AI 主题发展潜力指数不是单纯的发文量排名，而是将主题规模、增长动能、引用影响、主体进入、学科融合、机构布局和时间稳定性综合起来，判断一个主题是否具有持续发展潜力。

系统默认使用最近 3 年作为近期窗口，使用 3 年作为时间稳定性统计窗口。每个分项先在主题之间进行归一化，再按权重加权求和。

综合公式为：

    TGPI =
    0.15 \\\* TopicScale
    + 0.18 \\\* GrowthMomentum
    + 0.12 \\\* CitationImpact
    + 0.12 \\\* AuthorEntry
    + 0.12 \\\* InstitutionEntry
    + 0.11 \\\* DisciplineFusion
    + 0.10 \\\* InstitutionLayoutBalance
    + 0.10 \\\* TimeWindowStability

其中：

分项	含义	解释
TopicScale	主题规模	该主题相关文献总量的归一化值。
GrowthMomentum	增长动能	最近若干年该主题文献数量的归一化值。
CitationImpact	引文影响	该主题文献平均被引次数的归一化值。
AuthorEntry	作者进入	最近若干年首次进入该主题的作者数占该主题作者总数的比例，并归一化。
InstitutionEntry	机构进入	最近若干年首次进入该主题的机构数占该主题机构总数的比例，并归一化。
DisciplineFusion	学科融合	该主题相关学科类别分布的 Shannon 均衡度，并归一化。
InstitutionLayoutBalance	机构布局均衡	该主题相关文献在机构上的 Shannon 均衡度，并归一化。
TimeWindowStability	时间窗口稳定	按固定时间窗口统计主题文献分布的 Shannon 均衡度，并归一化。

归一化的作用是让不同量纲的指标可以放在同一尺度下比较。例如，文献数量、被引次数、作者比例和 Shannon 均衡度的原始数值范围不同，归一化后才能进行加权合成。

指数解读时应注意：

该指数是相对指数，主要用于同一数据集内不同主题之间的比较。
指数高不代表主题一定“成熟”，而是表示其在当前数据集中呈现较强发展潜力。
对新兴主题而言，综合指数、增长动能、作者进入和机构进入通常更值得关注。
对成熟主题而言，主题规模、引文影响和时间稳定性通常更能体现持续影响。

3. 桑基图可视化原理

AI 主题桑基图将主题演化过程表示为跨时间片的流动关系。

基本流程如下：

1. 根据文献年份确定最早年份和时间范围。

2. 按用户设置的时间间隔切分时间片。

3. 在每个时间片内统计各 AI 主题对应的文献数量。

4. 每个时间片只保留文献数量排名靠前的若干主题。

5. 计算相邻时间片中主题之间的关联强度。

6. 将主题表示为节点，将关联表示为连线，生成桑基图。

节点含义：

每个节点代表一个时间片中的一个 AI 主题。
节点高度与该主题在该时间片中的文献数量相关。
同名主题在相邻时间片中会被优先视为延续关系。

连线含义：

连线表示相邻时间片中两个主题之间存在内容或引证关联。
连线越粗，表示关联强度越高。
连线颜色通常跟随来源主题，便于追踪主题流向。

不同连接方式的计算逻辑：

连接方式	原理	适用场景
关键词相似度	比较两个主题相关文献的关键词集合，使用集合交集和并集计算相似性。	观察研究内容是否延续。
主题词相似度	比较两个主题相关文献的主题词集合，判断专业术语层面的相似性。	观察概念和术语体系演化。
引证关系	比较两个主题相关文献的参考文献或引证特征，判断知识基础是否相连。	观察知识脉络和引用传统延续。

当使用关键词相似度或主题词相似度时，主题之间的相似度可理解为 Jaccard 相似性：

    Similarity = 共同特征数量 / 全部特征数量

当使用引证关系时，系统主要根据共同参考文献或引证特征判断关联强度。共同引证基础越多，主题之间的连线越强。

4. 如何结合指数和桑基图解读主题发展

指数和桑基图适合配合使用：

观察对象	指数提供的信息	桑基图提供的信息
高潜力主题	哪些主题综合潜力更高	这些主题是否有连续演化路径
新兴主题	哪些主题近期增长明显	新主题从哪个历史方向发展而来
稳定主题	哪些主题持续产出、影响较稳	主题是否长期保持连续流动
分化主题	分项得分是否呈现扩张迹象	一个主题是否分流为多个方向
融合主题	学科融合和机构布局是否较高	多条主题流是否汇入同一方向

典型判断方式：

高指数且在桑基图中连续存在：说明该主题既有综合潜力，也有清晰演化基础。
高增长但桑基图中刚出现：可能是新兴主题，需要结合文献内容进一步判断。
桑基图中连线很强但指数不高：说明主题延续性好，但近期增长、进入或融合维度可能不足。
指数高但桑基图连线弱：可能是主题命名变化、关键词差异较大，或该主题具有跳跃式发展特征。

5. 方法局限与使用建议

使用该功能时需注意以下局限：

1. AI 主题识别质量会直接影响指数和桑基图结果。

2. 年份字段缺失或格式不规范，会影响增长和演化分析。

3. 引文数据不足时，引文影响和引证关系的解释应更加谨慎。

4. 不同数据集之间的指数不宜直接比较，除非数据来源、时间范围和清洗规则一致。

5. 若主题命名存在同义词、缩写或中英文混用，应先统一主题名称。

6. 勾选文献会改变分析范围，导出结果时应记录是否使用了“仅使用已勾选文献”。

推荐工作流：

1. 先完成数据清洗和 AI 主题识别。

2. 导出 AI 主题发展潜力指数，确定重点主题。

3. 对重点主题绘制 AI 主题桑基图，观察演化路径。

4. 将指数分项、桑基图流向和代表性文献结合，形成分析结论。

SciMetrics：AI 新兴主题识别与可视化用户

发表评论

本文介绍如何在 SciMetrics 中利用大模型完成“AI 主题识别 → AI 新兴主题可视化 → 结果解读与导出”的完整流程。前半部分以操作为主，后半部分解释核心计算原理。

图1：软件主界面与顶部 AI 菜单

一、功能适用场景

AI 新兴主题可视化适合回答以下问题：

最近几年哪些研究主题正在变得活跃？
哪些文献代表了某个主题的前沿方向？
一个主题是历史延续，还是由新的知识组合产生？
不同主题下的文献在语义、引文、共引或分类关系上是否接近？
哪些新近文献虽然被引次数不高，但可能具有较高的新颖度？

该功能依赖已有的文献数据和 AI 主题识别结果。基本流程：导入文献数据，执行 AI 主题识别，生成 AI 新兴主题可视化图。

二、数据准备

1. 导入或打开数据集

首先打开 SciMetrics，导入已经下载的文献数据。数据中最好包含文献题名、年份、被引次数、关键词、主题词、引文或分类信息。

如果需要只分析部分文献，可以先在文档列表中勾选目标文献。后续生成新兴主题图时，可以选择“仅勾选文献”。

图2：文献列表图

2. 确认 AI 模型配置

AI 主题识别需要可用的 AI 模型配置。如果模型未配置，在菜单中进入 AI 配置，完成模型、API 地址和密钥等设置。

图3：AI 模型配置窗口

三、第一步：执行 AI 主题识别

1. 打开 AI 主题识别

在主界面顶部菜单中选择：AI → 文档 → AI 主题识别

系统会根据文献题名、摘要或相关文本信息，为每篇文档识别一个或多个主题。识别完成后，这些主题会写入数据集，作为后续桑基图、新兴主题图、主题统计和主题指数计算的基础。

图4： AI 主题识别

2. 是否使用预定义类别

在 AI 主题识别过程中，如果希望主题名称稳定、便于横向比较，可以启用“使用预定义类别”，并输入候选主题名称。AI 会尽量把文献归入这些类别。

如果不启用预定义类别，AI 会根据文献内容自动总结主题。这种方式更适合探索未知主题，但不同批次之间的主题命名可能会略有差异。

推荐做法：

探索性分析：不使用预定义类别，让 AI 自动发现主题。
已有研究框架：使用预定义类别，便于形成稳定的主题体系。
准备做新兴主题图：建议先检查主题名称，必要时使用“编辑 AI 主题”进行修正。

图5：AI 主题识别设置窗口

3. 等待 AI 主题识别完成

执行后，软件会使用智能体分批调用 AI 模型。状态栏会显示当前批次、已更新数量和完成状态。

识别完成后，可以在文档表或主题相关字段中查看每篇文献的 AI 主题。

图6：AI 主题识别运行过程中的进度状态栏

4. 编辑或重置 AI 主题

如果发现主题名称不准确，可以对其进行修改和编辑：

图7：编辑 AI 主题

四、第二步：生成 AI 新兴主题可视化

1. 打开新兴主题可视化入口

完成 AI 主题识别后，在主界面顶部菜单中选择：AI → AI 主题 → AI 新兴主题可视化

系统会弹出参数设置窗口，用于选择文献关系、布局方式、分析年份和历史基线。

图8： AI 新兴主题可视化

2. 设置文献关系

“文献关系”决定系统如何计算两篇文献之间是否接近。当前支持以下方式：

关键词：根据共同关键词计算相似度。
主题词：根据主题词或子词计算相似度。
引文/参考文献：根据直接引用或共同参考文献计算关系。
共引：根据两篇文献是否被相同文献引用计算关系。
Class1-Class4：根据不同层级的分类信息计算相似度。
混合关系：综合关键词、主题词、引文、共引和分类信息。

推荐设置：

默认建议使用“引文/参考文献”，适合强调知识承接关系。
如果数据中引文信息不完整，可以使用“关键词”或“主题词”。
如果希望综合多种证据，可以使用“混合关系”。
如果项目中 Class1-Class4 分类质量较高，可以选择对应分类层级。

图9：AI 新兴主题 “文献关系”

3. 设置布局方式

当前用户可选布局主要包括：

UMAP：默认推荐，适合较大规模文献点云，主题结构更稳定。
t-SNE：适合观察局部邻近关系，但不要过度解释全局距离。

建议优先使用 UMAP。如果希望对局部小簇关系做探索，可以尝试 t-SNE 对比。

图 10：布局方式选择

4. 设置分析窗口

分析窗口决定哪些文献会进入图中。常用方式有三种：

最近 N 年：例如最近 5 年，适合寻找当前前沿主题。
自定义年份：例如 2020-2025，适合分析指定阶段。
全部年份：适合整体观察，但“新兴”特征会被历史数据稀释。

如果目标是发现新兴主题，推荐使用“最近 N 年”，并根据学科更新速度设置 N：

快速变化领域：3-5 年。
一般领域：5-8 年。
稳定或长期积累领域：8-10 年。

图 11：分析窗口、最近年份数、自定义年份设置

5. 设置历史基线

历史基线用于判断当前文献和主题相对于过去是否新颖。它不会直接出现在图中，但会参与新颖度计算。

可选方式包括：

分析窗口之前 N 年：默认推荐，用最近历史作为比较对象。
全部历史：适合历史数据完整、希望和全部过去比较的情况。
不使用历史基线：只强调当前时间窗口内部的新近程度和结构。

推荐做法：

常规分析：使用“分析窗口之前 N 年”，基线年份数可设为 10。
数据历史较短：可以减少基线年份数。
只想看最近文献空间分布：可以不使用历史基线，但此时新颖度解释应更谨慎。

图12：历史基线与基线年份数设置。

6. 设置最大文献数和最大主题数

为了保证图形清晰，可以限制进入图中的文献数和主题数。

最大文献数：控制图中最多显示多少篇文献。
最大主题数：控制最多显示多少个 AI 主题。
最小关系强度：过滤较弱关系。
每篇 Top 关系：每篇文献最多保留多少条最强关系。
仅勾选文献：只分析当前勾选的文献。

推荐设置：

小样本精读：文献数 50-150，主题数 10-20。
大规模探索：文献数 500-1000，主题数 30-50。

图13：最大文献数、最大主题数、最小关系强度

7. 点击确定生成图形

设置完成后点击“确定”。软件会计算文献关系、新颖度指数、主题摘要和二维布局，并打开 AI 新兴主题可视化窗口。

图14：AI 新兴主题可视化窗口

五、第三步：阅读新兴主题图

1. 图形区

图形区是文献地图：

每个节点表示一篇文献。
节点大小表示文献被引用次数。
节点颜色深浅表示新颖度，颜色越深通常表示越新颖。
同一主题下的文献使用相同主题颜色和形状。
主题名称显示在对应文献簇附近，前面的 #序号对应左侧主题列表。
主题凸包表示该主题文献在图中的空间范围，单篇文献主题不绘制凸包。

图15：中央图形区，标注节点、主题标签、主题凸包和图例。

2. 左侧主题列表

左侧上半部分是主题列表，主要字段包括：

序号：与图中主题标签前的 #序号对应。
主题样式：显示该主题的颜色和节点形状。
主题：AI 识别出的主题名称。
新颖度：该主题的新颖度指数。
文献：该主题下进入图中的文献数量。
被引：该主题下文献的总被引用次数。

点击某个主题后，图中会高亮该主题的文献，同时下方文献列表会切换为该主题下的文献。

图16：左侧主题列表，展示主题新颖度、文献数和被引列

3. 左侧文献列表

左侧下半部分是文献列表，主要字段包括：

序号：当前列表中的文献顺序。
年份：文献发表年份。
题名：文献标题。
新颖度：该文献的新颖度指数。

点击某篇文献后，图中会高亮对应节点。右键文献可以查看原始数据，便于核对题名、年份、引文等信息。

图17：文献列表与“查看原始数据”右键菜单

4. 右侧显示设置

右侧面板用于调整视觉效果：

节点大小：放大或缩小文献节点。
节点边框：调整节点边框粗细，最小可为 0。
节点标签大小：调整文献标签和主题标签字号。
英文换行：控制英文主题名称每行最多显示字符数。
图形缩放：调整整体缩放。
节点标签：显示或隐藏文献标题标签。
主题标签：显示或隐藏主题名称。
节点标签防重叠：自动减少文献标签重叠。
图例：显示或隐藏图例。

图 18：右侧显示设置面板

5. 工具栏常用按钮

窗口上方工具栏包含常用操作：

打开：打开已有 .aitopicmap 文件。
保存：保存当前图，或保存为 SVG。
黑白背景：在黑色和白色背景之间切换。
彩色背景：选择自定义背景色。
重置：恢复默认显示设置。
主题凸包：在关闭凸包、有机包络、凸包之间切换。
Excel：导出主题、文献和参数数据。
退出：关闭窗口。

鼠标滚轮可以缩放图形。按住 Shift + 鼠标左键可以平移图形。主题文字可以用鼠标左键拖动位置。

图19：顶部工具栏保存、背景、凸包、Excel操作

六、主题和文献的交互操作

1. 修改主题名称

在图中的主题文字上右键，或在左侧主题列表中右键，可以选择“修改主题名称”。修改后，主题列表、图中主题标签和对应文献的主题名称会同步更新。

图 20：右键修改主题名称

2. 修改主题颜色和节点形状

在左侧主题列表中右键主题，可以修改主题颜色和节点形状。节点形状支持圆形、方形、三角形、十字形、菱形和星形。

这适合在公众号配图前对重点主题做视觉强调。

图 21：主题颜色和节点形状右键菜单

3. 调整主题文字字体

在可视化区域空白处右键，可以修改主题文字字体。也可以控制是否显示主题文字边框。默认情况下，主题标签不使用背景矩形，主要通过字体样式增强识别。

图22：主题文字字体设置窗口

4. 查看文献原始数据

在文献节点或文献列表中右键，选择“查看原始数据”，可以打开该文献的原始记录。该功能适合在解释某个前沿节点时核对文献细节。

图23：文献原始数据窗口。

5. 去除节点标签重叠

如果打开节点标签后文字重叠较多，可以在节点或空白区域右键，选择“去除节点标签重叠”，也可以在右侧面板勾选“节点标签防重叠”。

七、保存与导出

1. 保存为 .aitopicmap

.aitopicmap 是 AI 新兴主题图的专用文件格式。它会保存模型数据、文献节点、主题信息、分析参数和显示设置。以后可以重新打开继续查看或调整。

2. 保存为 SVG

保存时如果选择 .svg 扩展名，软件会导出当前可视化图形。SVG 适合用于文献、报告、公众号长图或进一步排版。

3. 导出 Excel

点击工具栏中的 Excel 按钮，可以导出数据表。导出的工作簿通常包含：

Summary：总体统计。
Topics：主题新颖度、文献数、被引数等。
Papers：文献题名、年份、被引、新颖度和坐标。
Links：文献关系。
Options：本次分析参数。

图 24：导出的 Excel 表格

八、如何解读结果

1. 高新颖度主题

主题新颖度越高，说明该主题下文献整体更具有新近性、历史差异性或增长性。它通常代表近期更值得关注的研究方向。

注：新颖度高不等于一定重要。还应结合文献数量、总被引次数和具体文献内容判断。

2. 大节点与深色节点

大节点表示被引用次数较高，通常是影响力较大的文献。深色节点表示新颖度较高，通常是更接近当前前沿的文献。

一个值得重点关注的节点，往往同时具备以下特征：

节点较大。
颜色较深。
位于主题簇的核心或连接多个主题附近。
对应主题的新颖度较高。

3. 主题凸包

主题凸包表示同一主题文献在图中的大致空间范围。凸包面积较大，说明该主题内部文献分布较分散；凸包较紧凑，说明主题内部文献更集中。

单篇文献主题不会绘制凸包，因为单个点无法形成稳定范围。

4. 不同布局的解释方式

UMAP 和 t-SNE 都是降维布局方法。图中距离可以理解为一种“相似性线索”，但不应被解释为严格的数学距离。

更可靠的解读方式是：

看同一主题文献是否形成簇。
看某些主题是否接近或交叠。
看高新颖度节点是否集中出现在某些区域。
看被引高的节点是否位于主题核心位置。

九、参数选择建议

文献关系：引文/参考文献或混合关系。
布局方式：UMAP。
分析窗口：最近 5 年。
历史基线：分析窗口之前 10 年。
最大文献数：300-500。
最大主题数：20-30。
节点标签：默认关闭，只保留主题标签。
主题凸包：使用有机包络。

十、常见问题

1. 为什么生成不了新兴主题图？

常见原因包括：

尚未执行 AI 主题识别。
文档缺少年份。
当前勾选文献过少，但启用了“仅勾选文献”。
数据集中缺少可用于关系计算的关键词、主题词、引文或分类信息。

2. 为什么有些主题没有凸包？

如果一个主题只有一篇文献，系统不会绘制主题凸包。因为单个点无法形成范围。

3. 为什么同一主题的文献没有完全挤在一起？

布局同时考虑文献特征相似性和主题聚拢。系统会尽量让同一主题靠近，但如果某些文献在关键词、引文或分类上差异较大，它们可能仍然分散。

4. 为什么被引高的文献不一定新颖度高？

被引次数表示影响力或关注度，新颖度表示相对于历史和当前时间窗口的创新程度。经典文献可能被引很高，但不一定属于新兴主题。

5. 为什么 t-SNE 和 UMAP 的图不一样？

两者都是降维算法，但优化目标不同。UMAP通常更适合保持整体结构，t-SNE更强调局部邻近关系。因此两种图可以互相参考，但不要把坐标距离解释得过于绝对。