SciMetrics:AI主题竞争力指数与热力图可视化用户手册

SciMetrics:AI主题竞争力指数与热力图可视化用户手册

本手册用于指导用户在 SciMetrics 中完成 AI 主题竞争力指数计算、AI 主题竞争热力图展示和 AI 主题竞争力地形图可视化分析。

说明:当前 SciM 项目中,该功能在界面资源中显示为“AI 主题竞争热力图”,窗口内包含“热力图视图”和“地形图视图”两个页签。本手册将二者合称为“AI 主题竞争力可视化”。

图1:SciMetrics 主界面

一、操作方法

1. 功能适用场景

AI 主题竞争力指数和可视化适合回答以下问题:

  • 在同一个 AI 主题下,哪些作者、机构或国家更具竞争力?
  • 某个作者、机构或国家在哪些 AI 主题上具有相对优势?
  • 不同 AI 主题的竞争主体是否集中,还是存在多主体竞争?
  • 某些主题是否形成明显的竞争高峰或主体集群?
  • 如何将 AI 主题竞争格局导出为 Excel、热力图或可继续编辑的工程文件?

该功能依赖已有文献数据和 AI 主题识别结果。一般流程是:先导入或打开数据集,再执行 AI 主题识别,之后导出竞争力指数或生成竞争力热力图与地形图。

2. 准备工作

2.1 导入或打开数据集

首先打开 SciMetrics,并导入已经整理好的文献数据。建议数据中至少包含:

数据项作用
文献编号连接文献、主题、作者、机构和国家关系
题名或记录名便于检查文献内容
被引次数用于计算文献在主题内的引用权重
作者用于作者维度竞争力
机构用于机构维度竞争力
国家或地区用于国家维度竞争力
AI 主题用于定义竞争力矩阵的主题列

图2:SciMetrics 打开数据集后的文献列表

2.2 生成或检查 AI 主题

如果当前数据集还没有 AI 主题,请先执行:

AI → 文档 → AI 主题识别

识别完成后,可以在文献表中查看 AI主题 字段。若主题名称需要统一,可继续使用:

AI → 文档 → 编辑 AI 主题
AI → 文档 → 批量替换 AI 主题
AI → 文档 → 重置 AI 主题

图3:`AI → 文档 → AI 主题识别` 菜单入口

图4:文献表中的 `AI主题` 字段示例

注意事项:

  • 一篇文献可以对应一个或多个 AI 主题。
  • 主题名称应尽量稳定、简洁,避免同义词、缩写和中英文混用造成主题被拆散。
  • 重置 AI 主题后,原有人工编辑结果可能被覆盖。

2.3 检查作者、机构和国家数据

AI 主题竞争力指数支持三个主体维度:

维度需要的数据表
作者作者表和文献-作者关系
机构机构表和文献-机构关系
国家国家表和文献-国家关系

如果某一维度缺少关系数据,该维度的指数表或可视化可能为空。

3. 导出 AI 主题竞争力指数

AI 主题竞争力指数可以直接导出为 Excel 工作簿。

操作步骤:

  1. 确认已经打开包含 AI 主题的数据集。
  2. 在主界面顶部菜单中选择:

指数 → AI 主题竞争力指数

也可以从 AI 菜单进入:

AI → 指数 → AI 主题竞争力指数

  • 在弹出的保存窗口中选择导出位置。
  • 建议使用默认文件名,或命名为 AI主题竞争力指数_项目名_日期.xlsx。
  • 点击保存,软件会自动计算并导出 Excel 文件。

图5:`指数 → AI 主题竞争力指数` 菜单入口

导出的 Excel 文件通常包含以下工作表:

工作表内容
`Author Competitiveness`作者在各 AI 主题下的归一化竞争力
`Affiliation Competitiveness`机构在各 AI 主题下的归一化竞争力
`Country Competitiveness`国家在各 AI 主题下的归一化竞争力
`Author Raw Score`作者在各 AI 主题下的原始得分
`Affiliation Raw Score`机构在各 AI 主题下的原始得分
`Country Raw Score`国家在各 AI 主题下的原始得分
`Method`指数名称、公式、归一化方式和权重说明

图6:导出的 Excel 文件

结果解读建议:

  • Competitiveness 工作表中的值通常在 0-1 之间。
  • 每个 AI 主题列独立归一化,因此同一列内可以直接比较不同主体。
  • Raw Score 工作表保留原始得分,适合辅助观察同一主体在不同主题上的贡献基础。
  • 不同主题列之间不宜只用归一化分直接比较绝对规模。

4. 生成 AI 主题竞争热力图与地形图

完成 AI 主题识别后,可以生成可视化窗口。

操作步骤:

  • 在主界面顶部菜单中选择:

AI → AI主题 → AI 主题竞争热力图

也可以在文献数据集页面的右键菜单中选择“AI 主题竞争热力图”。

  • 系统会弹出“维度”选择窗口。
  • 选择作者、机构或国家。
  • 点击“确定”。
  • 软件会显示忙碌窗口并计算 AI 主题竞争力矩阵。
  • 计算完成后,打开 AI 主题竞争热力图窗口。

图7:`AI → AI主题 → AI 主题竞争热力图` 菜单入口

图8:数据集右键菜单中的“AI 主题竞争热力图”入口

图 9:维度选择窗口

当前窗口由以下区域组成:

区域作用
顶部菜单和工具栏打开、保存、切换背景、重置、导出 Excel、退出
左侧主题列表显示当前进入可视化的主题编号、主题名称和论文数量
中央可视化页签在热力图视图和地形图视图之间切换
右侧设置页签与中央视图同步,分别调整热力图或地形图参数
状态栏显示 Ready、打开、保存、导出等状态信息

图 10:AI 主题竞争热力图窗口全景

5. 阅读热力图视图

窗口中央默认显示“热力图视图”。热力图是一个“主体 × AI 主题”的矩阵:

  • 每一行表示一个竞争主体,例如作者、机构或国家。
  • 每一列表示一个 AI 主题。
  • 每个单元格表示该主体在该主题下的竞争力得分。
  • 默认显示归一化竞争力分。
  • 勾选“原始分”后显示 Raw Score。
  • 单元格足够大时会显示数值;如果格子太小,数值会自动隐藏。

图 11:热力图视图

左侧主题列表包含:

说明
序号当前视图中的主题编号
主题AI 主题名称
论文该主题关联的文献数量

图 12:左侧主题列表,展示主题编号、主题名称和论文数量

右侧热力图设置包括:

设置项默认值或范围说明
主题数默认 16,范围 4-30控制热力图显示多少个主题
主体数默认 35,范围 8-80控制显示多少个作者、机构或国家
标签大小默认 13,范围 9-24调整标题、行标签、列标签和数值大小
主题文字角度默认 315,范围 0-360调整顶部主题文字旋转角度
原始分默认关闭开启后显示 Raw Score
显示主题编号默认开启控制是否显示 `#1`、`#2` 等编号
显示主题名称默认关闭控制顶部是否显示主题名称
图例默认开启控制颜色图例是否显示
热力图颜色默认橙红色高值端调整高竞争力单元格的强调颜色

常用操作:

  • 如果主题名称较长,可以只显示主题编号,通过左侧主题列表查找编号对应的主题名称。
  • 如果用于报告截图,可以打开“显示主题名称”,再调节“主题文字角度”。
  • 如果单元格数字看不清,可减少主题数或主体数。
  • 如果需要展示绝对贡献基础,可勾选“原始分”。

6. 阅读地形图视图

切换到“地形图视图”后,系统会把同一套竞争力数据转换为地形图。

地形图的基本含义:

  • 每座山峰代表一个 AI 主题。
  • 山峰高度反映该主题在当前维度下的综合竞争强度。
  • 山峰位置根据不同主题在竞争主体上的得分结构计算,竞争主体结构相似的主题会更接近。
  • 地形上的点表示主题内的论文规模分布。当前窗口生成模型时主要用于表达主题规模和密度,不建议把每个点都解释为可追溯的具体论文。
  • 点的颜色对应竞争主体图例,通常取当前维度下的重点作者、机构或国家。
  • 左侧主题图例用于对应主题编号和主题名称,右侧主体图例用于对应点颜色和竞争主体。

右侧地形图设置包括:

设置项默认值或范围说明
图形缩放默认 1,范围 0.46-3.2放大或缩小地形图
视角水平角默认约 -16 度,范围 -180 到 180调整地形图左右旋转角度
视角高度默认 0.78,范围 0.46-1.18调整观察俯仰角
山体强度默认 1,范围 0.7-1.6调整山峰高度
主题间距默认 1,范围 0.65-1.55调整主题之间的空间距离
节点大小默认 0.5,范围 0.35-3调整论文点大小
主题文字大小默认 11,范围 8-20调整地形图主题标签字号
主题标签数默认 5,最大不低于主题总数控制显示多少个主题标签
显示引导线默认开启显示主题标签到山峰的连接线
显示主题编号默认开启显示 `#1`、`#2` 等主题编号
显示主题名称默认关闭显示主题名称
主题图例默认开启显示左侧主题图例
主体图例默认开启显示右侧主体图例

图 13:地形图右侧设置面板

地形图支持鼠标交互:

操作效果
鼠标滚轮缩放地形图
鼠标左键拖动旋转视角
鼠标右键拖动平移视图
鼠标左键点击山峰附近高亮最近主题
右键地形图空白处打开主题文字字体设置

图14:点击某个主题山峰后的高亮效果

图15:主题文字字体设置

地形图使用建议:

  • 做整体格局展示时,先调节“图形缩放”和“视角高度”,让山峰形态清楚。
  • 主题较多时,可减少“主题标签数”,保留重点主题标签。
  • 如果山峰过密,可增大“主题间距”。
  • 如果需要强调主题竞争强度差异,可适当增加“山体强度”。
  • 如果点过密,可减小“节点大小”;如果点不明显,可增大“节点大小”。

7. 修改主题名称、删除主题和调整颜色

在左侧主题列表中右键某个主题,可以执行:

  • 修改主题名称。
  • 删除主题。
  • 修改热力图颜色。

修改主题名称和删除主题只影响当前可视化模型,不会直接修改原始数据集中的 AI 主题字段。若需要保留这些显示层面的调整,请保存为 .topicheatmap 文件。

图16:修改主题名称、删除主题和颜色设置

8. 切换背景

顶部工具栏提供两种背景操作:

  • 黑白背景:在黑色和白色背景之间切换。
  • 彩色背景:打开颜色选择器,自定义背景颜色。

背景颜色会同时应用于热力图视图和地形图视图。深色背景适合屏幕演示,浅色背景适合 Word、论文和打印材料。

9. 保存、打开和导出

9.1 保存为 `.topicheatmap`

点击工具栏“保存”,选择 .topicheatmap 格式,可以保存当前可视化模型。

.topicheatmap 文件会保存:

  • 当前主题和主体矩阵。
  • 当前主题重命名或删除后的结果。
  • 热力图显示设置,如原始分、主题编号、主题名称、图例、主题文字角度、背景色和热力图颜色。
  • 地形图主题文字字体样式。

需要注意:.topicheatmap 不包含原始数据集。重新打开后不能根据原始数据重新计算主题数和主体数,只能查看、调整显示并导出当前模型。

图17:保存 `.topicheatmap` 文件的保存窗口

9.2 打开 `.topicheatmap`

可以从窗口工具栏点击“打开”,也可以在主界面直接打开 .topicheatmap 文件。打开后会进入同一个可视化窗口,并可继续在热力图视图和地形图视图之间切换。

9.3 导出 SVG

在保存窗口中选择 .svg 格式,可以导出当前热力图为 SVG 矢量图。当前实现的 SVG 导出基于热力图模型,适合用于报告、论文和 PPT 插图。

如果需要保存地形图画面,建议使用系统截图工具或软件截图功能进行截图。

9.4 导出 Excel

点击工具栏 Excel 按钮,可以导出数据表。

当前窗口来源导出内容
从当前数据集生成导出完整 AI 主题竞争力指数工作簿,包含作者、机构、国家三类矩阵和方法说明
从 `.topicheatmap` 文件打开导出当前热力图矩阵和主题摘要

10. 推荐工作流

推荐按以下流程完成一次完整分析:

导入或打开文献数据
→ 执行 AI 主题识别
→ 检查并规范 AI 主题名称
→ 导出 AI 主题竞争力指数 Excel
→ 打开 AI 主题竞争热力图
→ 选择作者、机构或国家维度
→ 在热力图视图中观察主体-主题竞争矩阵
→ 在地形图视图中观察主题竞争峰值和主题间结构
→ 调整主题数、主体数、标签、颜色和背景
→ 保存 .topicheatmap
→ 导出 Excel 或 SVG
→ 将热力图、地形图截图和关键指数数值写入报告

二、原理说明

1. 数据基础

AI 主题竞争力指数以“文献 – AI 主题 – 竞争主体”为基础结构。系统主要读取以下数据:

数据典型表或字段作用
文献基础信息`docTable.Id`、`Record`、`Time`、`ReferencedNumber`、`AITopics`获取文献、题名、年份、被引次数和 AI 主题字段
AI 主题关系`docTopicTable.DocId`、`Topic`判断每篇文献属于哪些 AI 主题
作者`authorTable`、`docAuthorTable`计算作者维度竞争力
机构`affiliationTable`、`docAffiliationTable`计算机构维度竞争力
国家`countryTable`、`docCountryTable`计算国家维度竞争力

主题读取优先级:

  1. 优先读取 docTopicTable。
  2. 如果没有有效主题关系,则读取 docTable.AITopics。
  3. docTable.AITopics 中多个主题使用 | 分隔。

2. AI 主题竞争力指数原理

AI 主题竞争力指数不是简单的发文量排名,而是综合文献的主题归属和主题内引用权重,衡量作者、机构或国家在某个 AI 主题下的相对竞争力。

基础符号如下:

符号含义
`d`一篇文献
`t`一个 AI 主题
`e`一个竞争主体,可以是作者、机构或国家
`T(d)`文献 `d` 关联的 AI 主题集合
`D(t)`关联到主题 `t` 的文献集合
`D(e,t)`同时包含主体 `e` 且关联主题 `t` 的文献集合
`Citation(d)`文献 `d` 的被引次数

2.1 主题分摊权重

一篇文献可能属于多个 AI 主题。为避免多主题文献在多个主题中被重复放大,系统使用主题分摊权重:

TopicWeight(d,t) = 1 / |T(d)|

如果一篇文献同时属于 4 个 AI 主题,则它对每个主题的主题权重为 1/4。

2.2 引用权重

当前实现默认启用引用平滑,即使用 Citation(d)+1。这样零被引文献也会保留基础贡献。

CitationWeight(d,t) =
(Citation(d)+1) / sum_{i in D(t)}(Citation(i)+1)

如果某主题下所有文献平滑后的被引总和为 100,某篇文献被引次数为 10,则该文献在主题中的引用权重为:

(10 + 1) / 100 = 0.11

2.3 实体贡献方式

当前版本不使用实体分摊权重。只要作者、机构或国家参与了一篇文献,该主体就在对应维度上获得该文献的完整贡献。

这种设计便于解释为“参与即贡献”,适合用于观察主体在主题中的参与和影响基础。

2.4 原始得分

主体 e 在主题 t 上的原始得分为:

RawScore(e,t) =
sum_{d in D(e,t)}
[
  1 / |T(d)|
  * (Citation(d)+1) / sum_{i in D(t)}(Citation(i)+1)
]

该得分同时体现:

  • 文献数量:主体参与的相关文献越多,贡献累加越多。
  • 主题归属:多主题文献按主题数量分摊。
  • 引用影响:高被引文献在主题内贡献更高。

2.5 按主题归一化

为了比较同一 AI 主题下不同主体的相对竞争力,系统对每个主题列独立归一化:

AITCI(e,t) = RawScore(e,t) / max_e RawScore(e,t)

归一化后,每个主题列中最高主体得分为 1,其他主体得分表示其相对于该主题最高主体的竞争力比例。

3. 热力图模型原理

热力图不是显示全部矩阵,而是从完整竞争力矩阵中筛选重点主题和重点主体。

主题筛选排序逻辑:

  1. 按主题综合竞争力总分降序。
  2. 再按原始得分总和降序。
  3. 再按主题关联论文数量降序。
  4. 最后按主题名称排序。

主体筛选排序逻辑:

  1. 在当前显示主题范围内,按主体竞争力总分降序。
  2. 再按原始得分总和降序。
  3. 最后按主体名称排序。

右侧“主题数”和“主体数”决定最终展示多少列和多少行。当前 SciM 窗口默认每个主题只保留 1 个 Top 主体标签,并在地形图中根据主题论文数量生成规模点。

4. 热力图绘制原理

热力图单元格可以显示两种值:

模式数值来源适合用途
默认模式归一化竞争力 `AITCI(e,t)`比较同一主题下不同主体的相对优势
原始分模式`RawScore(e,t)`辅助观察主体在不同主题上的贡献基础

颜色按当前显示矩阵中的最小值和最大值进行映射。调整主题数、主体数或切换原始分后,当前矩阵范围可能改变,因此颜色也会变化。精确比较应以数值或 Excel 为准。

热力图列标题可显示主题编号、主题名称或二者同时显示。主题名称较长时,系统会截断显示,以保证图形可读。

5. 地形图生成原理

地形图将热力图矩阵进一步转换为空间地形。

5.1 主题位置

系统为每个 AI 主题构建一个竞争力向量。向量中的元素是当前显示主体在该主题下的竞争力得分。

然后计算主题向量之间的余弦相似度:

Similarity(t1,t2) =
cosine(Vector(t1), Vector(t2))

竞争主体结构越相似的主题,在地形图中越容易靠近;结构差异越大的主题,空间距离越远。随后系统会进行位置松弛和主题间距调整,避免主题过度重叠。

5.2 山峰高度

每个主题被表示为一个山峰。山峰高度主要来自主题在当前维度下的总竞争力或总原始得分,并结合主题竞争集中度进行增强。

直观理解:

  • 总得分越高,山峰越高。
  • 竞争越集中,山峰更容易形成尖峰。
  • 论文数量会影响山峰范围,论文数越多,山峰范围通常越宽。

5.3 论文点和主体颜色

地形图中的点用于表达主题内部的论文规模和密度。点的颜色来自主体图例,通常对应当前维度下的重点作者、机构或国家。

系统会优先尝试从数据集中读取文献与主体的对应关系;如果无法精确对应,则根据主题的 Top 主体或当前主体列表分配颜色。因此,地形图更适合观察主题竞争格局和主体颜色分布,不宜把每个点都当作一条可精确追溯的文献记录解释。

5.4 地形表面

系统将每个主题山峰看作一个二维高斯峰,并把多个主题峰叠加成连续地形表面。渲染时会根据高度生成颜色带:

  • 低处接近水面或沙地色。
  • 中部接近草地色。
  • 高处接近岩石或雪顶色。

这种地形表达可以帮助用户快速识别:

  • 哪些主题形成竞争高峰。
  • 哪些主题在竞争结构上接近。
  • 哪些主体颜色集中在某些主题区域。

6. 文件格式与导出原理

6.1 指数 Excel

指数 Excel 保存完整三维度矩阵,包括作者、机构、国家的归一化竞争力表、原始得分表和方法说明表。它适合做数值复核和后续统计分析。

6.2 `.topicheatmap`

.topicheatmap 是 AI 主题竞争力可视化工程文件。它保存当前可视化模型和部分显示设置,可用于后续继续打开查看。

由于该文件不保存完整原始数据集,重新打开后不能重新计算主题数、主体数或维度,只能基于文件中的当前模型继续显示和导出。

6.3 SVG

当前 SVG 导出由热力图导出器完成,主要输出热力图视图。若需要地形图图片,应使用截图方式保存当前地形图画面。

7. 结果解读建议

7.1 同一主题下比较主体

在热力图中沿同一列比较颜色和数值,可以判断哪些主体在该主题下更有竞争力。

示例:

主题:Large Language Models
机构 A = 1.0000
机构 B = 0.7200
机构 C = 0.3100

可解读为:机构 A 在该主题下竞争力最高,机构 B 约为机构 A 的 72%,机构 C 约为机构 A 的 31%。

7.2 同一主体跨主题观察优势方向

在热力图中沿同一行观察颜色较强的单元格,可以判断该主体在哪些主题中更有相对优势。

需要注意,默认归一化分强调的是“主题内部相对位置”。如果要看同一主体在不同主题上的绝对贡献,应结合原始分或 Raw Score 工作表。

7.3 用地形图观察整体竞争格局

地形图适合从整体上观察主题竞争峰值和空间关系:

  • 高而尖的山峰:可能表示该主题竞争强度高且集中。
  • 高而宽的山峰:可能表示该主题竞争强度高且参与论文较多。
  • 相互接近的山峰:说明这些主题在竞争主体结构上较相似。
  • 某些颜色集中在某个区域:说明对应主体在这些主题上布局较集中。

7.4 配合指数表形成结论

建议使用热力图和地形图发现格局,再回到 Excel 查看精确数值。报告中可以用热力图说明主体-主题矩阵,用地形图展示整体竞争地貌,用 Excel 数值支撑关键判断。

8. 常见问题

8.1 为什么生成不了竞争热力图?

常见原因包括:

  • 尚未打开数据集。
  • 数据集中没有 AI 主题。
  • docTable 缺失。
  • 作者、机构或国家关系表为空。

请先完成数据导入和 AI 主题识别,再生成可视化。

8.2 为什么某个维度没有数据?

通常是因为缺少对应主体关系。例如作者维度需要文献-作者关系,机构维度需要文献-机构关系,国家维度需要文献-国家关系。

8.3 为什么热力图和地形图颜色含义不同?

热力图颜色表示单元格得分强弱。地形图中山体颜色主要表示地形高度,点颜色表示主体图例。二者用于不同层面的阅读。

8.4 为什么 `.topicheatmap` 打开后不能重新计算?

.topicheatmap 只保存当前模型和显示设置,不包含原始数据集。没有原始数据集,系统无法重新计算新的主题数、主体数和维度。

8.5 为什么 SVG 不是地形图?

当前保存为 SVG 时使用的是热力图 SVG 导出器。地形图是交互渲染视图,若需要保存地形图画面,请使用截图方式。

8.6 为什么地形图中的点不能逐个对应论文?

当前 SciM 竞争力可视化窗口主要用地形点表达主题规模和密度。由于窗口生成模型时默认不保留完整论文点清单,地形图中的点更适合解释为主题规模分布,而不是逐条文献记录。

9. 使用建议

用于学科服务报告时,建议按以下方式组织结果:

  • 用指数 Excel 给出重点主题下 Top 作者、机构或国家。
  • 用热力图展示多个主题和多个主体之间的竞争矩阵。
  • 用地形图截图展示主题竞争峰值和主题间结构。
  • 对 2-3 个重点主题做文字解释,说明优势主体、竞争集中度和可能的发展方向。
  • 在报告末尾注明数据来源、时间范围、AI 主题识别方式和是否使用原始分。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注