作者归档:admin

SciMetrics:双一流高校外部人才精准引进-基于 SCI 的影响力指标用户手册

本手册面向“双一流”高校外部人才引进、学科方向布局、战略情报分析和图书馆学科服务场景,说明如何使用 SciMetrics 的影响力指标功能,对 SCI 数据中的作者、机构、国家或地区进行多维度影响力分析,为外部人才精准发现、候选人筛选、合作路径判断和引进决策提供数据支持。

本手册的数据源使用 SCI,为便于表述,下文中的 SCI 指学校订购的 Web of Science Core Collection 中 SCI / SCIE 相关论文数据。

一、操作方法

1. 操作流程总览

影响力指标分析建议按以下流程完成:

步骤操作目的
1从 SCI 下载文献数据获取目标学科、方向或人才主题的论文与参考文献信息。
2选择 JCR 词典为 SCI 期刊匹配 JCR 分区和 CNS 等高质量成果标识(SciMetrics提供)。
3读取 SCI 数据将下载文件导入 SciMetrics,生成文献、作者、机构、国家和参考文献等数据表。
4数据检查与勾选检查作者、机构、国家、出版物和参考文献字段,确定参与计算的数据范围。
5计算影响力指标导出作者、机构或国家影响力指数。
6存储 Excel 结果保存 .xlsm 结果文件,并用于排序、筛选、复核和报告撰写。

图1:人才影响力分析流程

2. 从 SCI 下载数据

在 SCI 平台下载数据时,建议先围绕学校拟引进方向建立检索式。检索对象可以是学科主题、关键技术、重点期刊、目标机构、代表性专家团队或其组合。

常见检索方式:

检索方式适用场景
主题检索适合围绕某个学科方向、前沿技术或交叉领域发现外部人才。
期刊检索适合围绕高水平期刊成果发现候选作者。
机构检索适合从目标高校、科研院所或企业研发机构中挖掘人才。
作者检索适合对已知候选人进行成果核验和影响力复核。
主题 + 年份适合关注近年活跃人才和新兴方向人才。

图2:SCI 平台检索式设置页面

 下载建议:

 1. 在 SCI 平台完成检索后,进入检索结果列表。

2. 根据数据量选择全部结果、当前页结果或分批导出。

3. 导出格式建议选择 Plain Text 或 Excel,并与后续读取过滤器保持一致。

4. 导出内容建议选择 Full Record and Cited References,确保包含完整记录和参考文献。

5. 如平台限制单次导出数量,应按记录号分批下载,并保持文件命名连续。

6. 下载后将同一检索式、同一时间范围的数据文件放入同一个文件夹。

图4:选择 Full Record and Cited References 的导出设置

建议保留的核心字段:

字段类型说明
文献唯一标识如 UT、DOI 等,用于识别和去重。
题名、摘要、关键词用于主题理解、成果核验和报告撰写。
作者与作者全称用于作者影响力计算和同名复核。
地址 / 机构字段用于机构归属、国家归属和合作关系判断。
通讯作者与通讯地址用于判断候选人的主导研究能力和联系方式。
来源期刊与年份用于 JCR 分区匹配、发文时间跨度计算和成果质量判断。
参考文献用于计算领域 H 指数和影响力扩散类指标。

数据下载后建议进行以下检查:

  • 文件是否可以正常打开。
  • 每批数据的记录范围是否连续,是否存在重复下载。
  • 导出内容中是否包含参考文献字段。
  • 检索式、下载日期、数据库范围和时间范围是否已记录。

3. 选择 JCR 词典

JCR 词典用于把 SCI 文献中的来源期刊和发表年份匹配到 JCR 分区,从而生成 JCR第一分区、JCR第二分区、JCR第三分区、JCR第四分区 和 CNS三刊 等字段。

在读取 SCI 数据前,建议先确认出版物词典使用的是 JCR 版本。

操作步骤:

1. 打开 SciMetrics。

2. 进入数据读取窗口,切换到 字典 或 字典文件 设置区域。

3. 找到 出版物 词典。

4. 将 出版物 词典选择为 JCR 分区词典。

5. 如果系统已内置 JCR 词典并设为默认出版物词典,可保持默认设置。

图5:数据读取窗口中的 字典 页

图6:选择 出版物 / JCR 分区词典的位置

JCR 词典选择建议:

情况建议
分析 2000-2024 年 SCI 数据可使用内置 JCR 分区词典,例如 publicationdic_Jcr_2000_2024.txt。
分析最新年份数据检查 JCR 词典是否覆盖最新发表年份;未覆盖时,最新年份论文的 JCR 字段可能为空。
分析历史跨度较长的数据确认 JCR 词典覆盖数据中的最早和最晚年份。
正式人才报告在报告中说明 JCR 词典版本和覆盖年份。

注意:

  • JCR 分区依赖“期刊名称 + 发表年份”的匹配。
  • 如果 SCI 数据中的期刊名称与词典名称差异较大,可能出现分区无法匹配。
  • 如果未选择 JCR 词典,影响力指标仍可计算,但 JCR 分区和 CNS 成果字段可能为空或不完整。

4. 读取 SCI 数据

完成数据下载和 JCR 词典选择后,开始读取 SCI 数据。

操作步骤:

1. 在主界面进入 数据 -> 数据分析。

2. 在 文件 中选择下载好的 SCI 数据文件;如为分批下载,可一次选择多个文件。

3. 在 过滤器 中选择 SCI / Web of Science 对应的读取过滤器。

4. 如果系统弹出推荐过滤器,可优先使用系统推荐的 SCI 过滤器。

5. 根据下载格式确认过滤器类型,例如 .txt 数据选择文本格式过滤器,.xlsx 数据选择 Excel 格式过滤器。

6. 在 编码 中选择与文件一致的编码,SCI 文本数据通常可优先尝试 UTF-8。

7. 在 语言 中选择 英文 或 中英。

8. 设置时间范围;如需要完整分析,可保留覆盖全部年份的范围。

9. 检查 统计、分析 等选项,确保作者、机构、国家、出版物、时间和参考文献相关字段会被读取。

10. 点击 计算,等待数据读取完成。

图7:数据 -> 导入 菜单入口

图8:选择 SCI 数据文件、过滤器、编码和保存位置

过滤器选择建议:

数据情况建议过滤器
SCI 文本数据选择 Web of Science / SCI 文本读取过滤器。
SCI Excel 数据选择 Web of Science / SCI Excel 读取过滤器。
用于外部人才引进优先选择能解析作者、机构、国家和通讯信息的 SCI 人才分析过滤器。
需要 JCR 分区选择能够保留来源期刊和年份字段的过滤器,并配合 JCR 出版物词典。

读取完成后,应在数据集区域检查以下数据表:

数据表检查重点
文献表题名、年份、来源期刊、文献 ID 是否正常。
作者表作者名称、作者全称、数量和分组是否正常。
机构表外部机构名称是否被正确解析。
国家表国家或地区字段是否完整。
出版物表期刊名称是否能与 JCR 词典匹配。
参考文献表是否读取到引用关系;该表直接影响 H 指数和影响力指数。

图9:SCI 数据读取完成后的数据集标签页

图10:文献表、作者表、机构表、国家表、出版物表和参考文献表检查示例

5. 数据检查、清洗与勾选

影响力指标以当前数据集中的记录和勾选范围为基础。计算前建议先完成必要的数据检查和清洗。

作者检查:

1. 在作者表中检查同一作者是否存在多种写法。

2. 对同一候选人的不同名称写法进行合并或分组。

3. 对高排名候选人,建议结合机构、研究方向和代表论文进行人工复核。

机构检查:

1. 合并同一机构的不同写法。

2. 对大学、学院、研究所、附属医院等层级进行统一。

3. 如只分析外部人才,可排除本校机构相关记录。

图11:作者表清洗、分组和勾选界面

图12:机构表中排除本校机构、保留外部机构的示例

6. 计算作者影响力指标

作者影响力指标是外部人才引进中最常用的结果表,用于发现高影响候选人、近期活跃候选人和与国内已有合作基础的候选人。

操作步骤:

1. 确认 SCI 数据已读取完成。

2. 确认作者表、文献表、机构表、国家表、出版物表和参考文献表正常。

3. 确认 JCR 词典已正确选择,出版物分区能够匹配。

4. 如只分析部分作者,在作者表中先勾选目标记录。

5. 进入 指数 -> 影响力指数 -> 作者影响力指数。

6. 在保存窗口中选择导出位置。

7. 输入文件名并保存为 .xlsm 文件。

图13:指数 -> 影响力指数 -> 作者影响力指数 菜单入口

图14:作者影响力指数保存为 .xlsm 的窗口

 

7. 计算机构和国家影响力指标

机构影响力和国家影响力常用于外部人才引进的前期研判。

机构影响力:

1. 进入 指数 -> 影响力指数 -> 机构影响力指数。

2. 选择保存位置。

3. 保存为 .xlsm 文件。

4. 用于识别高影响来源机构、重点高校、科研院所和企业研发团队。

国家或地区影响力:

1. 进入 指数 -> 影响力指数 -> 国家影响力指数。

2. 选择保存位置。

3. 保存为 .xlsm 文件。

4. 用于观察目标学科的国际竞争格局和合作网络。

人才引进场景下,建议采用“机构筛选 -> 作者定位 -> 成果复核”的顺序:

1. 先用机构影响力指数识别目标领域中的高影响外部机构。

2. 再在高影响机构中定位高影响作者。

3. 最后用作者影响力指数和文献明细核验候选人的代表成果、近期活跃度和合作基础。

8. 存储 Excel 结果

影响力指标导出的结果文件为 Excel 宏工作簿,后缀通常为 .xlsm。建议保留 .xlsm 格式,不要直接另存为普通 .xlsx,以免影响工作簿中的宏、格式或后续处理能力。

导出结果通常包含两个工作表:

工作表内容用途
Sheet1指标汇总表用于排序、筛选、候选人分层和报告制表。
Sheet2主体与文献明细表用于核验代表论文、作者机构、合作关系和成果出处。

图15:作者影响力指数 Excel 文件中的 Sheet1

建议同时保存:

文件作用
SCI 原始下载文件保证数据来源可追溯。
检索式说明保证检索口径可复核。
JCR 词典版本说明说明 JCR 分区字段的来源。
SciMetrics 数据集文件便于后续继续分析或复算。
影响力指数 .xlsm作为人才筛选和报告撰写的核心结果。

9. 读取 Excel 指标结果

导出后的 Sheet1 是核心指标表。常见字段如下:

字段含义
编号作者、机构或国家记录编号。
记录原始记录名称。
分组清洗或分组后的标准名称。
数量相关成果数量。
通讯论文作为通讯作者或通讯主体的论文数量。
JCR第一分区JCR Q1 论文数量。
JCR第二分区JCR Q2 论文数量。
JCR第三分区JCR Q3 论文数量。
JCR第四分区JCR Q4 论文数量。
CNS三刊Cell、Nature、Science 等顶级期刊成果数量。
领域H指数基于当前 SCI 数据集计算的领域 H 指数。
综合影响力指数主体在领域引用关系中的总体影响占比。
对其他作者影响力指数排除同作者内部影响后的外部作者影响。
对其他机构影响力指数排除同机构内部影响后的跨机构影响。
对其他国家地区影响力指数排除同国家或地区内部影响后的跨国家影响。
最早发文时间主体在当前 SCI 数据集中的最早发文年份。
最晚发文时间主体在当前 SCI 数据集中的最近发文年份。
国家/地区合作字段作者成果中共同出现的国家或地区数量,用于判断国际合作网络,以及与中国、国内机构或国内科研人员的合作基础。

对于外部人才引进,建议重点查看以下辅助判断字段:

辅助字段判断重点
最早发文时间判断候选人在该方向中的积累起点和学术资历。
最晚发文时间判断候选人近年是否仍活跃,避免把早期高影响但已转向或停滞的人才误列为重点候选。
国家/地区合作字段判断候选人与中国、国内机构或国内科研人员是否已有合作基础;可结合 Sheet2 文献明细进一步核验具体合作论文、机构和作者。

10. 面向外部人才引进的解读方式

建议按“影响力、活跃度、主导能力、合作基础、平台适配度”五个维度解释结果。

候选类型典型指标特征建议动作
高影响领军候选人领域 H 指数高、综合影响力高、近年仍有产出。作为重点引进或高层次人才联系对象。
青年潜力候选人发文时间较新、Q1 论文较多、外部影响开始出现。进入青年人才储备库,持续跟踪。
主导型候选人通讯论文多、Q1/Q2 成果多。重点评估独立 PI 能力和团队建设潜力。
国际扩散型候选人对其他国家地区影响力较高。适合作为国际合作和学科国际化引进对象。
与中国已有合作候选人国家/地区合作字段中存在中国相关合作,或 Sheet2 显示与国内机构、国内科研人员共同发表。更容易建立联系,可优先纳入合作型引进或柔性引进候选。
平台适配型候选人研究方向与学校重点平台高度契合,影响力中等以上。交由学院和平台专家进一步评估。

解读建议:

  • 不要只看论文数量,要结合外部影响力、高质量成果和近年活跃度。
  • 青年候选人可适当降低总量要求,更重视近期产出、Q1 成果和外部引用扩散。
  • 高层次候选人应同时具备高影响、持续产出和较强跨机构扩散。
  • 对与中国已有合作的候选人,应进一步核验具体合作论文、国内合作者和合作机构。
  • 正式人才报告应说明 SCI 检索式、下载日期、JCR 词典版本和人工复核规则。

11. 导出报告和后续分析

影响力指标导出后,可进一步用于:

1. 外部人才候选名单初筛。

2. 目标学科高影响作者榜单。

3. 重点来源机构和团队清单。

4. 候选引进人才 SCI 成果清单。

5. 候选人与校内团队的合作潜力分析。

6. 候选人与中国科研人员或国内机构合作基础分析。

7. 双一流学科建设外部人才引进专题报告。

图17:基于 SCI 影响力指标生成的人才梯队分析表。

建议在报告中保留以下信息:

信息作用
数据来源说明只使用 SCI 数据。
检索式和时间范围保证结果可复核。
下载日期和批次说明 SCI 数据下载时点和分批情况。
JCR 词典版本说明 JCR 分区字段的匹配依据。
数据清洗规则说明作者、机构、国家名称如何合并。
指标解释避免把影响力指标误读为单一排名。
人工复核说明对人才评价和引进决策尤其重要。

二、原理说明

1. 指标设计思想

影响力指标的核心思想是:在一个给定 SCI 检索数据集中,考察某个主体不仅贡献了多少论文,还考察其成果是否被领域内其他论文引用,以及这种影响是否突破自身作者群体、机构圈层和国家或地区边界。

相比单纯发文量,影响力指标更适合外部人才引进,因为它能够区分:

1. 数量型产出与高影响产出。

2. 内部循环影响与外部扩散影响。

3. 短期活跃与长期稳定影响。

4. 跟随型成果与主导型成果。

5. 本地影响与跨机构、跨国家影响。

2. SCI 数据和领域边界

本功能的计算对象不是全世界所有论文,而是用户当前下载并读取的 SCI 数据集。因此,指标解释必须绑定检索式、时间范围和数据下载日期。

例如,用户以“人工智能 + 医学影像”为主题下载 2018-2025 年 SCI 数据,则影响力指标反映的是候选人在该主题和该时间范围内的影响力,而不是候选人在所有学科中的总影响力。

3. JCR 词典匹配原理

JCR 词典通过“来源期刊 + 发表年份”匹配论文的期刊分区。匹配成功后,系统可统计主体名下的 Q1、Q2、Q3、Q4 论文数量,以及 CNS 三刊相关成果数量。

        
    SCI 论文来源期刊 + 发表年份 -> JCR 词典 -> JCR 分区字段   
        

如果期刊名称不一致、年份超出词典覆盖范围,或未选择 JCR 词典,则对应论文可能无法获得 JCR 分区。

4. 领域内引用关系

系统首先从 SCI 下载数据中的参考文献关系提取领域内引用关系。所谓领域内引用,是指当前 SCI 数据集中的文献之间形成的引用关系。

例如,数据集中论文 A 引用了论文 B,且 A、B 都在当前数据集中,则形成一条领域内引用关系。

        
    论文 A -> 引用 -> 论文 B   
        

系统会统计所有领域内引用关系总数,记为 R。后续影响力指数都以这个总数作为归一化分母。

5. 领域 H 指数

领域 H 指数用于衡量主体在当前 SCI 检索领域中的稳定影响。

计算方式:

1. 统计某主体相关论文在当前 SCI 数据集中的领域内被引次数。

2. 按被引次数从高到低排序。

3. 如果某主体至少有 h 篇论文分别被引用不少于 h 次,则其领域 H 指数为 h。

示例:

        
    某作者论文的领域内被引次数为:12, 8, 5, 3, 1   
    该作者领域 H 指数为 4   
        

因为前 4 篇论文均至少被引用 4 次,第 5 篇不满足 5 次。

6. 综合影响力指数

综合影响力指数表示某主体相关成果在领域内引用关系中的总体占比。

        
    综合影响力指数 = 主体相关引用关系数量 / 领域内全部引用关系数量   
        

该指标越高,说明该主体在当前 SCI 数据集所代表的知识网络中影响越大。

7. 对其他作者影响力指数

对其他作者影响力指数用于衡量主体的影响是否扩散到其他作者群体。

系统会判断引用关系两端是否存在相同作者。如果引用论文和被引论文没有共同作者,则计入“对其他作者影响”。

        
    对其他作者影响力指数 = 跨作者引用关系数量 / 领域内全部引用关系数量   
        

该指标可帮助识别候选人的影响是否突破自身团队或自引圈层。

8. 对其他机构影响力指数

对其他机构影响力指数用于衡量主体影响是否扩散到其他机构。

系统会比较引用论文和被引论文两端的机构集合。如果没有共同机构,则计入“对其他机构影响”。

        
    对其他机构影响力指数 = 跨机构引用关系数量 / 领域内全部引用关系数量   
        

该指标适合用于判断候选人才或机构的外部认可度。

9. 对其他国家地区影响力指数

对其他国家地区影响力指数用于衡量影响是否跨越国家或地区边界。

系统会比较引用论文和被引论文两端的国家或地区集合。如果没有共同国家或地区,则计入“对其他国家地区影响”。

        
    对其他国家地区影响力指数 = 跨国家或地区引用关系数量 / 领域内全部引用关系数量   
        

该指标适合分析国际影响力、海外合作潜力和全球学术扩散。

10. 通讯论文、高质量成果与发文时间

除引用扩散指标外,系统还统计以下辅助指标:

指标原理
通讯论文通过作者表与通讯作者表匹配,统计主体作为通讯作者的论文数量。
通讯作者邮箱汇总作者关联邮箱中占比最高的邮箱。
邮箱准确百分比某邮箱在该作者相关文献中的出现比例。
JCR 分区根据 JCR 词典统计 Q1、Q2、Q3、Q4 成果数量。
CNS 三刊统计 Cell、Nature、Science 等顶级期刊相关成果。
发文时间跨度统计主体最早和最晚发文时间。
国家/地区合作关系统计作者成果中共同出现的国家或地区,并结合文献明细观察候选人与中国机构、国内科研人员及其他国家科研人员的合作基础。

这些指标有助于从“主导能力、成果质量、持续活跃度、国内合作基础”四个方面补充影响力解释。对于人才引进而言,最晚发文时间可以辅助判断候选人是否仍在活跃产出,与中国或国内机构的合作关系则可以辅助判断联系路径、合作基础和引进可行性。

11. 输出结果的逻辑

导出的 .xlsm 文件包含两个层次:

层次作用
指标汇总表用于排序、筛选和比较主体影响力。
文献明细表用于回溯某主体对应的 SCI 论文成果。

这种设计适合人才工作中的“先筛选、再核验”流程:

1. 先通过指标汇总表定位高潜力人才或机构。

2. 再通过文献明细表核验代表性成果。

3. 最后结合专家判断、简历材料、项目经历和学院需求进行综合决策。

12. 使用边界

影响力指标适合辅助外部人才引进初筛和战略研判,但不应作为唯一评价依据。

需要注意:

1. 指标只反映当前 SCI 检索数据集范围内的影响力。

2. 不同学科之间不可直接横向比较。

3. SCI 数据下载范围、检索式和年份设置会直接影响结果。

4. JCR 词典版本会影响 Q1-Q4 和 CNS 统计结果。

5. 作者、机构清洗质量会直接影响指标准确性。

6. 高影响不等于完全适配学校发展方向。

7. 外部人才引进还需结合年龄阶段、任职机构、研究方向、平台需求、团队适配和发展潜力。

推荐使用方式:

  • 用指标发现候选对象。
  • 用明细表核验代表性成果。
  • 用 JCR 字段识别高质量论文。
  • 用最晚发文时间判断近期活跃度。
  • 用国内合作关系判断联系路径和引进可能性。
  • 用专家判断评估学术质量和平台匹配度。

SciMetrics高校图书馆学科服务:基于教师花名册精准定位本校论文成果的 AI 作者映射用户手册

本手册面向高校图书馆学科服务场景,说明如何使用 SciMetrics 的 AI 作者映射功能,基于学校、学院或科研团队花名册,将文献数据库中的作者记录精准映射到本校教师,从而支持教师科研成果梳理、学科画像、学院成果统计和论文认领核验。

说明:本功能适用于“作者”和“通讯作者”两类对象。界面中可能显示为“AI 作者映射”或“AI 通讯作者映射”。

一、操作方法

1. 典型应用场景

高校图书馆在开展学科服务时,常常需要回答以下问题:

1. 某学院、某学科、某团队的老师近年发表了哪些论文?

2. 学校花名册中的教师,哪些可以在 WoS、Scopus、CNKI 等文献数据中精准定位?

3. 同名作者、英文缩写作者、拼音作者如何归并到校内真实教师?

4. 如何区分本校教师成果和校外同名作者成果?

5. 如何统计某教师、某学院或某岗位类型的论文成果、引用表现和合作网络?

AI 作者映射的核心用途,是把文献作者表中的原始作者写法,映射到用户提供的花名册标准写法。例如:

文献中的作者写法花名册中的教师记录映射结果
Wang, Q.计算机学院-王强计算机学院-王强
Chen Qiang图书馆学系-陈强图书馆学系-陈强
Li, B.[School of Packaging]包装学院-李彪包装学院-李彪
Wang Q.计算机学院-王强、材料学院-王清`计算机学院-王强

图1:高校图书馆学科服务中使用教师花名册匹配论文成果的示意图

2. 使用前准备

使用 AI 作者映射前,建议准备三类数据:

数据说明
文献数据从 WoS、Scopus、CNKI、万方、PubMed 等来源导入的论文数据。
作者或通讯作者表软件读取文献后自动生成的作者表、通讯作者表。
单位花名册学校、学院、学科或团队的教师名单,每行一位教师。

花名册建议包含尽可能多的辅助信息,尤其是学院、部门、单位、岗位或学科方向。推荐格式:

        
    计算机学院-王强   
    材料科学与工程学院-李娜   
    图书情报学院-陈强   
    包装学院-李彪   
    医学部-王琦   
        

准备花名册时建议遵循以下原则:

1. 每行只放一位教师。

2. 同一个教师使用一种标准写法。

3. 学院或部门名称尽量完整。

4. 同名教师必须加上学院、部门或其他辅助信息。

5. 离职、退休、附属医院、兼职教师是否纳入,应先由图书馆或业务部门确定口径。

图2:学校教师花名册示例

3. 导入文献数据并确认作者表

操作步骤:

1. 打开软件,导入需要分析的文献数据。

2. 数据读取完成后,在数据表区域查看 作者 表和 通讯作者 表。

3. 检查作者记录是否包含英文姓名、拼音姓名、缩写姓名、机构信息等内容。

4. 按业务需要勾选需要处理的作者记录。

图3:作者表中显示英文缩写、拼音和机构信息的作者记录

说明:

  • 如果要统计全部参与作者成果,可在 作者 表中使用 AI 作者映射。
  • 如果只关注通讯作者成果,可在 通讯作者 表中使用 AI 通讯作者映射。
  • 如果只处理本校成果,建议先通过机构、国家、省份或检索条件筛选出相关文献,再进行作者映射。

4. 选择要映射的作者记录

AI 作者映射只处理当前选中的作者记录。使用前需要先在作者表或通讯作者表中选择记录。

操作步骤:

1. 打开 作者 表或 通讯作者 表。

2. 勾选或选中需要映射的作者记录。

3. 对于初次使用,建议先选择几十条记录进行测试。

4. 测试结果符合预期后,再扩大到学院、学科或全校范围。

图4:智能体批量处理

建议:

  • 首次运行可先选择同一学院或同一学科的作者,便于检查结果。
  • 如果作者数量较多,建议启用智能体分批处理。
  • 如果同名作者较多,花名册中一定要保留学院或部门信息。

5. 打开 AI 作者映射功能

有两种常用入口。

入口一:主菜单

1. 进入 智能 -> AI分组 -> AI 作者映射。

2. 如果当前处理的是通讯作者,进入 智能 -> AI分组 -> AI 通讯作者映射。

入口二:右键菜单

1. 在 作者 表中选中记录。

2. 右键打开菜单,选择 AI 作者映射。

3. 在 通讯作者 表中右键时,选择 AI 通讯作者映射。

图5:主菜单中的 智能 -> AI分组 -> AI 作者映射 入口

图6:作者表右键菜单中的 AI 作者映射 入口

 6. 配置 AI 作者映射参数

打开功能后,会出现 AI 设置窗口。主要配置项包括模型、API Key、作者名单、分批处理和提示词。

图7:AI 作者映射设置窗口

参数说明:

参数说明
模型选择用于作者映射的 AI 模型。
API Key输入模型调用所需的密钥。
作者/通讯作者名单粘贴学校、学院或团队花名册。AI 只会从这份名单中选择结果。
启用分批处理当选中作者较多时,建议启用。
每批数量每次提交给 AI 的作者记录数,默认一般为 100。
提示词配置映射规则说明,通常不需要修改。

操作步骤:

1. 在 模型 中选择已配置的 AI 模型。

2. 填写或确认 API Key。

3. 将单位花名册粘贴到 作者/通讯作者名单 输入框。

4. 作者数量较多时勾选 启用分批处理。

5. 设置每批数量,建议从 50 到 100 开始。

6. 点击确定,开始映射。

7. 查看映射结果

映射完成后,软件会把结果写回作者表或通讯作者表。

关键字段:

字段含义
Record文献数据中提取的原始作者写法。
GroupAI 映射后的花名册标准写法。
GroupId映射标记,通常包含 AuthorMap、判断类型和模型名称。
ParId分组父级信息,作者映射时一般置为 0。

映射结果示例:

RecordGroupGroupId
Wang, Q.计算机学院-王强AuthorMap[Matched][模型名]
Chen, Q.[Beijing Inst Graph Commun]图书情报学院-陈强AuthorMap[Matched][模型名]
Wang Q.`计算机学院-王强材料学院-王清`

图8:作者表中 Group 字段写入映射结果

结果类型说明:

类型含义处理建议
MatchedAI 判断可以唯一匹配到花名册中的某位教师。可作为初步可信结果,建议抽样核验。
AmbiguousAI 判断可能对应多位教师,结果用 `` 分隔。
Unmatched无法在花名册中找到合理候选。不写入 Group,可补充花名册或人工复核。

8. 利用映射结果定位教师论文成果

作者映射完成后,可以用 Group 字段把文献作者统一到校内教师身份,从而开展成果统计。

常见操作:

1. 在作者表中搜索某位教师的标准写法,如 计算机学院-王强。

2. 使用“查看相关”功能定位该教师关联的文献。

3. 导出数据表或统计表,形成教师成果清单。

4. 按学院、学科或团队字段汇总教师论文数量、期刊、年份、合作机构等。

5. 对通讯作者映射结果单独统计,用于分析本校主导成果。

图9:截图占位:通过 Group 字段搜索某位教师

图10:查看某位教师关联论文列表

高校图书馆常见成果清单字段建议:

字段说明
教师标准名称来自花名册映射结果,如 计算机学院-王强。
原始作者写法文献数据库中的作者名称。
论文题名文献标题。
发表年份用于年度成果统计。
期刊 / 会议用于成果来源分析。
作者类型普通作者或通讯作者。
本校机构用于确认是否为本校成果。
被引次数用于影响力分析。
DOI / 文献号用于后续核验。

9. 结果复核建议

AI 作者映射可以显著提高定位效率,但涉及科研成果认领时,建议保留人工复核环节。

优先复核以下记录:

1. Group 中包含 | 的多候选记录。

2. 同名或同姓同首字母作者。

3. 文献作者缺少机构信息的记录。

4. 花名册中存在同名教师的学院。

5. 英文缩写过短的记录,例如 Wang, J.、Li, Y.。

6. 跨学院、附属医院、联合培养或兼职教师相关记录。

复核方法:

方法说明
看机构地址判断论文机构是否与教师所在学院或学校一致。
看研究方向题名、关键词、摘要是否符合教师研究方向。
看通讯作者通讯作者邮箱或地址是否指向本校。
看合作网络共同作者是否为同一学院或团队成员。
查 DOI / 原文对关键成果进行外部核验。

10. 保存和复用

AI 作者映射设置中的作者名单会被保存,便于下次继续使用。对于图书馆学科服务工作,建议建立多个花名册版本。

推荐命名方式:

        
    全校教师花名册_2026   
    计算机学院教师花名册_2026   
    图书情报学院教师花名册_2026   
    附属医院通讯作者名单_2026   
    重点学科团队名单_2026   
        

建议工作流:

1. 学校层面建立全校花名册。

2. 学院层面维护学院花名册。

3. 学科服务馆员可按服务对象维护专题花名册。

4. 每次成果统计前记录使用的花名册版本。

5. 对人工修正后的映射结果定期回填到花名册或规则库。

二、原理说明

1. AI 作者映射的基本逻辑

AI 作者映射本质上是一个“受控名单匹配”任务。系统把两类信息发送给 AI:

1. 用户提供的作者名单或通讯作者名单。

2. 当前选中的待识别作者记录。

AI 必须只从用户提供的名单中选择候选,不能编造名单外人员。匹配成功后,系统将名单中的原始写法写入 Group 字段。

例如,花名册中是:

        
    计算机学院-王强   
    材料学院-王清   
          

待识别作者是:

         
   Wang, Q.   
          

如果无法唯一判断是王强还是王清,AI 应返回多候选结果,并写为:

    计算机学院-王强|材料学院-王清            

2. 匹配依据

AI 作者映射会综合使用以下线索:

线索说明
中文姓名直接比较中文姓名是否一致。
拼音姓名比较 王强 与 Wang Qiang、Qiang Wang 等写法。
缩写姓名比较 Wang, Q.、Wang Q 等姓氏加首字母形式。
姓名前后顺序同时考虑名在前、姓在前。
学院 / 部门用作辅助证据,提高或降低置信度。
机构地址作者记录中带机构信息时,可辅助判断是否为本校教师。
候选唯一性如果同姓同首字母只有一个候选,可判为匹配;多个候选则判为模糊。

3. 写回规则

系统解析 AI 返回的 JSON 结果,并按以下方式写回数据表:

AI 返回系统写回
group_value 不为空写入 Group 字段。
decision = MatchedGroupId 写入 AuthorMap[Matched][模型名]。
decision = AmbiguousGroupId 写入 AuthorMap[Ambiguous][模型名]。
decision = Unmatched 且无 group_value不写入映射结果。
多个候选使用 `

系统要求 AI 返回结果覆盖每一个待识别 ID。如果某些 ID 被模型遗漏,程序会尝试只对遗漏 ID 再次请求,以提高结果完整性。

4. 为什么适合高校图书馆学科服务

高校成果分析的难点不只是“作者重名”,还包括:

1. 中文姓名在国际数据库中常被写成拼音。

2. 许多数据库只保留姓氏和名字首字母。

3. 同一学校内可能存在多位同姓同首字母教师。

4. 作者机构字段常包含英文缩写、旧机构名、二级学院或附属医院名称。

5. 学科服务需要按本校组织体系统计,而不是只按数据库作者字符串统计。

AI 作者映射允许图书馆把“组织花名册”作为受控知识输入,让 AI 在名单范围内完成解释和匹配,从而把文献数据转化为面向学校管理和学科服务的教师成果数据。

5. 方法局限

使用该功能时,需要注意以下限制:

1. AI 映射结果不能替代最终人工认领。

2. 花名册越完整,映射结果越稳定。

3. 缺少机构、题名或学科信息时,缩写作者更容易产生多候选。

4. 同姓同首字母教师较多时,应优先使用学院花名册分批处理。

5. 不同模型对复杂姓名和机构线索的判断能力不同,建议固定模型版本。

6. 成果用于正式考核、绩效或评价时,应进行人工复核和留痕。

推荐原则:

  • 用 AI 做初筛和批量归并。
  • 用馆员复核处理模糊候选。
  • 用教师本人或学院确认关键成果。
  • 用固定花名册版本保证统计口径一致。

SciMetrics:AI 主题发展潜力指数与桑基图可视化用户手册

本手册用于指导用户在 SciMetrics中完成 AI 主题发展潜力指数计算和 AI 主题桑基图可视化分析。

说明:软件界面中该指数可能显示为“AI 主题发展力指数”,本手册统一称为“AI 主题发展潜力指数”。“桑基图”英文“Sankey 图”。

一、操作方法

1. 使用前准备

在计算指数或绘制桑基图之前,需要先完成数据读取、数据清洗和 AI 主题识别。建议按以下顺序准备:

1. 打开软件,导入待分析的文献数据。

2. 检查文献表中是否包含题名、摘要、关键词、年份、作者、机构、分类、引文或参考文献等字段。

3. 如需使用 AI 自动识别主题,先进入 智能 -> AI 接口配置,填写模型地址、模型名称和 API Key。

4. 在文献数据表中确认需要参与分析的文献已被勾选。如果后续参数选择“仅使用已勾选文献”,未勾选文献不会参与计算。

图1:数据导入后的主界面

建议在开始分析前完成以下检查:

 检查项说明
文献年份AI 主题发展潜力指数和桑基图都依赖年份字段,年份缺失会影响趋势分析。
AI 主题文献需已有 AI 主题,否则指数和桑基图无法生成有效结果。
作者与机构指数中的作者进入、机构进入和机构布局均衡度依赖相关字段。
分类字段学科融合度通常依赖类别 1 / 一级学科等分类字段。
引文数据引文影响力依赖被引次数或参考文献关系,缺失时该维度贡献会降低。

2. 生成或检查 AI 主题

如果当前数据集中还没有 AI 主题,请先生成 AI 主题。

操作步骤:

1. 在主界面进入 智能 -> 文档 -> AI 主题识别。

2. 等待 AI 主题识别完成。

3. 切换到文献表,查看 AI主题 字段是否已有主题内容。

4. 如需人工修正主题,可进入 智能 -> 文档 -> 编辑 AI 主题。

5. 如主题结果需要重新生成,可进入 智能 -> 文档 -> 重置 AI 主题 后再次识别。

图2: AI 主题识别菜单入口

注意事项:

  • 一个文献可以对应一个或多个 AI 主题。
  • 主题名称应尽量稳定、简洁,避免同义词过多造成主题被拆散。
  • 若已做过人工编辑,重新识别或重置 AI 主题可能覆盖原有结果。

3. 计算 AI 主题发展潜力指数

AI 主题发展潜力指数用于识别哪些 AI 主题具有较好的增长趋势、近期活跃度、引用影响、作者和机构进入、学科融合与持续发展基础。

操作步骤:

1. 确认已打开包含 AI 主题的数据集。

2. 进入 指数 -> AI主题指数 -> AI主题发展力指数。

3. 在弹出的保存窗口中选择导出位置。

4. 建议使用默认文件名,或命名为 AI主题发展潜力指数\\\_项目名\\\_日期.xlsx。

5. 点击保存,软件会自动计算并导出 Excel 文件。

图3: AI主题发展力指数菜单入口

导出的 Excel 文件通常包含两个工作表:

工作表内容
AI Topic Growth各 AI 主题的发展潜力指数、排名、分项得分和原始统计量。
Method指数名称、默认参数、计算公式和各分项含义。

AI Topic Growth 工作表中的关键字段如下:

字段含义
Rank主题排名,按综合指数从高到低排列。
TopicAI 主题名称。
AITopicGrowthIndexAI 主题发展潜力综合指数。
TopicScaleScore主题规模得分,反映该主题总体文献规模。
GrowthMomentumScore增长动能得分,反映近年文献增长情况。
CitationImpactScore引文影响得分,反映主题文献平均被引影响。
AuthorEntryScore作者进入得分,反映近年首次进入该主题的作者比例。
InstitutionEntryScore机构进入得分,反映近年首次进入该主题的机构比例。
DisciplineFusionScore学科融合得分,反映主题涉及学科类别的均衡程度。
InstitutionLayoutBalanceScore机构布局均衡得分,反映参与机构分布是否均衡。
TimeWindowStabilityScore时间窗口稳定得分,反映主题是否具有持续产出。
DocumentCount该主题相关文献总量。
RecentDocumentCount最近若干年该主题相关文献数量。
  • AITopicGrowthIndex 越高,表示该主题综合发展潜力越强。
  • 如果某主题 GrowthMomentumScore 高但 TopicScaleScore 低,通常说明该方向规模尚小但增长较快,适合作为新兴机会方向观察。
  • 如果某主题 TopicScaleScore 和 CitationImpactScore 高,但 GrowthMomentumScore 低,通常说明该方向已有积累,但近期增长可能趋缓。
  • 如果 AuthorEntryScore 和 InstitutionEntryScore 高,说明近期有更多新作者、新机构进入,可能代表研究共同体正在扩张。
  • 如果 DisciplineFusionScore 高,说明该主题具有较强跨学科特征,适合用于识别交叉融合方向。

图4:导出的 AI Topic Growth 工作表示例

4. 绘制 AI 主题桑基图可视化

AI 主题桑基图用于观察主题随时间的延续、分化、合流和转移关系。图中每一列代表一个时间片,每个节点代表该时间片中的一个 AI 主题,节点之间的连线表示相邻时间片之间主题的关联强度。

操作步骤:

1. 确认当前数据集已经完成 AI 主题识别。

2. 进入 智能 -> AI主题 -> AI 主题桑基图。

3. 在参数窗口中设置时间切片和连接方式。

4. 点击确定,软件会生成 AI 主题桑基图窗口。

图5: AI 主题桑基图 菜单入口

图6:AI 主题桑基图参数设置窗口

参数说明:

参数默认值说明
时间间隔1每个时间片包含的年份数。1 表示按年展示,3 表示每 3 年合并为一个时间片。
连接方式关键词相似度用于判断相邻时间片中主题之间的关联。可选关键词相似度、主题词相似度、引证关系。
每段最大主题20每个时间片中最多展示的主题数量,按文献数量筛选。
最小相似度0.1只有关联强度达到该阈值的主题连线才会显示。
仅使用已勾选文献默认勾选勾选后只分析当前被选中的文献。

参数选择建议:

分析目标推荐设置
观察年度主题演化时间间隔设为 1,每段最大主题设为 15 到 25。
数据年份较长或主题较多时间间隔设为 2 到 5,减少视觉拥挤。
希望看到更多弱关联适当降低最小相似度,如 0.05 到 0.08。
希望图形更清晰提高最小相似度,如 0.15 到 0.2,并减少每段最大主题数。
关注知识内容延续连接方式选择关键词相似度或主题词相似度。
关注引用脉络延续连接方式选择引证关系。

生成后的窗口主要包含三部分:

区域作用
左侧主题列表显示时间片、主题名称和文献数量,可搜索和选择节点。
中间桑基图展示主题在不同时间片之间的流动关系。
右侧显示设置调整节点大小、连线宽度、连线透明度、曲率、标签大小、缩放比例等。

图7: AI 主题桑基图主窗口

常用交互:

操作效果
鼠标滚轮缩放图形。
Shift + 鼠标左键拖动平移图形视图。
点击左侧主题列表中的主题高亮该主题及相关连线。
点击图形空白处取消高亮选择。
在左侧搜索框输入关键词筛选主题节点。
点击重置按钮恢复默认缩放、背景和显示设置。
点击黑白背景按钮在黑色和白色背景之间切换。

截图占位:选择某一主题节点后的高亮效果。

截图占位:调整连线宽度、透明度和标签大小后的效果。

5. 保存和导出桑基图结果

在 AI 主题桑基图窗口中,可以保存图形工程文件,也可以导出图片或数据。

操作说明
打开打开已有 .sankey 文件。
保存为 .sankey保存桑基图数据和显示设置,便于下次继续编辑。
保存为 .svg导出矢量图,适合插入论文、报告或幻灯片。
导出 Excel导出桑基图节点、连线和参数数据,便于复核和二次分析。

建议:

  • 用于继续编辑时,保存为 .sankey。
  • 用于论文或报告插图时,保存为 .svg。
  • 用于检查节点、连线和相似度数值时,导出 Excel。

6. 常见问题处理

问题可能原因处理方法
无法计算指数数据集中没有 AI 主题先执行 AI 主题识别。
指数结果为空文献没有有效主题或文献表缺失检查文献表、AI主题字段和数据读取状态。
桑基图没有节点没有 AI 主题或年份无法解析检查 AI 主题和年份字段。
桑基图节点很多、图形拥挤每段最大主题数过高或时间间隔过小增大时间间隔,减少每段最大主题数。
桑基图连线过少最小相似度过高或连接方式不适合降低最小相似度,尝试更换连接方式。
某些主题被拆分AI 主题命名不一致或同义词未合并使用编辑 AI 主题功能统一主题名称。
指数排名与直觉不一致指数综合考虑多维指标,不只看发文量同时查看分项得分,判断高分来自哪个维度。

二、原理说明

1. 数据基础

AI 主题发展潜力指数和 AI 主题桑基图都建立在“文献 – AI 主题 – 时间”的基础数据结构之上。

核心数据包括:

数据作用
文献 ID用于连接文献、主题、作者、机构、分类和引文信息。
AI 主题用于定义分析对象,即每个主题的发展潜力和演化关系。
年份用于判断近期增长、时间窗口稳定性和主题演化路径。
作者用于计算作者进入情况。
机构用于计算机构进入和机构布局均衡度。
类别 / 学科用于计算学科融合度。
被引次数 / 参考文献用于计算引文影响或引证关系。
关键词 / 主题词用于计算桑基图中主题之间的内容相似性。

2. AI 主题发展潜力指数原理

AI 主题发展潜力指数不是单纯的发文量排名,而是将主题规模、增长动能、引用影响、主体进入、学科融合、机构布局和时间稳定性综合起来,判断一个主题是否具有持续发展潜力。

系统默认使用最近 3 年作为近期窗口,使用 3 年作为时间稳定性统计窗口。每个分项先在主题之间进行归一化,再按权重加权求和。

综合公式为:

        
    TGPI =   
    0.15 \\\* TopicScale   
    + 0.18 \\\* GrowthMomentum   
    + 0.12 \\\* CitationImpact   
    + 0.12 \\\* AuthorEntry   
    + 0.12 \\\* InstitutionEntry   
    + 0.11 \\\* DisciplineFusion   
    + 0.10 \\\* InstitutionLayoutBalance   
    + 0.10 \\\* TimeWindowStability   
        

其中:

分项含义解释
TopicScale主题规模该主题相关文献总量的归一化值。
GrowthMomentum增长动能最近若干年该主题文献数量的归一化值。
CitationImpact引文影响该主题文献平均被引次数的归一化值。
AuthorEntry作者进入最近若干年首次进入该主题的作者数占该主题作者总数的比例,并归一化。
InstitutionEntry机构进入最近若干年首次进入该主题的机构数占该主题机构总数的比例,并归一化。
DisciplineFusion学科融合该主题相关学科类别分布的 Shannon 均衡度,并归一化。
InstitutionLayoutBalance机构布局均衡该主题相关文献在机构上的 Shannon 均衡度,并归一化。
TimeWindowStability时间窗口稳定按固定时间窗口统计主题文献分布的 Shannon 均衡度,并归一化。

归一化的作用是让不同量纲的指标可以放在同一尺度下比较。例如,文献数量、被引次数、作者比例和 Shannon 均衡度的原始数值范围不同,归一化后才能进行加权合成。

指数解读时应注意:

  • 该指数是相对指数,主要用于同一数据集内不同主题之间的比较。
  • 指数高不代表主题一定“成熟”,而是表示其在当前数据集中呈现较强发展潜力。
  • 对新兴主题而言,综合指数、增长动能、作者进入和机构进入通常更值得关注。
  • 对成熟主题而言,主题规模、引文影响和时间稳定性通常更能体现持续影响。

3. 桑基图可视化原理

AI 主题桑基图将主题演化过程表示为跨时间片的流动关系。

基本流程如下:

1. 根据文献年份确定最早年份和时间范围。

2. 按用户设置的时间间隔切分时间片。

3. 在每个时间片内统计各 AI 主题对应的文献数量。

4. 每个时间片只保留文献数量排名靠前的若干主题。

5. 计算相邻时间片中主题之间的关联强度。

6. 将主题表示为节点,将关联表示为连线,生成桑基图。

节点含义:

  • 每个节点代表一个时间片中的一个 AI 主题。
  • 节点高度与该主题在该时间片中的文献数量相关。
  • 同名主题在相邻时间片中会被优先视为延续关系。

连线含义:

  • 连线表示相邻时间片中两个主题之间存在内容或引证关联。
  • 连线越粗,表示关联强度越高。
  • 连线颜色通常跟随来源主题,便于追踪主题流向。

不同连接方式的计算逻辑:

连接方式原理适用场景
关键词相似度比较两个主题相关文献的关键词集合,使用集合交集和并集计算相似性。观察研究内容是否延续。
主题词相似度比较两个主题相关文献的主题词集合,判断专业术语层面的相似性。观察概念和术语体系演化。
引证关系比较两个主题相关文献的参考文献或引证特征,判断知识基础是否相连。观察知识脉络和引用传统延续。

当使用关键词相似度或主题词相似度时,主题之间的相似度可理解为 Jaccard 相似性:

        
    Similarity = 共同特征数量 / 全部特征数量   
        

当使用引证关系时,系统主要根据共同参考文献或引证特征判断关联强度。共同引证基础越多,主题之间的连线越强。

4. 如何结合指数和桑基图解读主题发展

指数和桑基图适合配合使用:

观察对象指数提供的信息桑基图提供的信息
高潜力主题哪些主题综合潜力更高这些主题是否有连续演化路径
新兴主题哪些主题近期增长明显新主题从哪个历史方向发展而来
稳定主题哪些主题持续产出、影响较稳主题是否长期保持连续流动
分化主题分项得分是否呈现扩张迹象一个主题是否分流为多个方向
融合主题学科融合和机构布局是否较高多条主题流是否汇入同一方向

典型判断方式:

  • 高指数且在桑基图中连续存在:说明该主题既有综合潜力,也有清晰演化基础。
  • 高增长但桑基图中刚出现:可能是新兴主题,需要结合文献内容进一步判断。
  • 桑基图中连线很强但指数不高:说明主题延续性好,但近期增长、进入或融合维度可能不足。
  • 指数高但桑基图连线弱:可能是主题命名变化、关键词差异较大,或该主题具有跳跃式发展特征。

5. 方法局限与使用建议

使用该功能时需注意以下局限:

1. AI 主题识别质量会直接影响指数和桑基图结果。

2. 年份字段缺失或格式不规范,会影响增长和演化分析。

3. 引文数据不足时,引文影响和引证关系的解释应更加谨慎。

4. 不同数据集之间的指数不宜直接比较,除非数据来源、时间范围和清洗规则一致。

5. 若主题命名存在同义词、缩写或中英文混用,应先统一主题名称。

6. 勾选文献会改变分析范围,导出结果时应记录是否使用了“仅使用已勾选文献”。

推荐工作流:

1. 先完成数据清洗和 AI 主题识别。

2. 导出 AI 主题发展潜力指数,确定重点主题。

3. 对重点主题绘制 AI 主题桑基图,观察演化路径。

4. 将指数分项、桑基图流向和代表性文献结合,形成分析结论。

SciMetrics:AI 新兴主题识别与可视化用户

本文介绍如何在 SciMetrics 中利用大模型完成“AI 主题识别 → AI 新兴主题可视化 → 结果解读与导出”的完整流程。前半部分以操作为主,后半部分解释核心计算原理。

图1:软件主界面与顶部 AI 菜单

一、功能适用场景

AI 新兴主题可视化适合回答以下问题:

  • 最近几年哪些研究主题正在变得活跃?
  • 哪些文献代表了某个主题的前沿方向?
  • 一个主题是历史延续,还是由新的知识组合产生?
  • 不同主题下的文献在语义、引文、共引或分类关系上是否接近?
  • 哪些新近文献虽然被引次数不高,但可能具有较高的新颖度?

该功能依赖已有的文献数据和 AI 主题识别结果。基本流程:导入文献数据,执行 AI 主题识别,生成 AI 新兴主题可视化图。

 二、数据准备

1. 导入或打开数据集

首先打开 SciMetrics,导入已经下载的文献数据。数据中最好包含文献题名、年份、被引次数、关键词、主题词、引文或分类信息。

如果需要只分析部分文献,可以先在文档列表中勾选目标文献。后续生成新兴主题图时,可以选择“仅勾选文献”。

图2:文献列表图

2. 确认 AI 模型配置

AI 主题识别需要可用的 AI 模型配置。如果模型未配置,在菜单中进入 AI 配置,完成模型、API 地址和密钥等设置。

图3:AI 模型配置窗口

三、第一步:执行 AI 主题识别

1. 打开 AI 主题识别

在主界面顶部菜单中选择:AI → 文档 → AI 主题识别

系统会根据文献题名、摘要或相关文本信息,为每篇文档识别一个或多个主题。识别完成后,这些主题会写入数据集,作为后续桑基图、新兴主题图、主题统计和主题指数计算的基础。

图4: AI 主题识别

2. 是否使用预定义类别

在 AI 主题识别过程中,如果希望主题名称稳定、便于横向比较,可以启用“使用预定义类别”,并输入候选主题名称。AI 会尽量把文献归入这些类别。

如果不启用预定义类别,AI 会根据文献内容自动总结主题。这种方式更适合探索未知主题,但不同批次之间的主题命名可能会略有差异。

推荐做法:

  • 探索性分析:不使用预定义类别,让 AI 自动发现主题。
  • 已有研究框架:使用预定义类别,便于形成稳定的主题体系。
  • 准备做新兴主题图:建议先检查主题名称,必要时使用“编辑 AI 主题”进行修正。

图5:AI 主题识别设置窗口

3. 等待 AI 主题识别完成

执行后,软件会使用智能体分批调用 AI 模型。状态栏会显示当前批次、已更新数量和完成状态。

 识别完成后,可以在文档表或主题相关字段中查看每篇文献的 AI 主题。

图6:AI 主题识别运行过程中的进度状态栏

 4. 编辑或重置 AI 主题

如果发现主题名称不准确,可以对其进行修改和编辑:

图7:编辑 AI 主题

四、第二步:生成 AI 新兴主题可视化

1. 打开新兴主题可视化入口

完成 AI 主题识别后,在主界面顶部菜单中选择:AI → AI 主题 → AI 新兴主题可视化

系统会弹出参数设置窗口,用于选择文献关系、布局方式、分析年份和历史基线。

图8: AI 新兴主题可视化

2. 设置文献关系

“文献关系”决定系统如何计算两篇文献之间是否接近。当前支持以下方式:

  • 关键词:根据共同关键词计算相似度。
  • 主题词:根据主题词或子词计算相似度。
  • 引文/参考文献:根据直接引用或共同参考文献计算关系。
  • 共引:根据两篇文献是否被相同文献引用计算关系。
  • Class1-Class4:根据不同层级的分类信息计算相似度。
  • 混合关系:综合关键词、主题词、引文、共引和分类信息。

推荐设置:

  • 默认建议使用“引文/参考文献”,适合强调知识承接关系。
  • 如果数据中引文信息不完整,可以使用“关键词”或“主题词”。
  • 如果希望综合多种证据,可以使用“混合关系”。
  • 如果项目中 Class1-Class4 分类质量较高,可以选择对应分类层级。

图9:AI 新兴主题 “文献关系”

3. 设置布局方式

当前用户可选布局主要包括:

  • UMAP:默认推荐,适合较大规模文献点云,主题结构更稳定。
  • t-SNE:适合观察局部邻近关系,但不要过度解释全局距离。

建议优先使用 UMAP。如果希望对局部小簇关系做探索,可以尝试 t-SNE 对比。

图 10:布局方式选择

4. 设置分析窗口

分析窗口决定哪些文献会进入图中。常用方式有三种:

  • 最近 N 年:例如最近 5 年,适合寻找当前前沿主题。
  • 自定义年份:例如 2020-2025,适合分析指定阶段。
  • 全部年份:适合整体观察,但“新兴”特征会被历史数据稀释。

如果目标是发现新兴主题,推荐使用“最近 N 年”,并根据学科更新速度设置 N:

  • 快速变化领域:3-5 年。
  • 一般领域:5-8 年。
  • 稳定或长期积累领域:8-10 年。

图 11:分析窗口、最近年份数、自定义年份设置

5. 设置历史基线

历史基线用于判断当前文献和主题相对于过去是否新颖。它不会直接出现在图中,但会参与新颖度计算。

可选方式包括:

  • 分析窗口之前 N 年:默认推荐,用最近历史作为比较对象。
  • 全部历史:适合历史数据完整、希望和全部过去比较的情况。
  • 不使用历史基线:只强调当前时间窗口内部的新近程度和结构。

推荐做法:

  • 常规分析:使用“分析窗口之前 N 年”,基线年份数可设为 10。
  • 数据历史较短:可以减少基线年份数。
  • 只想看最近文献空间分布:可以不使用历史基线,但此时新颖度解释应更谨慎。

图12:历史基线与基线年份数设置。

6. 设置最大文献数和最大主题数

为了保证图形清晰,可以限制进入图中的文献数和主题数。

  • 最大文献数:控制图中最多显示多少篇文献。
  • 最大主题数:控制最多显示多少个 AI 主题。
  • 最小关系强度:过滤较弱关系。
  • 每篇 Top 关系:每篇文献最多保留多少条最强关系。
  • 仅勾选文献:只分析当前勾选的文献。

推荐设置:

  • 小样本精读:文献数 50-150,主题数 10-20。
  • 大规模探索:文献数 500-1000,主题数 30-50。

图13:最大文献数、最大主题数、最小关系强度

7. 点击确定生成图形

设置完成后点击“确定”。软件会计算文献关系、新颖度指数、主题摘要和二维布局,并打开 AI 新兴主题可视化窗口。

图14:AI 新兴主题可视化窗口

五、第三步:阅读新兴主题图

1. 图形区

图形区是文献地图:

  • 每个节点表示一篇文献。
  • 节点大小表示文献被引用次数。
  • 节点颜色深浅表示新颖度,颜色越深通常表示越新颖。
  • 同一主题下的文献使用相同主题颜色和形状。
  • 主题名称显示在对应文献簇附近,前面的 #序号 对应左侧主题列表。
  • 主题凸包表示该主题文献在图中的空间范围,单篇文献主题不绘制凸包。

图15:中央图形区,标注节点、主题标签、主题凸包和图例。

2. 左侧主题列表

左侧上半部分是主题列表,主要字段包括:

  • 序号:与图中主题标签前的 #序号 对应。
  • 主题样式:显示该主题的颜色和节点形状。
  • 主题:AI 识别出的主题名称。
  • 新颖度:该主题的新颖度指数。
  • 文献:该主题下进入图中的文献数量。
  • 被引:该主题下文献的总被引用次数。

点击某个主题后,图中会高亮该主题的文献,同时下方文献列表会切换为该主题下的文献。

图16:左侧主题列表,展示主题新颖度、文献数和被引列

3. 左侧文献列表

左侧下半部分是文献列表,主要字段包括:

  • 序号:当前列表中的文献顺序。
  • 年份:文献发表年份。
  • 题名:文献标题。
  • 新颖度:该文献的新颖度指数。

点击某篇文献后,图中会高亮对应节点。右键文献可以查看原始数据,便于核对题名、年份、引文等信息。

图17:文献列表与“查看原始数据”右键菜单

4. 右侧显示设置

右侧面板用于调整视觉效果:

  • 节点大小:放大或缩小文献节点。
  • 节点边框:调整节点边框粗细,最小可为 0。
  • 节点标签大小:调整文献标签和主题标签字号。
  • 英文换行:控制英文主题名称每行最多显示字符数。
  • 图形缩放:调整整体缩放。
  • 节点标签:显示或隐藏文献标题标签。
  • 主题标签:显示或隐藏主题名称。
  • 节点标签防重叠:自动减少文献标签重叠。
  • 图例:显示或隐藏图例。

图 18:右侧显示设置面板

5. 工具栏常用按钮

窗口上方工具栏包含常用操作:

  • 打开:打开已有 .aitopicmap 文件。
  • 保存:保存当前图,或保存为 SVG。
  • 黑白背景:在黑色和白色背景之间切换。
  • 彩色背景:选择自定义背景色。
  • 重置:恢复默认显示设置。
  • 主题凸包:在关闭凸包、有机包络、凸包之间切换。
  • Excel:导出主题、文献和参数数据。
  • 退出:关闭窗口。

鼠标滚轮可以缩放图形。按住 Shift + 鼠标左键 可以平移图形。主题文字可以用鼠标左键拖动位置。

图19:顶部工具栏保存、背景、凸包、Excel操作

六、主题和文献的交互操作

1. 修改主题名称

在图中的主题文字上右键,或在左侧主题列表中右键,可以选择“修改主题名称”。修改后,主题列表、图中主题标签和对应文献的主题名称会同步更新。

图 20:右键修改主题名称

2. 修改主题颜色和节点形状

在左侧主题列表中右键主题,可以修改主题颜色和节点形状。节点形状支持圆形、方形、三角形、十字形、菱形和星形。

这适合在公众号配图前对重点主题做视觉强调。

图 21:主题颜色和节点形状右键菜单

3. 调整主题文字字体

在可视化区域空白处右键,可以修改主题文字字体。也可以控制是否显示主题文字边框。默认情况下,主题标签不使用背景矩形,主要通过字体样式增强识别。

图22:主题文字字体设置窗口

4. 查看文献原始数据

在文献节点或文献列表中右键,选择“查看原始数据”,可以打开该文献的原始记录。该功能适合在解释某个前沿节点时核对文献细节。

图23:文献原始数据窗口。

5. 去除节点标签重叠

如果打开节点标签后文字重叠较多,可以在节点或空白区域右键,选择“去除节点标签重叠”,也可以在右侧面板勾选“节点标签防重叠”。

七、保存与导出

1. 保存为 .aitopicmap

.aitopicmap 是 AI 新兴主题图的专用文件格式。它会保存模型数据、文献节点、主题信息、分析参数和显示设置。以后可以重新打开继续查看或调整。

2. 保存为 SVG

保存时如果选择 .svg 扩展名,软件会导出当前可视化图形。SVG 适合用于文献、报告、公众号长图或进一步排版。

3. 导出 Excel

点击工具栏中的 Excel 按钮,可以导出数据表。导出的工作簿通常包含:

  • Summary:总体统计。
  • Topics:主题新颖度、文献数、被引数等。
  • Papers:文献题名、年份、被引、新颖度和坐标。
  • Links:文献关系。
  • Options:本次分析参数。

图 24:导出的 Excel 表格

八、如何解读结果

1. 高新颖度主题

主题新颖度越高,说明该主题下文献整体更具有新近性、历史差异性或增长性。它通常代表近期更值得关注的研究方向。

注:新颖度高不等于一定重要。还应结合文献数量、总被引次数和具体文献内容判断。

2. 大节点与深色节点

大节点表示被引用次数较高,通常是影响力较大的文献。深色节点表示新颖度较高,通常是更接近当前前沿的文献。

一个值得重点关注的节点,往往同时具备以下特征:

  • 节点较大。
  • 颜色较深。
  • 位于主题簇的核心或连接多个主题附近。
  • 对应主题的新颖度较高。

3. 主题凸包

主题凸包表示同一主题文献在图中的大致空间范围。凸包面积较大,说明该主题内部文献分布较分散;凸包较紧凑,说明主题内部文献更集中。

单篇文献主题不会绘制凸包,因为单个点无法形成稳定范围。

4. 不同布局的解释方式

UMAP 和 t-SNE 都是降维布局方法。图中距离可以理解为一种“相似性线索”,但不应被解释为严格的数学距离。

更可靠的解读方式是:

  • 看同一主题文献是否形成簇。
  • 看某些主题是否接近或交叠。
  • 看高新颖度节点是否集中出现在某些区域。
  • 看被引高的节点是否位于主题核心位置。

九、参数选择建议

  • 文献关系:引文/参考文献或混合关系。
  • 布局方式:UMAP。
  • 分析窗口:最近 5 年。
  • 历史基线:分析窗口之前 10 年。
  • 最大文献数:300-500。
  • 最大主题数:20-30。
  • 节点标签:默认关闭,只保留主题标签。
  • 主题凸包:使用有机包络。

十、常见问题

1. 为什么生成不了新兴主题图?

常见原因包括:

  • 尚未执行 AI 主题识别。
  • 文档缺少年份。
  • 当前勾选文献过少,但启用了“仅勾选文献”。
  • 数据集中缺少可用于关系计算的关键词、主题词、引文或分类信息。

2. 为什么有些主题没有凸包?

如果一个主题只有一篇文献,系统不会绘制主题凸包。因为单个点无法形成范围。

3. 为什么同一主题的文献没有完全挤在一起?

布局同时考虑文献特征相似性和主题聚拢。系统会尽量让同一主题靠近,但如果某些文献在关键词、引文或分类上差异较大,它们可能仍然分散。

4. 为什么被引高的文献不一定新颖度高?

被引次数表示影响力或关注度,新颖度表示相对于历史和当前时间窗口的创新程度。经典文献可能被引很高,但不一定属于新兴主题。

5. 为什么 t-SNE 和 UMAP 的图不一样?

两者都是降维算法,但优化目标不同。UMAP通常更适合保持整体结构,t-SNE更强调局部邻近关系。因此两种图可以互相参考,但不要把坐标距离解释得过于绝对。