跳转至

总结性评估

概述

总结性评估(Summative Evaluation)是可用性工程流程的最终验证测试,目的是证明医疗器械可以被目标用户安全有效地使用。这是一个正式的、受控的测试,结果将作为监管提交的一部分。

总结性评估的目的

主要目标

  1. 验证可用性 - 证明设备可以安全有效地使用
  2. 确认风险控制 - 验证使用相关风险已被充分控制
  3. 满足监管要求 - 提供监管机构要求的证据
  4. 支持上市决策 - 为产品上市提供信心

与形成性评估的区别

特征 形成性评估 总结性评估
目的 改进设计 验证设计
时机 设计开发过程中 设计完成后
频率 多次迭代 通常一次
参与者数量 5-8人/轮 15+人(FDA建议)
测试对象 原型、样机 最终产品或等效产品
结果 问题列表和改进建议 通过/失败判定
正式程度 相对灵活 严格规范
监管用途 内部使用 提交给监管机构

总结性评估计划

计划要素

1. 测试目标

明确测试的目的和范围。

示例:

### 测试目标

本总结性评估旨在验证:

1. 目标用户能够安全有效地使用XYZ输液泵
2. 关键任务可以在可接受的错误率下完成
3. 使用相关风险已被充分控制到可接受水平
4. 设备符合IEC 62366-1可用性工程要求

2. 关键任务识别

识别所有关键任务(可能导致严重伤害的任务)。

关键任务识别标准:

  • 任务失败可能导致严重伤害或死亡
  • 任务复杂或易混淆
  • 任务使用频率高
  • 历史数据显示高风险

示例:输液泵关键任务

任务ID 任务描述 风险 严重性
CT-001 设置输液速率 剂量错误 灾难性
CT-002 设置输液总量 剂量错误 灾难性
CT-003 启动输液 延误治疗 严重
CT-004 响应报警 未及时处理异常 严重
CT-005 紧急停止 延误停止 灾难性
CT-006 更换输液袋 空气进入、感染 严重

3. 参与者招募

数量要求:

  • FDA建议: 至少15名参与者
  • 欧盟建议: 根据风险和用户多样性确定,通常15-20人
  • 统计考虑: 足够检测关键使用错误

代表性要求:

### 参与者分布

**用户类型**:
- 注册护士:10人
- 护理学生:3人
- 医生:2人

**经验水平**:
- 新手(<1年):5人
- 中级(1-5年):7人
- 专家(>5年):3人

**年龄分布**:
- 20-30岁:5人
- 30-40岁:6人
- 40-50岁:3人
- >50岁:1人

**其他特征**:
- 性别:男女比例接近实际用户群体
- 视力:包括戴眼镜用户
- 手部灵活性:包括不同灵活性用户

招募标准:

### 纳入标准

- 符合目标用户画像
- 具有相关临床背景
- 能够完成测试任务
- 签署知情同意书

### 排除标准

- 参与过该产品的形成性评估
- 参与过该产品的开发
- 与制造商有利益关系
- 使用过该产品超过1小时(避免过度熟悉)

4. 测试任务

任务选择:

  • 包含所有关键任务
  • 包含代表性的非关键任务
  • 任务顺序合理(从简单到复杂)
  • 任务场景真实

任务描述示例:

### 任务1:设置持续输液

**场景**:
患者张先生需要接受生理盐水输液。
医嘱:生理盐水 500mL,输液速率 100 mL/h

**任务**:
请使用输液泵设置并启动输液。

**成功标准**:
- 正确设置输液速率为 100 mL/h
- 正确设置输液总量为 500 mL
- 成功启动输液
- 无严重使用错误

**时间限制**: 5分钟

5. 验收标准

为每个关键任务设定明确的验收标准。

示例:

### 任务1:设置输液速率

**成功标准**:
- 任务成功率:≥95%
- 严重使用错误:0次
- 平均完成时间:≤60秒
- 用户满意度:≥4/5

**使用错误可接受性**:
- 灾难性使用错误:0次
- 严重使用错误:0次
- 中等使用错误:≤2次
- 轻微使用错误:≤5次

6. 测试环境

环境要求:

### 测试环境设置

**物理环境**:
- 地点:模拟病房或实际病房
- 光照:正常室内光照(300-500 lux)
- 噪声:模拟医院环境(50-60 dB)
- 温度:20-25°C

**设备和材料**:
- 测试设备:最终产品或等效产品
- 附件:输液管路、输液袋、支架等
- 模拟患者:人体模型或模拟器
- 使用说明书:最终版本

**观察设备**:
- 摄像机:记录参与者操作
- 屏幕录制:记录设备界面
- 观察员:2名(1名主观察员,1名记录员)

7. 培训

培训内容:

### 培训方案

**培训材料**:
- 使用说明书
- 快速参考卡
- 培训视频(如有)

**培训方法**:
- 参与者自学使用说明书(15分钟)
- 观察演示(10分钟)
- 允许提问(5分钟)

**培训限制**:
- 不提供超出使用说明书的信息
- 不演示测试任务
- 不提示潜在错误

**培训验证**:
- 简单问卷确认理解
- 练习任务(非测试任务)

测试执行

测试流程

标准流程(约2小时):

### 测试流程

**1. 欢迎和介绍**(10分钟)
- 欢迎参与者
- 介绍测试目的和流程
- 强调测试的是产品,不是参与者
- 回答参与者问题

**2. 知情同意**(5分钟)
- 解释知情同意书内容
- 说明录像和数据使用
- 参与者签署同意书

**3. 背景问卷**(10分钟)
- 收集人口统计信息
- 了解相关经验和背景
- 确认符合招募标准

**4. 培训**(30分钟)
- 提供使用说明书
- 参与者自学
- 观察演示
- 练习任务

**5. 任务执行**(60分钟)
- 参与者执行测试任务
- 观察员记录观察结果
- 不主动提供帮助
- 记录所有使用错误

**6. 访谈**(10分钟)
- 询问使用体验
- 探讨遇到的困难
- 收集改进建议

**7. 问卷**(5分钟)
- 满意度问卷(SUS)
- 其他评估量表

数据收集

定量数据

### 关键指标

**任务表现**:
- 任务成功/失败
- 任务完成时间
- 错误次数(按严重性分类)
- 帮助请求次数

**使用错误**:
- 使用错误类型和频率
- 使用错误严重性
- 是否自我纠正
- 纠正所需时间

**用户满意度**:
- SUS评分(System Usability Scale)
- 任务难度评分(1-5)
- 整体满意度评分(1-5)

定性数据

### 观察记录

**用户行为**:
- 操作步骤和顺序
- 犹豫和困惑点
- 非语言行为(皱眉、叹气)
- 自发评论

**使用错误详情**:
- 错误发生的上下文
- 可能的根本原因
- 用户的反应和恢复

**用户反馈**:
- 喜欢的功能
- 不喜欢的功能
- 改进建议
- 与其他产品的比较

观察员职责

主观察员:

  • 监督测试流程
  • 观察参与者行为
  • 识别使用错误
  • 决定何时干预(安全考虑)
  • 进行访谈

记录员:

  • 详细记录观察结果
  • 记录时间戳
  • 标记关键事件
  • 管理录像设备
  • 填写数据表格

干预原则

### 何时干预

**必须干预**:
- 参与者或设备面临安全风险
- 参与者极度沮丧或要求停止
- 技术故障

**不应干预**:
- 参与者犯错(除非安全风险)
- 参与者困惑或犹豫
- 任务时间较长

**干预方法**:
- 最小化干预
- 记录干预原因和时间
- 干预后的任务标记为"辅助完成"

数据分析

任务成功率

### 计算方法

**任务成功**定义:
- 参与者完成任务目标
- 无严重使用错误
- 在时间限制内完成
- 无需帮助

**成功率计算**:
成功率 = (成功次数 / 总尝试次数) × 100%

**示例**:
任务1:设置输液速率
- 参与者数:15人
- 成功:14人
- 失败:1人(输入错误剂量)
- 成功率:93.3%

使用错误分析

### 使用错误统计

**按严重性分类**:

| 严重性 | 数量 | 发生率 | 可接受性 |
|--------|------|--------|---------|
| 灾难性 | 0 | 0% | ✓ 可接受 |
| 严重 | 1 | 6.7% | ⚠ 需评估 |
| 中等 | 5 | 33.3% | ✓ 可接受 |
| 轻微 | 12 | 80% | ✓ 可接受 |

**按任务分类**:

| 任务 | 使用错误数 | 主要错误类型 |
|------|-----------|-------------|
| CT-001 | 3 | 小数点输入错误 |
| CT-002 | 1 | 单位混淆 |
| CT-003 | 0 | - |

**根本原因分析**:

对每个严重使用错误进行根本原因分析:
- 错误描述
- 发生频率
- 可能原因
- 现有控制措施
- 是否需要额外控制措施

统计分析

### 描述性统计

**任务完成时间**:
- 平均值:45秒
- 中位数:42秒
- 标准差:12秒
- 范围:28-75秒

**用户满意度(SUS)**:
- 平均分:78.5/100
- 标准差:8.2
- 范围:65-92

**解释**:
- SUS >68 被认为高于平均水平
- SUS >80 被认为优秀

风险评估

### 残余风险评估

对每个识别的使用错误,评估残余风险:

**使用错误UE-001:小数点输入错误**

- 发生频率:3/15 = 20%
- 严重性:灾难性(药物过量)
- 现有控制措施:
  1. 输入范围限制
  2. 确认对话框
  3. 异常值警告
- 检测度:高(所有参与者都自我纠正)
- 残余风险:中等
- 可接受性:需要额外控制措施或风险-收益分析

验收判定

判定标准

### 通过标准

设备通过总结性评估需要满足:

1. **关键任务成功率**
   - 所有关键任务成功率 ≥95%

2. **使用错误可接受性**
   - 灾难性使用错误:0次
   - 严重使用错误:经风险评估可接受

3. **残余风险可接受性**
   - 所有残余风险经风险-收益分析可接受
   - 残余风险在使用说明书中告知

4. **用户满意度**
   - SUS评分 ≥68(高于平均水平)

5. **监管要求**
   - 符合IEC 62366-1要求
   - 符合FDA/欧盟指南要求

失败处理

### 如果测试失败

**失败原因**:
- 关键任务成功率低于标准
- 发现不可接受的使用错误
- 残余风险不可接受

**处理步骤**:

1. **根本原因分析**
   - 详细分析失败原因
   - 识别设计缺陷

2. **设计改进**
   - 实施纠正措施
   - 更新风险分析

3. **重新测试**
   - 可能需要完整的总结性评估
   - 或针对性的补充测试

4. **文档更新**
   - 更新可用性工程文档
   - 记录改进措施和验证结果

总结性评估报告

报告结构

### 报告内容

**1. 执行摘要**
- 测试目的和范围
- 主要发现
- 结论和建议

**2. 引言**
- 产品描述
- 预期用途和用户
- 监管背景

**3. 方法**
- 测试设计
- 参与者招募和特征
- 测试任务
- 测试环境
- 数据收集方法

**4. 结果**
- 参与者人口统计
- 任务成功率
- 任务完成时间
- 使用错误分析
- 用户满意度

**5. 风险评估**
- 使用错误风险评估
- 残余风险可接受性
- 风险-收益分析

**6. 讨论**
- 结果解释
- 与验收标准比较
- 局限性

**7. 结论**
- 总体评估
- 通过/失败判定
- 建议

**8. 附录**
- 测试计划
- 知情同意书
- 问卷和表格
- 原始数据
- 统计分析详情

报告示例

## 执行摘要

### 测试目的
验证XYZ输液泵可以被目标用户安全有效地使用。

### 方法
15名注册护士参与测试,执行6个关键任务和4个非关键任务。

### 主要发现

**任务成功率**:
- 所有关键任务成功率 ≥93.3%
- 平均成功率:96.7%

**使用错误**:
- 灾难性使用错误:0次
- 严重使用错误:1次(6.7%发生率,已自我纠正)
- 中等使用错误:5次
- 轻微使用错误:12次

**用户满意度**:
- SUS平均分:78.5/100(高于平均水平)
- 整体满意度:4.2/5

### 结论
XYZ输液泵通过总结性评估。所有关键任务成功率达标,使用错误在可接受范围内,残余风险可接受。建议批准上市。

监管提交

FDA提交

### 人因工程报告内容

根据FDA指南(2016),提交内容包括:

1. **设备描述和预期用途**
2. **使用场景分析**
3. **关键任务识别**
4. **形成性评估总结**
5. **总结性评估详细报告**
6. **使用错误和风险分析**
7. **残余风险可接受性论证**
8. **使用说明书**

### 提交时机

- 510(k):与申请一起提交
- PMA:与申请一起提交
- De Novo:与申请一起提交

欧盟提交

### 技术文档内容

根据MDR附录II,提交内容包括:

1. **可用性工程文档**
2. **使用场景分析**
3. **形成性和总结性评估报告**
4. **风险管理文档(整合使用相关风险)**
5. **临床评价(包括可用性数据)**
6. **使用说明书**

### 公告机构审查

- 公告机构将审查可用性工程文档
- 可能要求补充测试或数据
- 可能进行现场审核

最佳实践

1. **充分准备**
   - 详细的测试计划
   - 充分的形成性评估
   - 试运行(pilot test)

2. **严格执行**
   - 遵循测试计划
   - 标准化流程
   - 详细记录

3. **独立性**
   - 参与者未参与开发
   - 观察员客观记录
   - 避免引导

4. **真实性**
   - 真实使用环境
   - 真实任务场景
   - 真实培训方法

5. **统计有效性**
   - 足够的样本量
   - 代表性参与者
   - 适当的统计分析

6. **风险管理整合**
   - 与ISO 14971整合
   - 残余风险评估
   - 风险-收益分析

7. **文档完整性**
   - 详细的报告
   - 可追溯性
   - 支持监管提交

常见问题

Q: 总结性评估必须使用最终产品吗?

A: 理想情况下是,但也可以使用等效产品(与最终产品在用户界面和功能上相同)。需要论证等效性。

Q: 如果只有少数参与者犯错,是否可接受?

A: 取决于错误的严重性。灾难性错误即使只有1次也不可接受。轻微错误可以有较高的容忍度。

Q: 可以使用"出声思考"法吗?

A: 总结性评估通常不使用出声思考,因为它可能影响任务表现。但可以在任务后进行回顾性访谈。

Q: 需要多少参与者?

A: FDA建议至少15人。具体数量取决于用户多样性和统计要求。高风险设备可能需要更多。

Q: 如果测试失败怎么办?

A: 需要分析原因、改进设计、重新测试。可能需要完整的新测试或针对性的补充测试。


相关文档: - 可用性工程流程 - 形成性评估 - 使用错误分析


💬 讨论区

欢迎在这里分享您的想法、提出问题或参与讨论。需要 GitHub 账号登录。