总结性评估¶

概述¶

总结性评估（Summative Evaluation）是可用性工程流程的最终验证测试，目的是证明医疗器械可以被目标用户安全有效地使用。这是一个正式的、受控的测试，结果将作为监管提交的一部分。

总结性评估的目的¶

主要目标¶

验证可用性 - 证明设备可以安全有效地使用
确认风险控制 - 验证使用相关风险已被充分控制
满足监管要求 - 提供监管机构要求的证据
支持上市决策 - 为产品上市提供信心

与形成性评估的区别¶

特征	形成性评估	总结性评估
目的	改进设计	验证设计
时机	设计开发过程中	设计完成后
频率	多次迭代	通常一次
参与者数量	5-8人/轮	15+人（FDA建议）
测试对象	原型、样机	最终产品或等效产品
结果	问题列表和改进建议	通过/失败判定
正式程度	相对灵活	严格规范
监管用途	内部使用	提交给监管机构

总结性评估计划¶

计划要素¶

1. 测试目标¶

明确测试的目的和范围。

示例:

### 测试目标

本总结性评估旨在验证：

1. 目标用户能够安全有效地使用XYZ输液泵
2. 关键任务可以在可接受的错误率下完成
3. 使用相关风险已被充分控制到可接受水平
4. 设备符合IEC 62366-1可用性工程要求

2. 关键任务识别¶

识别所有关键任务（可能导致严重伤害的任务）。

关键任务识别标准:

任务失败可能导致严重伤害或死亡
任务复杂或易混淆
任务使用频率高
历史数据显示高风险

示例：输液泵关键任务

任务ID	任务描述	风险	严重性
CT-001	设置输液速率	剂量错误	灾难性
CT-002	设置输液总量	剂量错误	灾难性
CT-003	启动输液	延误治疗	严重
CT-004	响应报警	未及时处理异常	严重
CT-005	紧急停止	延误停止	灾难性
CT-006	更换输液袋	空气进入、感染	严重

3. 参与者招募¶

数量要求:

FDA建议: 至少15名参与者
欧盟建议: 根据风险和用户多样性确定，通常15-20人
统计考虑: 足够检测关键使用错误

代表性要求:

### 参与者分布

**用户类型**:
- 注册护士：10人
- 护理学生：3人
- 医生：2人

**经验水平**:
- 新手（<1年）：5人
- 中级（1-5年）：7人
- 专家（>5年）：3人

**年龄分布**:
- 20-30岁：5人
- 30-40岁：6人
- 40-50岁：3人
- >50岁：1人

**其他特征**:
- 性别：男女比例接近实际用户群体
- 视力：包括戴眼镜用户
- 手部灵活性：包括不同灵活性用户

招募标准:

### 纳入标准

- 符合目标用户画像
- 具有相关临床背景
- 能够完成测试任务
- 签署知情同意书

### 排除标准

- 参与过该产品的形成性评估
- 参与过该产品的开发
- 与制造商有利益关系
- 使用过该产品超过1小时（避免过度熟悉）

4. 测试任务¶

任务选择:

包含所有关键任务
包含代表性的非关键任务
任务顺序合理（从简单到复杂）
任务场景真实

任务描述示例:

### 任务1：设置持续输液

**场景**:
患者张先生需要接受生理盐水输液。
医嘱：生理盐水 500mL，输液速率 100 mL/h

**任务**:
请使用输液泵设置并启动输液。

**成功标准**:
- 正确设置输液速率为 100 mL/h
- 正确设置输液总量为 500 mL
- 成功启动输液
- 无严重使用错误

**时间限制**: 5分钟

5. 验收标准¶

为每个关键任务设定明确的验收标准。

示例:

### 任务1：设置输液速率

**成功标准**:
- 任务成功率：≥95%
- 严重使用错误：0次
- 平均完成时间：≤60秒
- 用户满意度：≥4/5

**使用错误可接受性**:
- 灾难性使用错误：0次
- 严重使用错误：0次
- 中等使用错误：≤2次
- 轻微使用错误：≤5次

6. 测试环境¶

环境要求:

### 测试环境设置

**物理环境**:
- 地点：模拟病房或实际病房
- 光照：正常室内光照（300-500 lux）
- 噪声：模拟医院环境（50-60 dB）
- 温度：20-25°C

**设备和材料**:
- 测试设备：最终产品或等效产品
- 附件：输液管路、输液袋、支架等
- 模拟患者：人体模型或模拟器
- 使用说明书：最终版本

**观察设备**:
- 摄像机：记录参与者操作
- 屏幕录制：记录设备界面
- 观察员：2名（1名主观察员，1名记录员）

7. 培训¶

培训内容:

### 培训方案

**培训材料**:
- 使用说明书
- 快速参考卡
- 培训视频（如有）

**培训方法**:
- 参与者自学使用说明书（15分钟）
- 观察演示（10分钟）
- 允许提问（5分钟）

**培训限制**:
- 不提供超出使用说明书的信息
- 不演示测试任务
- 不提示潜在错误

**培训验证**:
- 简单问卷确认理解
- 练习任务（非测试任务）

测试执行¶

测试流程¶

标准流程（约2小时）:

### 测试流程

**1. 欢迎和介绍**（10分钟）
- 欢迎参与者
- 介绍测试目的和流程
- 强调测试的是产品，不是参与者
- 回答参与者问题

**2. 知情同意**（5分钟）
- 解释知情同意书内容
- 说明录像和数据使用
- 参与者签署同意书

**3. 背景问卷**（10分钟）
- 收集人口统计信息
- 了解相关经验和背景
- 确认符合招募标准

**4. 培训**（30分钟）
- 提供使用说明书
- 参与者自学
- 观察演示
- 练习任务

**5. 任务执行**（60分钟）
- 参与者执行测试任务
- 观察员记录观察结果
- 不主动提供帮助
- 记录所有使用错误

**6. 访谈**（10分钟）
- 询问使用体验
- 探讨遇到的困难
- 收集改进建议

**7. 问卷**（5分钟）
- 满意度问卷（SUS）
- 其他评估量表

数据收集¶

定量数据¶

### 关键指标

**任务表现**:
- 任务成功/失败
- 任务完成时间
- 错误次数（按严重性分类）
- 帮助请求次数

**使用错误**:
- 使用错误类型和频率
- 使用错误严重性
- 是否自我纠正
- 纠正所需时间

**用户满意度**:
- SUS评分（System Usability Scale）
- 任务难度评分（1-5）
- 整体满意度评分（1-5）

定性数据¶

### 观察记录

**用户行为**:
- 操作步骤和顺序
- 犹豫和困惑点
- 非语言行为（皱眉、叹气）
- 自发评论

**使用错误详情**:
- 错误发生的上下文
- 可能的根本原因
- 用户的反应和恢复

**用户反馈**:
- 喜欢的功能
- 不喜欢的功能
- 改进建议
- 与其他产品的比较

观察员职责¶

主观察员:

监督测试流程
观察参与者行为
识别使用错误
决定何时干预（安全考虑）
进行访谈

记录员:

详细记录观察结果
记录时间戳
标记关键事件
管理录像设备
填写数据表格

干预原则¶

### 何时干预

**必须干预**:
- 参与者或设备面临安全风险
- 参与者极度沮丧或要求停止
- 技术故障

**不应干预**:
- 参与者犯错（除非安全风险）
- 参与者困惑或犹豫
- 任务时间较长

**干预方法**:
- 最小化干预
- 记录干预原因和时间
- 干预后的任务标记为"辅助完成"

数据分析¶

任务成功率¶

### 计算方法

**任务成功**定义：
- 参与者完成任务目标
- 无严重使用错误
- 在时间限制内完成
- 无需帮助

**成功率计算**:
成功率 = (成功次数 / 总尝试次数) × 100%

**示例**:
任务1：设置输液速率
- 参与者数：15人
- 成功：14人
- 失败：1人（输入错误剂量）
- 成功率：93.3%

使用错误分析¶

### 使用错误统计

**按严重性分类**:

| 严重性 | 数量 | 发生率 | 可接受性 |
|--------|------|--------|---------|
| 灾难性 | 0 | 0% | ✓ 可接受 |
| 严重 | 1 | 6.7% | ⚠ 需评估 |
| 中等 | 5 | 33.3% | ✓ 可接受 |
| 轻微 | 12 | 80% | ✓ 可接受 |

**按任务分类**:

| 任务 | 使用错误数 | 主要错误类型 |
|------|-----------|-------------|
| CT-001 | 3 | 小数点输入错误 |
| CT-002 | 1 | 单位混淆 |
| CT-003 | 0 | - |

**根本原因分析**:

对每个严重使用错误进行根本原因分析：
- 错误描述
- 发生频率
- 可能原因
- 现有控制措施
- 是否需要额外控制措施

统计分析¶

### 描述性统计

**任务完成时间**:
- 平均值：45秒
- 中位数：42秒
- 标准差：12秒
- 范围：28-75秒

**用户满意度（SUS）**:
- 平均分：78.5/100
- 标准差：8.2
- 范围：65-92

**解释**:
- SUS >68 被认为高于平均水平
- SUS >80 被认为优秀

风险评估¶

### 残余风险评估

对每个识别的使用错误，评估残余风险：

**使用错误UE-001：小数点输入错误**

- 发生频率：3/15 = 20%
- 严重性：灾难性（药物过量）
- 现有控制措施：
  1. 输入范围限制
  2. 确认对话框
  3. 异常值警告
- 检测度：高（所有参与者都自我纠正）
- 残余风险：中等
- 可接受性：需要额外控制措施或风险-收益分析

验收判定¶

判定标准¶

### 通过标准

设备通过总结性评估需要满足：

1. **关键任务成功率**
   - 所有关键任务成功率 ≥95%

2. **使用错误可接受性**
   - 灾难性使用错误：0次
   - 严重使用错误：经风险评估可接受

3. **残余风险可接受性**
   - 所有残余风险经风险-收益分析可接受
   - 残余风险在使用说明书中告知

4. **用户满意度**
   - SUS评分 ≥68（高于平均水平）

5. **监管要求**
   - 符合IEC 62366-1要求
   - 符合FDA/欧盟指南要求

失败处理¶

### 如果测试失败

**失败原因**:
- 关键任务成功率低于标准
- 发现不可接受的使用错误
- 残余风险不可接受

**处理步骤**:

1. **根本原因分析**
   - 详细分析失败原因
   - 识别设计缺陷

2. **设计改进**
   - 实施纠正措施
   - 更新风险分析

3. **重新测试**
   - 可能需要完整的总结性评估
   - 或针对性的补充测试

4. **文档更新**
   - 更新可用性工程文档
   - 记录改进措施和验证结果

总结性评估报告¶

报告结构¶

### 报告内容

**1. 执行摘要**
- 测试目的和范围
- 主要发现
- 结论和建议

**2. 引言**
- 产品描述
- 预期用途和用户
- 监管背景

**3. 方法**
- 测试设计
- 参与者招募和特征
- 测试任务
- 测试环境
- 数据收集方法

**4. 结果**
- 参与者人口统计
- 任务成功率
- 任务完成时间
- 使用错误分析
- 用户满意度

**5. 风险评估**
- 使用错误风险评估
- 残余风险可接受性
- 风险-收益分析

**6. 讨论**
- 结果解释
- 与验收标准比较
- 局限性

**7. 结论**
- 总体评估
- 通过/失败判定
- 建议

**8. 附录**
- 测试计划
- 知情同意书
- 问卷和表格
- 原始数据
- 统计分析详情

报告示例¶

## 执行摘要

### 测试目的
验证XYZ输液泵可以被目标用户安全有效地使用。

### 方法
15名注册护士参与测试，执行6个关键任务和4个非关键任务。

### 主要发现

**任务成功率**:
- 所有关键任务成功率 ≥93.3%
- 平均成功率：96.7%

**使用错误**:
- 灾难性使用错误：0次
- 严重使用错误：1次（6.7%发生率，已自我纠正）
- 中等使用错误：5次
- 轻微使用错误：12次

**用户满意度**:
- SUS平均分：78.5/100（高于平均水平）
- 整体满意度：4.2/5

### 结论
XYZ输液泵通过总结性评估。所有关键任务成功率达标，使用错误在可接受范围内，残余风险可接受。建议批准上市。

监管提交¶

FDA提交¶

### 人因工程报告内容

根据FDA指南（2016），提交内容包括：

1. **设备描述和预期用途**
2. **使用场景分析**
3. **关键任务识别**
4. **形成性评估总结**
5. **总结性评估详细报告**
6. **使用错误和风险分析**
7. **残余风险可接受性论证**
8. **使用说明书**

### 提交时机

- 510(k)：与申请一起提交
- PMA：与申请一起提交
- De Novo：与申请一起提交

欧盟提交¶

### 技术文档内容

根据MDR附录II，提交内容包括：

1. **可用性工程文档**
2. **使用场景分析**
3. **形成性和总结性评估报告**
4. **风险管理文档（整合使用相关风险）**
5. **临床评价（包括可用性数据）**
6. **使用说明书**

### 公告机构审查

- 公告机构将审查可用性工程文档
- 可能要求补充测试或数据
- 可能进行现场审核

最佳实践¶

1. **充分准备**
   - 详细的测试计划
   - 充分的形成性评估
   - 试运行（pilot test）

2. **严格执行**
   - 遵循测试计划
   - 标准化流程
   - 详细记录

3. **独立性**
   - 参与者未参与开发
   - 观察员客观记录
   - 避免引导

4. **真实性**
   - 真实使用环境
   - 真实任务场景
   - 真实培训方法

5. **统计有效性**
   - 足够的样本量
   - 代表性参与者
   - 适当的统计分析

6. **风险管理整合**
   - 与ISO 14971整合
   - 残余风险评估
   - 风险-收益分析

7. **文档完整性**
   - 详细的报告
   - 可追溯性
   - 支持监管提交

常见问题¶

Q: 总结性评估必须使用最终产品吗？

A: 理想情况下是，但也可以使用等效产品（与最终产品在用户界面和功能上相同）。需要论证等效性。

Q: 如果只有少数参与者犯错，是否可接受？

A: 取决于错误的严重性。灾难性错误即使只有1次也不可接受。轻微错误可以有较高的容忍度。

Q: 可以使用"出声思考"法吗？

A: 总结性评估通常不使用出声思考，因为它可能影响任务表现。但可以在任务后进行回顾性访谈。

Q: 需要多少参与者？

A: FDA建议至少15人。具体数量取决于用户多样性和统计要求。高风险设备可能需要更多。

Q: 如果测试失败怎么办？

A: 需要分析原因、改进设计、重新测试。可能需要完整的新测试或针对性的补充测试。

相关文档: - 可用性工程流程 - 形成性评估 - 使用错误分析

报告问题链接失效建议改进

💬 讨论区

欢迎在这里分享您的想法、提出问题或参与讨论。需要 GitHub 账号登录。