总结性评估¶
概述¶
总结性评估(Summative Evaluation)是可用性工程流程的最终验证测试,目的是证明医疗器械可以被目标用户安全有效地使用。这是一个正式的、受控的测试,结果将作为监管提交的一部分。
总结性评估的目的¶
主要目标¶
- 验证可用性 - 证明设备可以安全有效地使用
- 确认风险控制 - 验证使用相关风险已被充分控制
- 满足监管要求 - 提供监管机构要求的证据
- 支持上市决策 - 为产品上市提供信心
与形成性评估的区别¶
| 特征 | 形成性评估 | 总结性评估 |
|---|---|---|
| 目的 | 改进设计 | 验证设计 |
| 时机 | 设计开发过程中 | 设计完成后 |
| 频率 | 多次迭代 | 通常一次 |
| 参与者数量 | 5-8人/轮 | 15+人(FDA建议) |
| 测试对象 | 原型、样机 | 最终产品或等效产品 |
| 结果 | 问题列表和改进建议 | 通过/失败判定 |
| 正式程度 | 相对灵活 | 严格规范 |
| 监管用途 | 内部使用 | 提交给监管机构 |
总结性评估计划¶
计划要素¶
1. 测试目标¶
明确测试的目的和范围。
示例:
### 测试目标
本总结性评估旨在验证:
1. 目标用户能够安全有效地使用XYZ输液泵
2. 关键任务可以在可接受的错误率下完成
3. 使用相关风险已被充分控制到可接受水平
4. 设备符合IEC 62366-1可用性工程要求
2. 关键任务识别¶
识别所有关键任务(可能导致严重伤害的任务)。
关键任务识别标准:
- 任务失败可能导致严重伤害或死亡
- 任务复杂或易混淆
- 任务使用频率高
- 历史数据显示高风险
示例:输液泵关键任务
| 任务ID | 任务描述 | 风险 | 严重性 |
|---|---|---|---|
| CT-001 | 设置输液速率 | 剂量错误 | 灾难性 |
| CT-002 | 设置输液总量 | 剂量错误 | 灾难性 |
| CT-003 | 启动输液 | 延误治疗 | 严重 |
| CT-004 | 响应报警 | 未及时处理异常 | 严重 |
| CT-005 | 紧急停止 | 延误停止 | 灾难性 |
| CT-006 | 更换输液袋 | 空气进入、感染 | 严重 |
3. 参与者招募¶
数量要求:
- FDA建议: 至少15名参与者
- 欧盟建议: 根据风险和用户多样性确定,通常15-20人
- 统计考虑: 足够检测关键使用错误
代表性要求:
### 参与者分布
**用户类型**:
- 注册护士:10人
- 护理学生:3人
- 医生:2人
**经验水平**:
- 新手(<1年):5人
- 中级(1-5年):7人
- 专家(>5年):3人
**年龄分布**:
- 20-30岁:5人
- 30-40岁:6人
- 40-50岁:3人
- >50岁:1人
**其他特征**:
- 性别:男女比例接近实际用户群体
- 视力:包括戴眼镜用户
- 手部灵活性:包括不同灵活性用户
招募标准:
### 纳入标准
- 符合目标用户画像
- 具有相关临床背景
- 能够完成测试任务
- 签署知情同意书
### 排除标准
- 参与过该产品的形成性评估
- 参与过该产品的开发
- 与制造商有利益关系
- 使用过该产品超过1小时(避免过度熟悉)
4. 测试任务¶
任务选择:
- 包含所有关键任务
- 包含代表性的非关键任务
- 任务顺序合理(从简单到复杂)
- 任务场景真实
任务描述示例:
### 任务1:设置持续输液
**场景**:
患者张先生需要接受生理盐水输液。
医嘱:生理盐水 500mL,输液速率 100 mL/h
**任务**:
请使用输液泵设置并启动输液。
**成功标准**:
- 正确设置输液速率为 100 mL/h
- 正确设置输液总量为 500 mL
- 成功启动输液
- 无严重使用错误
**时间限制**: 5分钟
5. 验收标准¶
为每个关键任务设定明确的验收标准。
示例:
### 任务1:设置输液速率
**成功标准**:
- 任务成功率:≥95%
- 严重使用错误:0次
- 平均完成时间:≤60秒
- 用户满意度:≥4/5
**使用错误可接受性**:
- 灾难性使用错误:0次
- 严重使用错误:0次
- 中等使用错误:≤2次
- 轻微使用错误:≤5次
6. 测试环境¶
环境要求:
### 测试环境设置
**物理环境**:
- 地点:模拟病房或实际病房
- 光照:正常室内光照(300-500 lux)
- 噪声:模拟医院环境(50-60 dB)
- 温度:20-25°C
**设备和材料**:
- 测试设备:最终产品或等效产品
- 附件:输液管路、输液袋、支架等
- 模拟患者:人体模型或模拟器
- 使用说明书:最终版本
**观察设备**:
- 摄像机:记录参与者操作
- 屏幕录制:记录设备界面
- 观察员:2名(1名主观察员,1名记录员)
7. 培训¶
培训内容:
### 培训方案
**培训材料**:
- 使用说明书
- 快速参考卡
- 培训视频(如有)
**培训方法**:
- 参与者自学使用说明书(15分钟)
- 观察演示(10分钟)
- 允许提问(5分钟)
**培训限制**:
- 不提供超出使用说明书的信息
- 不演示测试任务
- 不提示潜在错误
**培训验证**:
- 简单问卷确认理解
- 练习任务(非测试任务)
测试执行¶
测试流程¶
标准流程(约2小时):
### 测试流程
**1. 欢迎和介绍**(10分钟)
- 欢迎参与者
- 介绍测试目的和流程
- 强调测试的是产品,不是参与者
- 回答参与者问题
**2. 知情同意**(5分钟)
- 解释知情同意书内容
- 说明录像和数据使用
- 参与者签署同意书
**3. 背景问卷**(10分钟)
- 收集人口统计信息
- 了解相关经验和背景
- 确认符合招募标准
**4. 培训**(30分钟)
- 提供使用说明书
- 参与者自学
- 观察演示
- 练习任务
**5. 任务执行**(60分钟)
- 参与者执行测试任务
- 观察员记录观察结果
- 不主动提供帮助
- 记录所有使用错误
**6. 访谈**(10分钟)
- 询问使用体验
- 探讨遇到的困难
- 收集改进建议
**7. 问卷**(5分钟)
- 满意度问卷(SUS)
- 其他评估量表
数据收集¶
定量数据¶
### 关键指标
**任务表现**:
- 任务成功/失败
- 任务完成时间
- 错误次数(按严重性分类)
- 帮助请求次数
**使用错误**:
- 使用错误类型和频率
- 使用错误严重性
- 是否自我纠正
- 纠正所需时间
**用户满意度**:
- SUS评分(System Usability Scale)
- 任务难度评分(1-5)
- 整体满意度评分(1-5)
定性数据¶
### 观察记录
**用户行为**:
- 操作步骤和顺序
- 犹豫和困惑点
- 非语言行为(皱眉、叹气)
- 自发评论
**使用错误详情**:
- 错误发生的上下文
- 可能的根本原因
- 用户的反应和恢复
**用户反馈**:
- 喜欢的功能
- 不喜欢的功能
- 改进建议
- 与其他产品的比较
观察员职责¶
主观察员:
- 监督测试流程
- 观察参与者行为
- 识别使用错误
- 决定何时干预(安全考虑)
- 进行访谈
记录员:
- 详细记录观察结果
- 记录时间戳
- 标记关键事件
- 管理录像设备
- 填写数据表格
干预原则¶
### 何时干预
**必须干预**:
- 参与者或设备面临安全风险
- 参与者极度沮丧或要求停止
- 技术故障
**不应干预**:
- 参与者犯错(除非安全风险)
- 参与者困惑或犹豫
- 任务时间较长
**干预方法**:
- 最小化干预
- 记录干预原因和时间
- 干预后的任务标记为"辅助完成"
数据分析¶
任务成功率¶
### 计算方法
**任务成功**定义:
- 参与者完成任务目标
- 无严重使用错误
- 在时间限制内完成
- 无需帮助
**成功率计算**:
成功率 = (成功次数 / 总尝试次数) × 100%
**示例**:
任务1:设置输液速率
- 参与者数:15人
- 成功:14人
- 失败:1人(输入错误剂量)
- 成功率:93.3%
使用错误分析¶
### 使用错误统计
**按严重性分类**:
| 严重性 | 数量 | 发生率 | 可接受性 |
|--------|------|--------|---------|
| 灾难性 | 0 | 0% | ✓ 可接受 |
| 严重 | 1 | 6.7% | ⚠ 需评估 |
| 中等 | 5 | 33.3% | ✓ 可接受 |
| 轻微 | 12 | 80% | ✓ 可接受 |
**按任务分类**:
| 任务 | 使用错误数 | 主要错误类型 |
|------|-----------|-------------|
| CT-001 | 3 | 小数点输入错误 |
| CT-002 | 1 | 单位混淆 |
| CT-003 | 0 | - |
**根本原因分析**:
对每个严重使用错误进行根本原因分析:
- 错误描述
- 发生频率
- 可能原因
- 现有控制措施
- 是否需要额外控制措施
统计分析¶
### 描述性统计
**任务完成时间**:
- 平均值:45秒
- 中位数:42秒
- 标准差:12秒
- 范围:28-75秒
**用户满意度(SUS)**:
- 平均分:78.5/100
- 标准差:8.2
- 范围:65-92
**解释**:
- SUS >68 被认为高于平均水平
- SUS >80 被认为优秀
风险评估¶
### 残余风险评估
对每个识别的使用错误,评估残余风险:
**使用错误UE-001:小数点输入错误**
- 发生频率:3/15 = 20%
- 严重性:灾难性(药物过量)
- 现有控制措施:
1. 输入范围限制
2. 确认对话框
3. 异常值警告
- 检测度:高(所有参与者都自我纠正)
- 残余风险:中等
- 可接受性:需要额外控制措施或风险-收益分析
验收判定¶
判定标准¶
### 通过标准
设备通过总结性评估需要满足:
1. **关键任务成功率**
- 所有关键任务成功率 ≥95%
2. **使用错误可接受性**
- 灾难性使用错误:0次
- 严重使用错误:经风险评估可接受
3. **残余风险可接受性**
- 所有残余风险经风险-收益分析可接受
- 残余风险在使用说明书中告知
4. **用户满意度**
- SUS评分 ≥68(高于平均水平)
5. **监管要求**
- 符合IEC 62366-1要求
- 符合FDA/欧盟指南要求
失败处理¶
### 如果测试失败
**失败原因**:
- 关键任务成功率低于标准
- 发现不可接受的使用错误
- 残余风险不可接受
**处理步骤**:
1. **根本原因分析**
- 详细分析失败原因
- 识别设计缺陷
2. **设计改进**
- 实施纠正措施
- 更新风险分析
3. **重新测试**
- 可能需要完整的总结性评估
- 或针对性的补充测试
4. **文档更新**
- 更新可用性工程文档
- 记录改进措施和验证结果
总结性评估报告¶
报告结构¶
### 报告内容
**1. 执行摘要**
- 测试目的和范围
- 主要发现
- 结论和建议
**2. 引言**
- 产品描述
- 预期用途和用户
- 监管背景
**3. 方法**
- 测试设计
- 参与者招募和特征
- 测试任务
- 测试环境
- 数据收集方法
**4. 结果**
- 参与者人口统计
- 任务成功率
- 任务完成时间
- 使用错误分析
- 用户满意度
**5. 风险评估**
- 使用错误风险评估
- 残余风险可接受性
- 风险-收益分析
**6. 讨论**
- 结果解释
- 与验收标准比较
- 局限性
**7. 结论**
- 总体评估
- 通过/失败判定
- 建议
**8. 附录**
- 测试计划
- 知情同意书
- 问卷和表格
- 原始数据
- 统计分析详情
报告示例¶
## 执行摘要
### 测试目的
验证XYZ输液泵可以被目标用户安全有效地使用。
### 方法
15名注册护士参与测试,执行6个关键任务和4个非关键任务。
### 主要发现
**任务成功率**:
- 所有关键任务成功率 ≥93.3%
- 平均成功率:96.7%
**使用错误**:
- 灾难性使用错误:0次
- 严重使用错误:1次(6.7%发生率,已自我纠正)
- 中等使用错误:5次
- 轻微使用错误:12次
**用户满意度**:
- SUS平均分:78.5/100(高于平均水平)
- 整体满意度:4.2/5
### 结论
XYZ输液泵通过总结性评估。所有关键任务成功率达标,使用错误在可接受范围内,残余风险可接受。建议批准上市。
监管提交¶
FDA提交¶
### 人因工程报告内容
根据FDA指南(2016),提交内容包括:
1. **设备描述和预期用途**
2. **使用场景分析**
3. **关键任务识别**
4. **形成性评估总结**
5. **总结性评估详细报告**
6. **使用错误和风险分析**
7. **残余风险可接受性论证**
8. **使用说明书**
### 提交时机
- 510(k):与申请一起提交
- PMA:与申请一起提交
- De Novo:与申请一起提交
欧盟提交¶
### 技术文档内容
根据MDR附录II,提交内容包括:
1. **可用性工程文档**
2. **使用场景分析**
3. **形成性和总结性评估报告**
4. **风险管理文档(整合使用相关风险)**
5. **临床评价(包括可用性数据)**
6. **使用说明书**
### 公告机构审查
- 公告机构将审查可用性工程文档
- 可能要求补充测试或数据
- 可能进行现场审核
最佳实践¶
1. **充分准备**
- 详细的测试计划
- 充分的形成性评估
- 试运行(pilot test)
2. **严格执行**
- 遵循测试计划
- 标准化流程
- 详细记录
3. **独立性**
- 参与者未参与开发
- 观察员客观记录
- 避免引导
4. **真实性**
- 真实使用环境
- 真实任务场景
- 真实培训方法
5. **统计有效性**
- 足够的样本量
- 代表性参与者
- 适当的统计分析
6. **风险管理整合**
- 与ISO 14971整合
- 残余风险评估
- 风险-收益分析
7. **文档完整性**
- 详细的报告
- 可追溯性
- 支持监管提交
常见问题¶
Q: 总结性评估必须使用最终产品吗?
A: 理想情况下是,但也可以使用等效产品(与最终产品在用户界面和功能上相同)。需要论证等效性。
Q: 如果只有少数参与者犯错,是否可接受?
A: 取决于错误的严重性。灾难性错误即使只有1次也不可接受。轻微错误可以有较高的容忍度。
Q: 可以使用"出声思考"法吗?
A: 总结性评估通常不使用出声思考,因为它可能影响任务表现。但可以在任务后进行回顾性访谈。
Q: 需要多少参与者?
A: FDA建议至少15人。具体数量取决于用户多样性和统计要求。高风险设备可能需要更多。
Q: 如果测试失败怎么办?
A: 需要分析原因、改进设计、重新测试。可能需要完整的新测试或针对性的补充测试。
💬 讨论区
欢迎在这里分享您的想法、提出问题或参与讨论。需要 GitHub 账号登录。