形成性评估¶
概述¶
形成性评估(Formative Evaluation)是在设计和开发过程中进行的迭代测试,目的是发现和解决可用性问题。与总结性评估不同,形成性评估侧重于改进设计,而非验证最终产品。
形成性评估的目的¶
主要目标¶
- 早期发现问题 - 在设计阶段识别可用性问题
- 降低开发成本 - 早期修复比后期修复成本低得多
- 迭代改进 - 通过多次测试持续优化设计
- 降低风险 - 减少总结性评估失败的风险
与总结性评估的区别¶
| 特征 | 形成性评估 | 总结性评估 |
|---|---|---|
| 目的 | 改进设计 | 验证设计 |
| 时机 | 设计开发过程中 | 设计完成后 |
| 频率 | 多次迭代 | 通常一次 |
| 参与者数量 | 5-8人/轮 | 15+人 |
| 测试对象 | 原型、样机 | 最终产品 |
| 结果 | 问题列表和改进建议 | 通过/失败判定 |
| 正式程度 | 相对灵活 | 严格规范 |
形成性评估方法¶
1. 启发式评估(Heuristic Evaluation)¶
方法概述¶
由可用性专家根据既定的可用性原则(启发式规则)评审界面。
优点: - 快速、成本低 - 不需要招募用户 - 可以早期进行(纸质原型阶段) - 可以发现专家级问题
缺点: - 依赖评审者经验 - 可能遗漏实际使用中的问题 - 不能替代用户测试
实施步骤¶
步骤1:准备
- 准备设计原型(纸质、数字、实物)
- 准备评审检查表和问题记录表
- 招募3-5名评审者(可用性专家 + 领域专家)
- 提供使用场景描述
步骤2:评审流程
- 简介(15分钟)- 介绍产品和使用场景
- 独立评审(1-2小时)- 评审者独立检查界面,对照启发式规则识别问题
- 汇总讨论(1小时)- 评审者分享发现,讨论问题和解决方案
步骤3:问题记录模板
问题ID: HE-001
发现者: 评审者A
位置: 主界面 > 剂量设置
违反原则: 错误预防
问题描述: 剂量输入框无范围限制,用户可能输入超出安全范围的值
严重性: 高(可能导致严重伤害)
建议解决方案: 添加输入范围验证、超出范围时显示错误提示
启发式规则¶
Nielsen的10条可用性启发式:
- 系统状态可见性
- 系统与现实世界匹配
- 用户控制和自由
- 一致性和标准
- 错误预防
- 识别而非回忆
- 灵活性和效率
- 美学和简约设计
- 帮助用户识别、诊断和恢复错误
- 帮助和文档
医疗器械特定启发式:
- 安全关键操作保护
- 报警系统有效性
- 紧急情况可用性
- 多用户考虑
- 环境适应性
2. 认知走查(Cognitive Walkthrough)¶
方法概述¶
模拟用户执行任务的认知过程,逐步分析每个操作。适用于新用户首次使用、复杂任务流程分析。
认知走查四问¶
对每个操作步骤,回答:
- 用户会尝试达到正确的效果吗? - 用户是否理解当前需要做什么?
- 用户会注意到正确的操作是可用的吗? - 正确的控制是否可见?
- 用户会知道正确的操作能达到期望的效果吗? - 控制的功能是否明确?
- 用户执行操作后,会得到适当的反馈吗? - 系统是否提供清晰反馈?
3. 用户测试(User Testing)¶
方法概述¶
招募真实目标用户测试原型,观察和记录使用过程。
优点: 发现真实使用问题、获得用户反馈、验证设计假设 缺点: 需要招募用户、耗时较长、成本较高
测试流程(约90分钟)¶
- 欢迎和介绍(10分钟)- 介绍测试目的、签署知情同意书
- 背景问卷(5分钟)- 收集参与者背景信息
- 培训(10分钟)- 根据使用说明书进行培训
- 任务执行(45分钟)- 参与者执行预定任务,鼓励"出声思考"
- 访谈(15分钟)- 询问使用体验,探讨遇到的问题
- 问卷(5分钟)- 满意度问卷(如SUS)
数据收集¶
定量数据: - 任务成功/失败 - 任务完成时间 - 错误次数 - 帮助请求次数
定性数据: - 使用错误描述 - 困惑点 - 用户评论 - 非语言行为(皱眉、犹豫)
出声思考法(Think Aloud)¶
要求参与者在操作过程中说出自己的想法,了解用户思维过程和认知问题。
指导语示例: "请在使用过程中说出您的想法,比如您在寻找什么、为什么这样操作、对界面的理解、遇到的困惑。"
4. 专家访谈¶
邀请临床专家评审设计,验证临床适用性、工作流程整合、识别潜在问题和风险。
形成性评估时机¶
多阶段评估¶
阶段1:概念设计(纸质原型) - 时机:设计初期 - 方法:启发式评估、认知走查 - 目标:验证基本概念和流程
阶段2:低保真原型 - 时机:交互设计阶段 - 方法:用户测试(5-8人) - 目标:测试交互逻辑和信息架构
阶段3:高保真原型 - 时机:视觉设计阶段 - 方法:用户测试(5-8人) - 目标:测试视觉设计和细节
阶段4:工程样机 - 时机:开发阶段 - 方法:用户测试(8-10人) - 目标:测试完整功能和性能
阶段5:预生产样机 - 时机:总结性评估前 - 方法:用户测试(10-15人) - 目标:最后验证,为总结性评估做准备
数据分析¶
问题分类¶
按严重性分类:
- 1级 - 灾难性: 可能导致严重伤害或死亡,必须修复
- 2级 - 严重: 可能导致中等伤害或治疗失败,必须修复
- 3级 - 中等: 导致使用不便或效率降低,应该修复
- 4级 - 轻微: 仅影响用户体验,考虑修复
问题优先级矩阵¶
严重性 × 发生频率 = 优先级
| 发生频率 \ 严重性 | 灾难性 | 严重 | 中等 | 轻微 |
|---|---|---|---|---|
| 高(>50%) | P1 | P1 | P2 | P3 |
| 中(20-50%) | P1 | P2 | P2 | P3 |
| 低(<20%) | P2 | P2 | P3 | P4 |
- P1 - 立即修复: 下一版本必须解决
- P2 - 高优先级: 尽快修复
- P3 - 中优先级: 计划修复
- P4 - 低优先级: 资源允许时修复
报告和跟踪¶
形成性评估报告结构¶
- 执行摘要 - 测试目标、主要发现、关键建议
- 方法 - 测试方法、参与者信息、测试任务、测试环境
- 结果 - 定量数据、定性发现、用户反馈
- 问题列表 - 问题描述、严重性和优先级、建议解决方案
- 建议 - 设计改进建议、下一步行动
- 附录 - 测试材料、原始数据、录像截图
问题跟踪表¶
| ID | 问题 | 严重性 | 优先级 | 状态 | 负责人 | 解决方案 | 验证 |
|---|---|---|---|---|---|---|---|
| FE-001 | 小数点输入困难 | 高 | P1 | 已修复 | 张工 | 添加示例提示 | 下轮测试 |
| FE-002 | 模式选择困惑 | 中 | P2 | 进行中 | 李工 | 添加说明文字 | 待定 |
最佳实践¶
- 早期和频繁测试 - 在纸质原型阶段就开始测试,每个设计迭代都进行测试
- 招募合适的参与者 - 确保参与者代表目标用户,覆盖不同用户群体
- 测试真实任务 - 使用真实的使用场景,任务描述清晰具体
- 观察而非询问 - 观察实际行为比询问更可靠,注意非语言行为
- 迭代改进 - 基于测试结果改进设计,验证改进效果
- 跨职能协作 - 设计师、工程师、临床专家共同参与
- 文档化 - 详细记录测试过程和结果,建立问题跟踪系统
实际案例¶
案例:输液泵界面改进¶
第1轮形成性评估(纸质原型)
- 方法:启发式评估
- 发现:剂量输入流程复杂,需要7个步骤
- 改进:简化为3个步骤
第2轮形成性评估(低保真原型)
- 方法:用户测试(6名护士)
- 发现:5/6参与者在小数点输入时遇到困难
- 改进:添加输入示例,优化数字键盘
第3轮形成性评估(高保真原型)
- 方法:用户测试(8名护士)
- 发现:确认对话框不够醒目,2/8参与者未仔细查看
- 改进:增大字体,使用颜色编码,添加二次确认
第4轮形成性评估(工程样机)
- 方法:用户测试(10名护士)
- 发现:所有参与者成功完成任务,平均时间45秒
- 结论:准备进入总结性评估
下一步: 学习总结性评估,了解如何进行最终的可用性验证测试。
💬 讨论区
欢迎在这里分享您的想法、提出问题或参与讨论。需要 GitHub 账号登录。