跳转至

形成性评估

概述

形成性评估(Formative Evaluation)是在设计和开发过程中进行的迭代测试,目的是发现和解决可用性问题。与总结性评估不同,形成性评估侧重于改进设计,而非验证最终产品。

形成性评估的目的

主要目标

  1. 早期发现问题 - 在设计阶段识别可用性问题
  2. 降低开发成本 - 早期修复比后期修复成本低得多
  3. 迭代改进 - 通过多次测试持续优化设计
  4. 降低风险 - 减少总结性评估失败的风险

与总结性评估的区别

特征 形成性评估 总结性评估
目的 改进设计 验证设计
时机 设计开发过程中 设计完成后
频率 多次迭代 通常一次
参与者数量 5-8人/轮 15+人
测试对象 原型、样机 最终产品
结果 问题列表和改进建议 通过/失败判定
正式程度 相对灵活 严格规范

形成性评估方法

1. 启发式评估(Heuristic Evaluation)

方法概述

由可用性专家根据既定的可用性原则(启发式规则)评审界面。

优点: - 快速、成本低 - 不需要招募用户 - 可以早期进行(纸质原型阶段) - 可以发现专家级问题

缺点: - 依赖评审者经验 - 可能遗漏实际使用中的问题 - 不能替代用户测试

实施步骤

步骤1:准备

  • 准备设计原型(纸质、数字、实物)
  • 准备评审检查表和问题记录表
  • 招募3-5名评审者(可用性专家 + 领域专家)
  • 提供使用场景描述

步骤2:评审流程

  1. 简介(15分钟)- 介绍产品和使用场景
  2. 独立评审(1-2小时)- 评审者独立检查界面,对照启发式规则识别问题
  3. 汇总讨论(1小时)- 评审者分享发现,讨论问题和解决方案

步骤3:问题记录模板

问题ID: HE-001
发现者: 评审者A
位置: 主界面 > 剂量设置
违反原则: 错误预防
问题描述: 剂量输入框无范围限制,用户可能输入超出安全范围的值
严重性: 高(可能导致严重伤害)
建议解决方案: 添加输入范围验证、超出范围时显示错误提示

启发式规则

Nielsen的10条可用性启发式:

  1. 系统状态可见性
  2. 系统与现实世界匹配
  3. 用户控制和自由
  4. 一致性和标准
  5. 错误预防
  6. 识别而非回忆
  7. 灵活性和效率
  8. 美学和简约设计
  9. 帮助用户识别、诊断和恢复错误
  10. 帮助和文档

医疗器械特定启发式:

  1. 安全关键操作保护
  2. 报警系统有效性
  3. 紧急情况可用性
  4. 多用户考虑
  5. 环境适应性

2. 认知走查(Cognitive Walkthrough)

方法概述

模拟用户执行任务的认知过程,逐步分析每个操作。适用于新用户首次使用、复杂任务流程分析。

认知走查四问

对每个操作步骤,回答:

  1. 用户会尝试达到正确的效果吗? - 用户是否理解当前需要做什么?
  2. 用户会注意到正确的操作是可用的吗? - 正确的控制是否可见?
  3. 用户会知道正确的操作能达到期望的效果吗? - 控制的功能是否明确?
  4. 用户执行操作后,会得到适当的反馈吗? - 系统是否提供清晰反馈?

3. 用户测试(User Testing)

方法概述

招募真实目标用户测试原型,观察和记录使用过程。

优点: 发现真实使用问题、获得用户反馈、验证设计假设 缺点: 需要招募用户、耗时较长、成本较高

测试流程(约90分钟)

  1. 欢迎和介绍(10分钟)- 介绍测试目的、签署知情同意书
  2. 背景问卷(5分钟)- 收集参与者背景信息
  3. 培训(10分钟)- 根据使用说明书进行培训
  4. 任务执行(45分钟)- 参与者执行预定任务,鼓励"出声思考"
  5. 访谈(15分钟)- 询问使用体验,探讨遇到的问题
  6. 问卷(5分钟)- 满意度问卷(如SUS)

数据收集

定量数据: - 任务成功/失败 - 任务完成时间 - 错误次数 - 帮助请求次数

定性数据: - 使用错误描述 - 困惑点 - 用户评论 - 非语言行为(皱眉、犹豫)

出声思考法(Think Aloud)

要求参与者在操作过程中说出自己的想法,了解用户思维过程和认知问题。

指导语示例: "请在使用过程中说出您的想法,比如您在寻找什么、为什么这样操作、对界面的理解、遇到的困惑。"

4. 专家访谈

邀请临床专家评审设计,验证临床适用性、工作流程整合、识别潜在问题和风险。

形成性评估时机

多阶段评估

阶段1:概念设计(纸质原型) - 时机:设计初期 - 方法:启发式评估、认知走查 - 目标:验证基本概念和流程

阶段2:低保真原型 - 时机:交互设计阶段 - 方法:用户测试(5-8人) - 目标:测试交互逻辑和信息架构

阶段3:高保真原型 - 时机:视觉设计阶段 - 方法:用户测试(5-8人) - 目标:测试视觉设计和细节

阶段4:工程样机 - 时机:开发阶段 - 方法:用户测试(8-10人) - 目标:测试完整功能和性能

阶段5:预生产样机 - 时机:总结性评估前 - 方法:用户测试(10-15人) - 目标:最后验证,为总结性评估做准备

数据分析

问题分类

按严重性分类:

  • 1级 - 灾难性: 可能导致严重伤害或死亡,必须修复
  • 2级 - 严重: 可能导致中等伤害或治疗失败,必须修复
  • 3级 - 中等: 导致使用不便或效率降低,应该修复
  • 4级 - 轻微: 仅影响用户体验,考虑修复

问题优先级矩阵

严重性 × 发生频率 = 优先级

发生频率 \ 严重性 灾难性 严重 中等 轻微
高(>50%) P1 P1 P2 P3
中(20-50%) P1 P2 P2 P3
低(<20%) P2 P2 P3 P4
  • P1 - 立即修复: 下一版本必须解决
  • P2 - 高优先级: 尽快修复
  • P3 - 中优先级: 计划修复
  • P4 - 低优先级: 资源允许时修复

报告和跟踪

形成性评估报告结构

  1. 执行摘要 - 测试目标、主要发现、关键建议
  2. 方法 - 测试方法、参与者信息、测试任务、测试环境
  3. 结果 - 定量数据、定性发现、用户反馈
  4. 问题列表 - 问题描述、严重性和优先级、建议解决方案
  5. 建议 - 设计改进建议、下一步行动
  6. 附录 - 测试材料、原始数据、录像截图

问题跟踪表

ID 问题 严重性 优先级 状态 负责人 解决方案 验证
FE-001 小数点输入困难 P1 已修复 张工 添加示例提示 下轮测试
FE-002 模式选择困惑 P2 进行中 李工 添加说明文字 待定

最佳实践

  1. 早期和频繁测试 - 在纸质原型阶段就开始测试,每个设计迭代都进行测试
  2. 招募合适的参与者 - 确保参与者代表目标用户,覆盖不同用户群体
  3. 测试真实任务 - 使用真实的使用场景,任务描述清晰具体
  4. 观察而非询问 - 观察实际行为比询问更可靠,注意非语言行为
  5. 迭代改进 - 基于测试结果改进设计,验证改进效果
  6. 跨职能协作 - 设计师、工程师、临床专家共同参与
  7. 文档化 - 详细记录测试过程和结果,建立问题跟踪系统

实际案例

案例:输液泵界面改进

第1轮形成性评估(纸质原型)

  • 方法:启发式评估
  • 发现:剂量输入流程复杂,需要7个步骤
  • 改进:简化为3个步骤

第2轮形成性评估(低保真原型)

  • 方法:用户测试(6名护士)
  • 发现:5/6参与者在小数点输入时遇到困难
  • 改进:添加输入示例,优化数字键盘

第3轮形成性评估(高保真原型)

  • 方法:用户测试(8名护士)
  • 发现:确认对话框不够醒目,2/8参与者未仔细查看
  • 改进:增大字体,使用颜色编码,添加二次确认

第4轮形成性评估(工程样机)

  • 方法:用户测试(10名护士)
  • 发现:所有参与者成功完成任务,平均时间45秒
  • 结论:准备进入总结性评估

下一步: 学习总结性评估,了解如何进行最终的可用性验证测试。


💬 讨论区

欢迎在这里分享您的想法、提出问题或参与讨论。需要 GitHub 账号登录。