形成性评估¶

概述¶

形成性评估（Formative Evaluation）是在设计和开发过程中进行的迭代测试，目的是发现和解决可用性问题。与总结性评估不同，形成性评估侧重于改进设计，而非验证最终产品。

形成性评估的目的¶

主要目标¶

早期发现问题 - 在设计阶段识别可用性问题
降低开发成本 - 早期修复比后期修复成本低得多
迭代改进 - 通过多次测试持续优化设计
降低风险 - 减少总结性评估失败的风险

与总结性评估的区别¶

特征	形成性评估	总结性评估
目的	改进设计	验证设计
时机	设计开发过程中	设计完成后
频率	多次迭代	通常一次
参与者数量	5-8人/轮	15+人
测试对象	原型、样机	最终产品
结果	问题列表和改进建议	通过/失败判定
正式程度	相对灵活	严格规范

形成性评估方法¶

1. 启发式评估（Heuristic Evaluation）¶

方法概述¶

由可用性专家根据既定的可用性原则（启发式规则）评审界面。

优点: - 快速、成本低 - 不需要招募用户 - 可以早期进行（纸质原型阶段） - 可以发现专家级问题

缺点: - 依赖评审者经验 - 可能遗漏实际使用中的问题 - 不能替代用户测试

实施步骤¶

步骤1：准备

准备设计原型（纸质、数字、实物）
准备评审检查表和问题记录表
招募3-5名评审者（可用性专家 + 领域专家）
提供使用场景描述

步骤2：评审流程

简介（15分钟）- 介绍产品和使用场景
独立评审（1-2小时）- 评审者独立检查界面，对照启发式规则识别问题
汇总讨论（1小时）- 评审者分享发现，讨论问题和解决方案

步骤3：问题记录模板

问题ID: HE-001
发现者: 评审者A
位置: 主界面 > 剂量设置
违反原则: 错误预防
问题描述: 剂量输入框无范围限制，用户可能输入超出安全范围的值
严重性: 高（可能导致严重伤害）
建议解决方案: 添加输入范围验证、超出范围时显示错误提示

启发式规则¶

Nielsen的10条可用性启发式:

系统状态可见性
系统与现实世界匹配
用户控制和自由
一致性和标准
错误预防
识别而非回忆
灵活性和效率
美学和简约设计
帮助用户识别、诊断和恢复错误
帮助和文档

医疗器械特定启发式:

安全关键操作保护
报警系统有效性
紧急情况可用性
多用户考虑
环境适应性

2. 认知走查（Cognitive Walkthrough）¶

方法概述¶

模拟用户执行任务的认知过程，逐步分析每个操作。适用于新用户首次使用、复杂任务流程分析。

认知走查四问¶

对每个操作步骤，回答：

用户会尝试达到正确的效果吗？ - 用户是否理解当前需要做什么？
用户会注意到正确的操作是可用的吗？ - 正确的控制是否可见？
用户会知道正确的操作能达到期望的效果吗？ - 控制的功能是否明确？
用户执行操作后，会得到适当的反馈吗？ - 系统是否提供清晰反馈？

3. 用户测试（User Testing）¶

方法概述¶

招募真实目标用户测试原型，观察和记录使用过程。

优点: 发现真实使用问题、获得用户反馈、验证设计假设缺点: 需要招募用户、耗时较长、成本较高

测试流程（约90分钟）¶

欢迎和介绍（10分钟）- 介绍测试目的、签署知情同意书
背景问卷（5分钟）- 收集参与者背景信息
培训（10分钟）- 根据使用说明书进行培训
任务执行（45分钟）- 参与者执行预定任务，鼓励"出声思考"
访谈（15分钟）- 询问使用体验，探讨遇到的问题
问卷（5分钟）- 满意度问卷（如SUS）

数据收集¶

定量数据: - 任务成功/失败 - 任务完成时间 - 错误次数 - 帮助请求次数

定性数据: - 使用错误描述 - 困惑点 - 用户评论 - 非语言行为（皱眉、犹豫）

出声思考法（Think Aloud）¶

要求参与者在操作过程中说出自己的想法，了解用户思维过程和认知问题。

指导语示例: "请在使用过程中说出您的想法，比如您在寻找什么、为什么这样操作、对界面的理解、遇到的困惑。"

4. 专家访谈¶

邀请临床专家评审设计，验证临床适用性、工作流程整合、识别潜在问题和风险。

形成性评估时机¶

多阶段评估¶

阶段1：概念设计（纸质原型） - 时机：设计初期 - 方法：启发式评估、认知走查 - 目标：验证基本概念和流程

阶段2：低保真原型 - 时机：交互设计阶段 - 方法：用户测试（5-8人） - 目标：测试交互逻辑和信息架构

阶段3：高保真原型 - 时机：视觉设计阶段 - 方法：用户测试（5-8人） - 目标：测试视觉设计和细节

阶段4：工程样机 - 时机：开发阶段 - 方法：用户测试（8-10人） - 目标：测试完整功能和性能

阶段5：预生产样机 - 时机：总结性评估前 - 方法：用户测试（10-15人） - 目标：最后验证，为总结性评估做准备

数据分析¶

问题分类¶

按严重性分类:

1级 - 灾难性: 可能导致严重伤害或死亡，必须修复
2级 - 严重: 可能导致中等伤害或治疗失败，必须修复
3级 - 中等: 导致使用不便或效率降低，应该修复
4级 - 轻微: 仅影响用户体验，考虑修复

问题优先级矩阵¶

严重性 × 发生频率 = 优先级

发生频率 \ 严重性	灾难性	严重	中等	轻微
高（>50%）	P1	P1	P2	P3
中（20-50%）	P1	P2	P2	P3
低（<20%）	P2	P2	P3	P4

P1 - 立即修复: 下一版本必须解决
P2 - 高优先级: 尽快修复
P3 - 中优先级: 计划修复
P4 - 低优先级: 资源允许时修复

报告和跟踪¶

形成性评估报告结构¶

执行摘要 - 测试目标、主要发现、关键建议
方法 - 测试方法、参与者信息、测试任务、测试环境
结果 - 定量数据、定性发现、用户反馈
问题列表 - 问题描述、严重性和优先级、建议解决方案
建议 - 设计改进建议、下一步行动
附录 - 测试材料、原始数据、录像截图

问题跟踪表¶

ID	问题	严重性	优先级	状态	负责人	解决方案	验证
FE-001	小数点输入困难	高	P1	已修复	张工	添加示例提示	下轮测试
FE-002	模式选择困惑	中	P2	进行中	李工	添加说明文字	待定

最佳实践¶

早期和频繁测试 - 在纸质原型阶段就开始测试，每个设计迭代都进行测试
招募合适的参与者 - 确保参与者代表目标用户，覆盖不同用户群体
测试真实任务 - 使用真实的使用场景，任务描述清晰具体
观察而非询问 - 观察实际行为比询问更可靠，注意非语言行为
迭代改进 - 基于测试结果改进设计，验证改进效果
跨职能协作 - 设计师、工程师、临床专家共同参与
文档化 - 详细记录测试过程和结果，建立问题跟踪系统

实际案例¶

案例：输液泵界面改进¶

第1轮形成性评估（纸质原型）

方法：启发式评估
发现：剂量输入流程复杂，需要7个步骤
改进：简化为3个步骤

第2轮形成性评估（低保真原型）

方法：用户测试（6名护士）
发现：5/6参与者在小数点输入时遇到困难
改进：添加输入示例，优化数字键盘

第3轮形成性评估（高保真原型）

方法：用户测试（8名护士）
发现：确认对话框不够醒目，2/8参与者未仔细查看
改进：增大字体，使用颜色编码，添加二次确认

第4轮形成性评估（工程样机）

方法：用户测试（10名护士）
发现：所有参与者成功完成任务，平均时间45秒
结论：准备进入总结性评估

下一步: 学习总结性评估，了解如何进行最终的可用性验证测试。

报告问题链接失效建议改进

💬 讨论区

欢迎在这里分享您的想法、提出问题或参与讨论。需要 GitHub 账号登录。