一、测量理论基础
经典测验理论(CTT)
例:用体温计测体温(高效度) vs 用问卷测"幸福指数"(需严格验证)
例:体重秤多次测量结果波动小 → 高信度
例:测量某人数学能力时,考试得分(观察分数)= 真实能力(真分数)+ 随机误差(如考试当天状态)
核心公式 :观察分数 = 真分数 + 误差
信度 :测量结果的一致性
效度 :测量工具是否测到目标构念
项目反应理论(IRT)
例:高考数学题的难度(b参数)和区分度(a参数)
核心思想 :被试能力与题项特性之间的关系
优势 :允许不同被试做不同题项(如自适应考试)
概化理论(GT)
例:评价教师教学质量时,误差可能来自学生差异、时间因素、评价工具等
核心概念 :将测量误差分解到不同来源
二、量表开发全流程
1. 理论建构阶段
操作步骤 :
定义构念:如"消费者冲动购买倾向"
维度划分:参考文献(如Rook的冲动购买四维度模型)
生成题项:通过专家访谈、开放式问卷收集表述
案例 :开发"直播购物成瘾量表"
维度可能包括:冲动性、愉悦感、逃避现实、社交需求
2. 项目筛选阶段
Delphi法 :
专家多轮匿名评分,保留共识度高的题项
例:某健康行为量表经过3轮专家咨询,题项从50题精简到20题
认知访谈 :
发现题项歧义,如"网购时容易冲动"在不同年龄群体中的理解差异
3. 预测试阶段
项目分析 :
例:某题项与总分相关系数仅0.15 → 需删除
例:某题项高分组均分4.5,低分组均分2.0 → 具有鉴别力
临界比值法 :比较高分组和低分组在题项上的差异
题总相关 :题项得分与总分的相关性
三、信度与效度检验
1. 信度检验
类型与标准 :
将题项分为两半,计算相关系数后校正
例:某性格测试间隔1个月重测,相关系数0.70(中等信度)
例:某焦虑量表α=0.85(可接受)
注意:α>0.9可能因题项冗余
内部一致性(α系数) :
重测信度 :
分半信度 :
2. 效度检验
内容效度 :
专家判断题项是否覆盖构念所有方面
例:某"学习投入量表"需包含行为、情感、认知三个维度
结构效度 :
通过因子分析验证题项是否聚合成预设维度
例:验证某工作压力量表是否包含"工作负荷"和"人际冲突"两个因子
效标效度 :
与已有成熟量表的相关性
例:新开发的"员工满意度量表"与明尼苏达满意度问卷相关系数0.65
四、高级分析技术
1. 多组验证性因子分析
测量等价性 :
检验不同群体(如中美用户)对同一量表的理解是否一致
例:某广告效果量表在中国和美国样本中的因子结构是否相同
2. 项目反应理论(IRT)
参数解释 :
例:选择题c参数通常>0,简答题c≈0
例:英语四级阅读题b参数为0,表示中等难度
例:高考压轴题a参数高,能有效区分尖子生
区分度(a参数) :题项区分不同水平被试的能力
难度(b参数) :题项被答对的概率阈值
猜测参数(c参数) :低能力者答对概率
3. 认知诊断模型(CDM)
应用场景 :
诊断被试在多个属性上的掌握情况
例:数学能力诊断中,识别学生是否掌握"方程解法"和"几何证明"
五、商业应用场景
1. 用户体验优化
案例 :某电商平台开发"购物决策风格量表"
通过IRT分析发现"价格敏感度"题项区分度最高
调整推荐算法,使转化率提升15%
2. 人才测评
案例 :某咨询公司开发"领导力潜质量表"
使用CFA验证"战略思维""人际影响"等维度
结合CDM模型诊断管理者的能力缺口
3. 风险预测
案例 :某金融平台开发"投资风险偏好量表"
通过多组CFA验证量表在不同文化群体中的适用性
建立风险预警模型,降低坏账率
六、常见误区警示
信度误区 :
误认为α系数越高越好 → 忽略题项冗余问题
正确做法:结合题项内容和相关矩阵综合判断
效度误区 :
仅关注表面效度 → 忽略结构效度验证
正确做法:必须进行因子分析和效标关联效度检验
跨文化测量误区 :
直接翻译国外量表 → 未进行文化调适
正确做法:通过认知访谈和测量等价性检验