深度解读QC七大工具 · 散点图
写在前面
"我觉得有关系"和"数据证明有关系"是两回事。
散点图——QC七大工具中用来"验证关系"的工具。
前几期我们学了:
- 鱼骨图:假设原因(定性)
- 柏拉图:聚焦重点(排序)
- 层别法:发现差异(分类)
而散点图解决的是:两个变量之间到底有没有关系?有多大的关系?是什么方向的关系?
第一章:散点图的本质
1.1 什么是散点图
散点图(Scatter Diagram) 是一种将两个变量的数据以点的形式绘制在直角坐标系中,用来观察和分析两个变量之间是否存在相关关系以及关系的形态的图表。
核心逻辑:
X轴 = 一个变量(如:温度)
Y轴 = 另一个变量(如:不良率)
每个点 = 一个数据对(温度,不良率)
通过点的分布形态判断:两个变量是否有关系?
1.2 相关关系的六种形态
① 正相关
↑ Y •••
| •••••
| •••••
| •••
+————→ X
X增大,Y也增大
② 负相关
↑ Y •••
| •••••
| •••••
| •••
+————→ X
X增大,Y减小
③ 强正相关
↑ Y ••••
| ••••••
| ••••••
| ••••
+————→ X
点紧密分布在直线附近
④ 弱正相关
↑ Y • •••
| ••• • ••
| •• •• ••
| • •••
+————→ X
点松散分布,趋势不明显
⑤ 不相关
↑ Y • • • • • •
| • • • • • •
| • • • • • •
| • • • • • •
+————→ X
点随机分布,无规律
⑥ 非线性相关(曲线相关)
↑ Y •••
| •• ••
| •• ••
| • ••
+————→ X
点呈现曲线的分布形态
1.3 散点图的三大作用
| 作用 | 说明 | 适用场景 |
|---|---|---|
| 验证假设 | 用数据检验两个变量之间是否存在相关关系 | 鱼骨图假设的数据验证 |
| 判断关系方向 | 确定正相关还是负相关 | 工艺参数优化 |
| 识别异常点 | 发现偏离整体趋势的特殊数据点 | 过程异常检测、数据异常排查 |
1.4 散点图 vs 相关分析
散点图(定性) 相关系数(定量)
───────────────────────────────
通过眼睛看点的分布形态 通过数学计算得出r值
可以判断:有无关系、方向、形态 只能判断:线性相关的强弱
可以识别非线性相关 无法识别非线性相关
可以识别异常点 异常点会影响r值的准确性
两者最佳实践:先画散点图,再算相关系数!
第二章:散点图的绘制与分析
2.1 标准绘制步骤
Step 1:确定分析对象
确定两个要分析的变量
X变量(自变量/原因变量)
Y变量(因变量/结果变量)
Step 2:收集数据对
至少收集30-50组数据对
数据必须是成对的(同一条件下X和Y的值)
Step 3:设定坐标轴
X轴:横轴(原因变量)
Y轴:纵轴(结果变量)
刻度范围要覆盖所有数据点
Step 4:描点
每个数据对对应一个点
Step 5:分析判断
观察点的分布形态
判断是否存在相关关系
2.2 数据收集要求
数据收集要点:
① 配对原则
每个数据点必须对应同一个样本/条件
✓ 正确:同一批产品的温度+不良率
✗ 错误:今天温度+昨天不良率
② 样本量
最少30组,建议50组以上
样本太少,偶然性太大,结论不可靠
③ 数据范围
覆盖变量的全部可能范围
如果只测了中间一段,可能错过极端值的关系
④ 数据准确性
测量系统必须可靠(先做MSA)
错误的数据必然导致错误的结论
2.3 相关系数(r值)快速参考
相关系数 r (Pearson相关系数):
r = 1.0 完全正相关
r = 0.8~1.0 强正相关
r = 0.5~0.8 中等正相关
r = 0.3~0.5 弱正相关
r = -0.3~0.3 不相关(或无线性相关)
r = -0.5~-0.3 弱负相关
r = -0.8~-0.5 中等负相关
r = -1.0~-0.8 强负相关
r = -1.0 完全负相关
⚠ 注意事项:
1. r值只能衡量线性相关,不能衡量非线性相关
2. r值受异常点影响很大
3. 相关≠因果(两个变量有关,不代表一个导致另一个)
第三章:散点图的实战案例
案例1:制造业——温度与不良率的关系
背景:某注塑车间怀疑模温对产品缩水不良有影响
收集了30组模温与不良率的数据
数据分析:
模温越高 → 不良率越低
散点图呈现:明显的负相关分布
相关系数 r = -0.82(强负相关)
结论:
模温与不良率存在强负相关关系
适当提高模温可以降低不良率
行动:
将模温设定从180℃调整为200℃
不良率从4.5%降至2.1%
案例2:服务业——等待时间与满意度
背景:某银行网点怀疑等待时间影响客户满意度
数据分析:
等待时间越长 → 满意度越低
散点图:中等负相关(点分布较松散)
相关系数 r = -0.65
结论:
等待时间确实是影响满意度的重要因素
但不是唯一因素(还有其他因素在影响)
行动:
设置等候超时预警(超过15分钟自动提醒)
增加高峰期窗口数量
满意度评分从3.2提升到4.1
案例3:软件行业——代码行数与缺陷数
背景:某开发团队怀疑模块规模(代码行数)与缺陷数相关
数据分析:
代码行数越多 → 缺陷数越多
散点图:中等正相关
相关系数 r = 0.72
发现异常点:
有两个模块代码行数很少但缺陷数很多
→ 进一步调查发现是新手开发写的代码
行动:
── 为大型模块设置代码审查门槛
── 对新手代码进行额外审查
── 模块缺陷率降低35%
案例4:非线性相关——化学反应
背景:某化工产品的反应温度与产率的关系
数据分析:
过低温度 → 产率低
适中温度 → 产率最高
过高温度 → 产率降低
散点图:呈现明显的倒U形曲线
相关系数 r = 0.12(不能反映真实关系!)
⚠ 关键教训:
如果只看r值,会误判为"不相关"
但画了散点图后发现:有明显的曲线相关
→ 这就是"先画图、再算数"的重要性
第四章:散点图的常见误区
误区1:把相关当因果
× 错误推论:
"冰淇淋销量与溺水人数正相关(r=0.95)"
→ 结论:吃冰淇淋会导致溺水
✓ 正确的理解:
两者都是天气变热的结果(共同原因)
相关≠因果
散点图只能证明"有关系",不能证明"谁导致谁"
误区2:只看相关系数不看图
× 错误做法:
直接用软件算r值
r=0.02 → 不相关,结束分析
✓ 正确做法:
先画散点图
可能的发现:
→ 确实是随机分布(不相关)
→ 有曲线关系(非线性相关,r值会接近0)
→ 有一个异常点拉低了r值
误区3:样本量不足
× 错误做法:
只收集了5-10组数据
凭几个点判断两个变量的关系
✓ 正确做法:
最少30组,建议50组以上
样本越多,结论越可靠
误区4:数据范围太窄
× 错误做法:
只在正常生产条件下收集数据
温度范围:180-190℃(正常范围)
✓ 正确做法:
适当扩大数据收集范围
温度范围:170-210℃(包含临界值)
才能全面了解两个变量的真实关系
误区5:忽略异常点
× 错误做法:
看到异常点就直接删除
✓ 正确做法:
标记异常点,调查原因
异常点可能揭示重要的特殊原因
→ 如:设备故障、操作失误、测量错误
第五章:散点图与其他工具的组合
5.1 散点图 + 鱼骨图
最佳实践:
Step 1:鱼骨图头脑风暴
→ 假设N个可能的原因
Step 2:用散点图验证
→ 每个假设的原因变量与结果变量画散点图
→ 验证是否真的相关
Step 3:筛选关键变量
→ 有显著相关的 → 纳入改善范围
→ 无显著相关的 → 排除,节省资源
5.2 散点图 + 层别法
组合使用:
第一步:用层别法将数据按不同维度分层
第二步:对每一层分别画散点图
第三步:比较各层的散点图是否一致
示例:
温度与不良率的关系
按班次分层后发现:
→ 白班:强负相关(r=-0.85)
→ 夜班:弱相关(r=-0.30)
→ 说明:夜班还有其他干扰因素
5.3 散点图 + 控制图
组合使用:
第一步:控制图 → 判断过程是否受控
第二步:散点图 → 分析变量关系
第三步:控制图 → 验证改善效果
注意:
如果过程不受控(有特殊原因),
散点图的数据混杂了特殊原因的影响,
得出的相关性结论可能不可靠。
5.4 散点图 + 回归分析
散点图 → 定性判断(有没有关系)
回归分析 → 定量建模(什么样的关系)
升级路径:
Step 1:画散点图 → 发现存在线性关系
Step 2:计算相关系数 r = 0.85
Step 3:做回归分析 → Y = 0.5X + 10
Step 4:用回归方程 → 预测和控制
第六章:散点图的进阶用法
6.1 分组散点图
在同一张图上用不同颜色/符号区分不同组别
可以同时看到:整体趋势 + 组间差异
示例:不同班次的温度-不良率关系
● 白班:趋势明显,控制好
▲ 夜班:点分散,有其他干扰因素
→ 针对夜班做进一步分析
6.2 时间序列散点图
在散点图上标注时间顺序
可以观察变量关系是否随时间变化
做法:
在点的旁边标注时间序号
或用颜色渐变表示时间顺序
价值:
如果早期的点和后期的点分布不同
→ 说明关系发生了结构性变化
→ 需要重新分析
6.3 多变量矩阵散点图
同时展示多个变量两两之间的关系
一张图矩阵 = N×(N-1)/2 张散点图
优势:
── 快速发现关键变量
── 发现变量间的交互作用
── 为DOE(实验设计)提供输入参考
第七章:散点图的评价标准
| 评价维度 | 好的标准 | 不好的表现 |
|---|---|---|
| 样本充足 | 50组以上数据对 | 30组以下 |
| 范围覆盖 | 覆盖变量的全部范围 | 只覆盖中间段 |
| 数据准确 | 测量系统可靠,数据可追溯 | 数据来源不确定 |
| 图表清晰 | 坐标轴标注明确,点不重叠 | 刻度混乱,点聚集 |
| 分析正确 | 结合散点图和r值综合判断 | 只看r值不看图 |
| 结论合理 | 相关≠因果,结论有验证 | 把相关当因果 |
总结:散点图的"道"与"术"
术(怎么画):
── 收集30-50组配对数据
── X轴=原因变量,Y轴=结果变量
── 描点观察分布形态
── 结合r值综合判断
道(为什么画):
── 不是为了画一张"有趋势的图"
── 是为了"用数据替代直觉"
── 是为了"在动手改善之前,先确认方向对不对"
散点图最大的价值不是"证明有关系",而是"避免在错误的方向上浪费资源"。
在质量管理中,最昂贵的错误不是做错了什么,而是花了很多资源去改善一个根本不相关的原因。
散点图,就是帮你避免这种错误的工具。
下期预告
第5期: 散点图(Scatter Diagram / 散布图)
我们讲数据的分布——不只看平均值,还要看离散度、分布形态、过程能力。
