深度解读QC七大工具 · 直方图
写在前面
只看平均值,你可能会被数据骗了两次。
两个班组的平均不良率都是3%,但一个班稳定在2.5%-3.5%之间,另一个班从0.5%到8%剧烈波动——你能接受哪一个?
平均值掩盖了数据的分布。而直方图,就是揭示数据分布的照妖镜。
第一章:直方图的本质
1.1 什么是直方图
直方图(Histogram) 是一种将数据的分布情况用柱状图展示出来的统计工具。它将数据的取值范围划分为若干个等宽的区间(组距),然后统计每个区间内数据出现的频次,用柱子的高度表示。
核心逻辑:
连续的数据 → 按区间分组 → 统计每组频次 → 画成柱子
通过柱子的分布形态判断:
数据的中心在哪里?数据有多分散?数据呈什么分布形态?
1.2 为什么不用平均值就够了
假设两组数据,平均值都是50:
数据A:49, 50, 51, 49, 50, 51, 49, 50, 51
→ 平均值=50,波动很小
数据B:10, 30, 50, 70, 90, 40, 60, 20, 80
→ 平均值=50,但波动极大
两组数据的平均值完全一样,但质量水平天差地别!
平均值只是数据的一个特征。直方图能告诉你更多:
- 数据的中心在哪里?(平均值/中位数)
- 数据的离散程度有多大?(范围/标准差)
- 数据的分布形态是什么?(正态?偏态?双峰?)
- 数据是否超出规格限?(是否合格?)
1.3 直方图的三大作用
| 作用 | 说明 | 适用场景 |
|---|---|---|
| 了解过程状态 | 判断过程是否稳定、是否正常 | 过程能力分析、初始过程确认 |
| 发现异常模式 | 双峰、偏态、孤岛等异常形态 | 过程异常诊断 |
| 评估过程能力 | 对比规格限,计算CP/CPK | SPC、过程能力研究 |
1.4 直方图 vs 柱状图
很多人把直方图和柱状图搞混,但它们是不同的:
| 维度 | 直方图 | 柱状图 |
|---|---|---|
| 数据类型 | 连续数据(长度、重量、温度) | 分类数据(不良类型、班组) |
| 横轴 | 数值区间(连续) | 类别名称(离散) |
| 柱子排列 | 按数值顺序,不能调换 | 可任意排列顺序 |
| 柱子间距 | 无间距(连续分布) | 有间距(分类) |
| 展示内容 | 分布形态 | 比较大小 |
第二章:直方图的绘制与解读
2.1 绘制7步法
Step 1:收集数据
最少收集50个数据点,建议100个以上
Step 2:确定数据范围
最大值 - 最小值 = 全距(R)
Step 3:确定组数
经验公式:组数 k = √n 或 k = 1 + 3.3lg(n)
常用参考:50个数据→7组,100个→10组,200个→12组
Step 4:确定组距
组距 = 全距 / 组数(取整,方便计算)
Step 5:确定组界
每组的上限和下限,不重叠
Step 6:统计频次
统计每个区间内的数据个数
Step 7:画直方图
X轴 = 数值区间,Y轴 = 频次
画出柱子,标注规格限(如有)
2.2 直方图的几种典型形态
① 正态型(钟形)
频次 ^
7 | █
6 | █
5 | █ █ █
4 | █ █ █
3 | █ █ █ █ █
2 | █ █ █ █ █ █ █
1 | █ █ █ █ █ █ █
+—————————————————————→ 数值区间
过程正常,最常见
② 偏态型(左偏/右偏)
右偏(偏小)
频次 ^
6 | █
5 | █ █
4 | █ █ █
3 | █ █ █ █
2 | █ █ █ █ █
1 | █ █ █ █ █ █ █
+—————————————————————→ 数值区间
左偏(偏大)
频次 ^
6 | █
5 | █ █
4 | █ █ █
3 | █ █ █ █
2 | █ █ █ █ █
1 | █ █ █ █ █ █ █
+—————————————————————→ 数值区间
③ 双峰型
频次 ^
6 | █ █
5 | █ █
4 | █ █
3 | █ █ █ █
2 | █ █ █ █ █ █ █
1 | █ █ █ █ █ █ █
+—————————————————————→ 数值区间
两种不同的分布混合在一起
原因:不同设备/不同班次/不同材料
④ 平顶型
频次 ^
5 | █ █ █ █ █ █ █
4 | █ █ █ █ █ █ █
3 | █ █ █ █ █ █ █
2 | █ █ █ █ █ █ █
1 | █ █ █ █ █ █ █
+—————————————————————→ 数值区间
多个平均值不同的数据混合
⑤ 孤岛型
频次 ^
7 | █
6 | █ █ █
5 | █ █ █
4 | █ █ █ █ █ █
3 | █ █ █ █ █ █
2 | █ █ █ █ █ █ █ █
1 | █ █ █ █ █ █ █ █ █
+———————————————————————————→ 数值区间
少数数据偏离主体
原因:短暂异常、测量错误
⑥ 锯齿型
频次 ^
6 | █
5 | █ █ █
4 | █ █ █ █ █
3 | █ █ █ █ █ █ █
2 | █ █ █ █ █ █ █ █ █
1 | █ █ █ █ █ █ █ █ █
+———————————————————————————→ 数值区间
组距设置不当或数据四舍五入问题
第三章:直方图的实战案例
案例1:制造业——轴的直径分布
背景:某机加工车间车削轴的直径,规格要求 φ50±0.1mm
收集了100个数据
直方图分析:
→ 正态分布,中心在50.02mm(略偏上限)
→ 全部在规格限内(49.90-50.10mm)
→ 分布宽度约为规格宽度的60%
结论:
✓ 过程能力充足(CPK≈1.2)
✓ 但中心偏向上限,需留意刀具磨损趋势
建议:
将目标值设为50.00mm,给刀具磨损留出空间
案例2:双峰型——不同设备的混合数据
背景:某注塑车间收集了产品重量数据
直方图呈现明显的双峰分布
分析:
按设备分层后发现:
→ 设备A:平均重量102g
→ 设备B:平均重量98g
→ 两个设备的平均值差异显著
根因:
两台设备的温度设定不同
行动:
统一两台设备的工艺参数
调整后直方图恢复正态分布
案例3:偏态型——服务业等待时间
背景:某银行窗口客户等待时间数据
直方图呈现明显的右偏分布(长尾在右侧)
分析:
→ 大部分客户等待3-8分钟
→ 但有少量客户等待超过20分钟
→ 这是服务行业典型的"长尾分布"
行动:
── 设置15分钟超预警
── 高峰期增加窗口
── 针对超长等待客户进行专项分析
案例4:孤岛型——发现测量错误
背景:某电子厂测量电阻值
直方图主体在100-105Ω之间正态分布
但在95Ω处有一个孤岛(3个数据点)
调查发现:
→ 这3个数据来自一个新来的检验员
→ 使用的是未校准的量具
行动:
── 重新校准量具
── 重新培训检验员
── 召回该批次的测量数据重新测量
第四章:直方图的常见误区
误区1:样本量不足
× 错误做法:
只收集了20个数据就画直方图
→ 柱子高低不平,看不出真实分布
✓ 正确做法:
最少50个,建议100个以上
样本越多,分布形态越清晰
误区2:组数设置不当
× 组数太少:
只分3-4组,信息大量丢失
看不出分布细节
× 组数太多:
分20多组,柱子太多,分布杂乱
看不出整体趋势
✓ 正确做法:
根据公式 k = √n 或经验法确定
50个数据→7组,100个→10组
误区3:不对比规格限
× 错误做法:
只画直方图,不画规格上下限
→ 看了分布也不知道是否合格
✓ 正确做法:
在直方图上标注规格上下限(USL/LSL)
直观判断过程能力是否充足
误区4:看到异常形态不追查
× 错误做法:
看到双峰/偏态/孤岛,就那样了
→ 浪费了发现问题的机会
✓ 正确做法:
异常形态是线索!
双峰 → 不同来源数据混合 → 分层分析
孤岛 → 特殊原因 → 调查根源
偏态 → 过程不稳定 → 参数调整
误区5:只看形状,不看数据量
× 错误做法:
30个数据,画出一个漂亮的"正态分布"
→ 以为过程很好
✓ 正确做法:
小样本可能偶然呈现任何形态
样本量越大,结论越可靠
先用控制图判断过程是否受控
第五章:直方图与其他工具的组合
5.1 直方图 + 控制图
最佳搭档:
控制图 → 判断过程是否受控(时间维度)
直方图 → 判断分布的形态和位置(静态维度)
组合使用:
① 先用控制图判断过程是否受控
② 过程受控后,用直方图分析分布形态
③ 对比规格限,评估过程能力
④ 用控制图持续监控
5.2 直方图 + 层别法
组合使用:
第一步:画出整体直方图,发现异常形态(如双峰)
第二步:用层别法按设备/班次/材料分层
第三步:对每一层分别画直方图
第四步:找出差异源,针对性改善
→ 直方图发现"有问题",层别法找出"在哪里"
5.3 直方图 + 正态性检验
判断数据是否服从正态分布,有两种方式:
定性:看直方图是否呈钟形
定量:做正态性检验(如:Anderson-Darling检验)
为什么重要:
→ 如果数据不服从正态分布
→ 计算CPK、CP的公式可能不适用
→ 需要先转换数据或使用非参数方法
5.4 直方图 + 规格限 → 过程能力指数
过程能力指数(CP/CPK)的计算前提:
① 过程受控(控制图确认)
② 数据服从正态分布(直方图确认)
CP = (USL - LSL) / 6σ
CPK = min(CPL, CPU)
其中 CPL = (μ - LSL) / 3σ
CPU = (USL - μ) / 3σ
判断标准:
CPK ≥ 1.33 → 过程能力充足
1.0 ≤ CPK < 1.33 → 过程能力尚可,需关注
CPK < 1.0 → 过程能力不足,需改善
第六章:直方图的进阶用法
6.1 直方图 + 规格限(过程能力可视化)
最佳实践直方图包含:
── 柱子:数据分布
── 两条竖线:USL(规格上限)和LSL(规格下限)
── 一条竖线:目标值(Target)
── 标注:均值、标准差、CPK值
→ 一张图就能判断过程是否满足要求
6.2 改善前后的对比直方图
改善前直方图:
── 分布中心偏离目标
── 分布宽度大
── 有超出规格限的数据
改善后直方图:
── 分布中心对准目标
── 分布宽度缩小
── 所有数据在规格限内
→ 两张图并列对比,直观展示改善效果
6.3 分组直方图
在同一张图上用不同颜色显示不同组别的直方图
(使用半透明填充,重叠部分可以看到)
价值:
── 直观比较不同组别的分布差异
── 快速找出哪个组别需要改善
── 避免双峰型分布的误判
第七章:直方图的评价标准
| 评价维度 | 好的标准 | 不好的表现 |
|---|---|---|
| 样本充足 | 100个以上数据点 | 50个以下 |
| 组数合理 | 根据公式确定组数 | 组数过多或过少 |
| 刻度清晰 | 坐标轴标注明确 | 刻度混乱,无单位 |
| 规格标注 | 标注USL/LSL/目标值 | 无规格限 |
| 分析正确 | 结合形态、位置、离散度 | 只看形状不看位置 |
| 有行动输出 | 异常形态有追查结果 | 画完就结束了 |
总结:直方图的"道"与"术"
术(怎么画):
── 收集100个以上数据
── 确定组数和组距
── 画柱子,标注规格限
── 观察分布形态
道(为什么画):
── 不是为了画一张"好看的分布图"
── 是为了"看清平均值背后藏着的真相"
── 是为了"在数据中发现问题、在分布中寻找改善方向"
直方图最大的价值不是"描述数据",而是"揭穿平均值的谎言"。
一个只关注平均值的管理者,他的团队可能在极度不稳定的过程中生产——而他还以为一切正常。
直方图,就是那个让他看清真相的工具。
文档版本:v1.0 生成日期:2026-05-03 作者:卓越质量智库
第6期: 直方图(Histogram)
