深度解读QC七大工具 · 直方图

作者:卓越质量智库 发布时间:2026/5/3 阅读 4
目前评级: ★★★☆☆ 我要评级 等效 8 人评分

写在前面

只看平均值,你可能会被数据骗了两次。

两个班组的平均不良率都是3%,但一个班稳定在2.5%-3.5%之间,另一个班从0.5%到8%剧烈波动——你能接受哪一个?

平均值掩盖了数据的分布。而直方图,就是揭示数据分布的照妖镜。


第一章:直方图的本质

1.1 什么是直方图

直方图(Histogram) 是一种将数据的分布情况用柱状图展示出来的统计工具。它将数据的取值范围划分为若干个等宽的区间(组距),然后统计每个区间内数据出现的频次,用柱子的高度表示。

核心逻辑:
  连续的数据 → 按区间分组 → 统计每组频次 → 画成柱子

  通过柱子的分布形态判断:
  数据的中心在哪里?数据有多分散?数据呈什么分布形态?

1.2 为什么不用平均值就够了

假设两组数据,平均值都是50:

  数据A:49, 50, 51, 49, 50, 51, 49, 50, 51
    → 平均值=50,波动很小

  数据B:10, 30, 50, 70, 90, 40, 60, 20, 80
    → 平均值=50,但波动极大

两组数据的平均值完全一样,但质量水平天差地别!

平均值只是数据的一个特征。直方图能告诉你更多:

  • 数据的中心在哪里?(平均值/中位数)
  • 数据的离散程度有多大?(范围/标准差)
  • 数据的分布形态是什么?(正态?偏态?双峰?)
  • 数据是否超出规格限?(是否合格?)

1.3 直方图的三大作用

作用 说明 适用场景
了解过程状态 判断过程是否稳定、是否正常 过程能力分析、初始过程确认
发现异常模式 双峰、偏态、孤岛等异常形态 过程异常诊断
评估过程能力 对比规格限,计算CP/CPK SPC、过程能力研究

1.4 直方图 vs 柱状图

很多人把直方图和柱状图搞混,但它们是不同的:

维度 直方图 柱状图
数据类型 连续数据(长度、重量、温度) 分类数据(不良类型、班组)
横轴 数值区间(连续) 类别名称(离散)
柱子排列 按数值顺序,不能调换 可任意排列顺序
柱子间距 无间距(连续分布) 有间距(分类)
展示内容 分布形态 比较大小

第二章:直方图的绘制与解读

2.1 绘制7步法

Step 1:收集数据
  最少收集50个数据点,建议100个以上

Step 2:确定数据范围
  最大值 - 最小值 = 全距(R)

Step 3:确定组数
  经验公式:组数 k = √n 或 k = 1 + 3.3lg(n)
  常用参考:50个数据→7组,100个→10组,200个→12组

Step 4:确定组距
  组距 = 全距 / 组数(取整,方便计算)

Step 5:确定组界
  每组的上限和下限,不重叠

Step 6:统计频次
  统计每个区间内的数据个数

Step 7:画直方图
  X轴 = 数值区间,Y轴 = 频次
  画出柱子,标注规格限(如有)

2.2 直方图的几种典型形态

① 正态型(钟形)
频次 ^
 7 |          █          
 6 |          █          
 5 |       █  █  █       
 4 |       █  █  █       
 3 |    █  █  █  █  █    
 2 | █  █  █  █  █  █  █ 
 1 | █  █  █  █  █  █  █ 
   +—————————————————————→ 数值区间
  过程正常,最常见

② 偏态型(左偏/右偏)

  右偏(偏小)
频次 ^
 6 | █                   
 5 | █  █                
 4 | █  █  █             
 3 | █  █  █  █          
 2 | █  █  █  █  █       
 1 | █  █  █  █  █  █  █ 
   +—————————————————————→ 数值区间

  左偏(偏大)
频次 ^
 6 |                   █ 
 5 |                █  █ 
 4 |             █  █  █ 
 3 |          █  █  █  █ 
 2 |       █  █  █  █  █ 
 1 | █  █  █  █  █  █  █ 
   +—————————————————————→ 数值区间

③ 双峰型
频次 ^
 6 |    █           █    
 5 |    █           █    
 4 |    █           █    
 3 |    █  █     █  █    
 2 | █  █  █  █  █  █  █ 
 1 | █  █  █  █  █  █  █ 
   +—————————————————————→ 数值区间
  两种不同的分布混合在一起
  原因:不同设备/不同班次/不同材料

④ 平顶型
频次 ^
 5 | █  █  █  █  █  █  █ 
 4 | █  █  █  █  █  █  █ 
 3 | █  █  █  █  █  █  █ 
 2 | █  █  █  █  █  █  █ 
 1 | █  █  █  █  █  █  █ 
   +—————————————————————→ 数值区间
  多个平均值不同的数据混合

⑤ 孤岛型
频次 ^
 7 |          █                
 6 |       █  █  █             
 5 |       █  █  █             
 4 |    █  █  █  █  █        █ 
 3 |    █  █  █  █  █        █ 
 2 | █  █  █  █  █  █  █     █ 
 1 | █  █  █  █  █  █  █  █  █ 
   +———————————————————————————→ 数值区间
  少数数据偏离主体
  原因:短暂异常、测量错误

⑥ 锯齿型
频次 ^
 6 |             █             
 5 |       █     █     █       
 4 | █     █     █     █     █ 
 3 | █     █  █  █  █  █     █ 
 2 | █  █  █  █  █  █  █  █  █ 
 1 | █  █  █  █  █  █  █  █  █ 
   +———————————————————————————→ 数值区间
  组距设置不当或数据四舍五入问题

第三章:直方图的实战案例

案例1:制造业——轴的直径分布

背景:某机加工车间车削轴的直径,规格要求 φ50±0.1mm
收集了100个数据

直方图分析:
  → 正态分布,中心在50.02mm(略偏上限)
  → 全部在规格限内(49.90-50.10mm)
  → 分布宽度约为规格宽度的60%

结论:
  ✓ 过程能力充足(CPK≈1.2)
  ✓ 但中心偏向上限,需留意刀具磨损趋势

建议:
  将目标值设为50.00mm,给刀具磨损留出空间

案例2:双峰型——不同设备的混合数据

背景:某注塑车间收集了产品重量数据
直方图呈现明显的双峰分布

分析:
  按设备分层后发现:
  → 设备A:平均重量102g
  → 设备B:平均重量98g
  → 两个设备的平均值差异显著

根因:
  两台设备的温度设定不同

行动:
  统一两台设备的工艺参数
  调整后直方图恢复正态分布

案例3:偏态型——服务业等待时间

背景:某银行窗口客户等待时间数据

直方图呈现明显的右偏分布(长尾在右侧)

分析:
  → 大部分客户等待3-8分钟
  → 但有少量客户等待超过20分钟
  → 这是服务行业典型的"长尾分布"

行动:
  ── 设置15分钟超预警
  ── 高峰期增加窗口
  ── 针对超长等待客户进行专项分析

案例4:孤岛型——发现测量错误

背景:某电子厂测量电阻值

直方图主体在100-105Ω之间正态分布
但在95Ω处有一个孤岛(3个数据点)

调查发现:
  → 这3个数据来自一个新来的检验员
  → 使用的是未校准的量具

行动:
  ── 重新校准量具
  ── 重新培训检验员
  ── 召回该批次的测量数据重新测量

第四章:直方图的常见误区

误区1:样本量不足

× 错误做法:
  只收集了20个数据就画直方图
  → 柱子高低不平,看不出真实分布

✓ 正确做法:
  最少50个,建议100个以上
  样本越多,分布形态越清晰

误区2:组数设置不当

× 组数太少:
  只分3-4组,信息大量丢失
  看不出分布细节

× 组数太多:
  分20多组,柱子太多,分布杂乱
  看不出整体趋势

✓ 正确做法:
  根据公式 k = √n 或经验法确定
  50个数据→7组,100个→10组

误区3:不对比规格限

× 错误做法:
  只画直方图,不画规格上下限
  → 看了分布也不知道是否合格

✓ 正确做法:
  在直方图上标注规格上下限(USL/LSL)
  直观判断过程能力是否充足

误区4:看到异常形态不追查

× 错误做法:
  看到双峰/偏态/孤岛,就那样了
  → 浪费了发现问题的机会

✓ 正确做法:
  异常形态是线索!
  双峰 → 不同来源数据混合 → 分层分析
  孤岛 → 特殊原因 → 调查根源
  偏态 → 过程不稳定 → 参数调整

误区5:只看形状,不看数据量

× 错误做法:
  30个数据,画出一个漂亮的"正态分布"
  → 以为过程很好

✓ 正确做法:
  小样本可能偶然呈现任何形态
  样本量越大,结论越可靠
  先用控制图判断过程是否受控

第五章:直方图与其他工具的组合

5.1 直方图 + 控制图

最佳搭档:

  控制图 → 判断过程是否受控(时间维度)
  直方图 → 判断分布的形态和位置(静态维度)

组合使用:
  ① 先用控制图判断过程是否受控
  ② 过程受控后,用直方图分析分布形态
  ③ 对比规格限,评估过程能力
  ④ 用控制图持续监控

5.2 直方图 + 层别法

组合使用:

  第一步:画出整体直方图,发现异常形态(如双峰)
  第二步:用层别法按设备/班次/材料分层
  第三步:对每一层分别画直方图
  第四步:找出差异源,针对性改善

→ 直方图发现"有问题",层别法找出"在哪里"

5.3 直方图 + 正态性检验

判断数据是否服从正态分布,有两种方式:

  定性:看直方图是否呈钟形
  定量:做正态性检验(如:Anderson-Darling检验)

为什么重要:
  → 如果数据不服从正态分布
  → 计算CPK、CP的公式可能不适用
  → 需要先转换数据或使用非参数方法

5.4 直方图 + 规格限 → 过程能力指数

过程能力指数(CP/CPK)的计算前提:
  ① 过程受控(控制图确认)
  ② 数据服从正态分布(直方图确认)

CP = (USL - LSL) / 6σ
CPK = min(CPL, CPU)
  其中 CPL = (μ - LSL) / 3σ
       CPU = (USL - μ) / 3σ

判断标准:
  CPK ≥ 1.33 → 过程能力充足
  1.0 ≤ CPK < 1.33 → 过程能力尚可,需关注
  CPK < 1.0 → 过程能力不足,需改善

第六章:直方图的进阶用法

6.1 直方图 + 规格限(过程能力可视化)

最佳实践直方图包含:
  ── 柱子:数据分布
  ── 两条竖线:USL(规格上限)和LSL(规格下限)
  ── 一条竖线:目标值(Target)
  ── 标注:均值、标准差、CPK值

→ 一张图就能判断过程是否满足要求

6.2 改善前后的对比直方图

改善前直方图:
  ── 分布中心偏离目标
  ── 分布宽度大
  ── 有超出规格限的数据

改善后直方图:
  ── 分布中心对准目标
  ── 分布宽度缩小
  ── 所有数据在规格限内

→ 两张图并列对比,直观展示改善效果

6.3 分组直方图

在同一张图上用不同颜色显示不同组别的直方图
(使用半透明填充,重叠部分可以看到)

价值:
  ── 直观比较不同组别的分布差异
  ── 快速找出哪个组别需要改善
  ── 避免双峰型分布的误判

第七章:直方图的评价标准

评价维度 好的标准 不好的表现
样本充足 100个以上数据点 50个以下
组数合理 根据公式确定组数 组数过多或过少
刻度清晰 坐标轴标注明确 刻度混乱,无单位
规格标注 标注USL/LSL/目标值 无规格限
分析正确 结合形态、位置、离散度 只看形状不看位置
有行动输出 异常形态有追查结果 画完就结束了

总结:直方图的"道"与"术"

术(怎么画):
  ── 收集100个以上数据
  ── 确定组数和组距
  ── 画柱子,标注规格限
  ── 观察分布形态

道(为什么画):
  ── 不是为了画一张"好看的分布图"
  ── 是为了"看清平均值背后藏着的真相"
  ── 是为了"在数据中发现问题、在分布中寻找改善方向"

直方图最大的价值不是"描述数据",而是"揭穿平均值的谎言"。

一个只关注平均值的管理者,他的团队可能在极度不稳定的过程中生产——而他还以为一切正常。

直方图,就是那个让他看清真相的工具。

文档版本:v1.0 生成日期:2026-05-03 作者:卓越质量智库

第6期: 直方图(Histogram)