数据会说谎？带你识别9种常见的数据陷阱

在产品的工作中经常需要用到数据和对数据进行分析，但在这个过程中其实隐藏着很多陷阱。数据来源、解读人的观点，都有可能造成很大的偏差。这篇文章，作者统计了9个常见且容易操作的数据陷阱，希望能对大家的数据分析工作有所帮助。

数据会说谎？带你识别9种常见的数据陷阱

数据，正逐渐成为一种重要的生产资料。我们在进行产品开发，运营活动效果复盘，都需要数据辅助决策，而看起来人畜无害的客观数据，却在各种各样的场合，以各种意想不到的情况欺骗大家的眼睛。

下面就让我们一起看下在什么样的场景下，会出现这种情况，我们又如何避免呢?

一、九种数据陷阱

01 数据可视化陷阱

先看下面两组数据：

（1）

数据会说谎？带你识别9种常见的数据陷阱

（2）

数据会说谎？带你识别9种常见的数据陷阱

从直观上来说，第二组数据的图形显示比起第一个图的震撼要更大些，或者说，问题似乎‘更严重些’，因为两个柱子的差距比第一个图的差距要小。

而实际上，他们都在描述同一个事实：2023年上半年总营收同比2022年上半年减少200万；

那么，问题出在哪里？

真相只有一个，就是纵坐标的刻度线，第一张图纵坐标的起点是0，而第二张是3200w。

这里图一通过调整坐标轴的刻度，改变数据的视觉效果，从而误导观众对数据的理解。

02 相关性与因果

下图是夏天西瓜的销量与溺亡人数之间的相关关系图，通过计算得知，两者之间的相关系数达到了0.96（等于1为完全相关）。

有人得出结论：夏天游泳溺亡跟西瓜销量有直接关系，应该禁止西瓜销售。

数据会说谎？带你识别9种常见的数据陷阱

有常识的人一眼就可以看出这是个笑话：夏天天气热，游泳人数多，所以溺亡人数变多，同时，夏天也会带来西瓜销量的提升。

这里为什么会闹出这种令人啼笑皆非的笑话，主要是混淆了相关性和因果性。

相关性与因果关系的混淆：当两个变量之间存在相关性时，不能简单地得出其中一个变量是另一个变量的原因的结论。

同时相关性并不意味着因果关系，因为可能存在其他未知的变量或潜在的混淆因素。在分析数据时，我们需要进行更深入的研究和控制变量，以确定是否存在真正的因果关系。

03 放大有利数据

只看下图，可以得出：我们的销售额稳中有升，形式似乎一片大好：

数据会说谎？带你识别9种常见的数据陷阱

但是如果我们将今年所有月份的数据取出，结果与我们之前的结论完全相反：销售额随着月份的变化一直在走低，业务部门得想想办法了。

数据会说谎？带你识别9种常见的数据陷阱

这里是因为一开始的图只放了4-6月销售额有上升的时间段，放大了有利数据，用短期波动代替长期效应。给我们造成了错觉。

放大有利数据：在报告数据时，有可能选择性地呈现某些结果，而忽略其他结果。这种情况下，数据的误导性来自于信息的不完整性或不平衡性。为了避免选择性报告的问题，我们应该全面、客观地呈现数据，或者使用可信的数据来源。

其实在汽车行业就有这种惯例。汽车行业在公布数据时，如果增长的好，一般就说增长率；如果增长的不好，就会提排名；排名还不好的话，就开始说细分市场排名。而且还会把市场细分到几乎只有这款车的范围，这样就可以说自己在细分市场排名前几。

04 样本偏差

大家应该都听过一个段子：过年返乡的列车上，记者向着车厢问到：买到票的朋友请把手举起来！刹那间，车厢里的乘客都将手举了起来，记者激动的播报着：从这里可以看出，群众们乘车难的问题已得到解决，每个人都有火车票！

这里其实是犯了样本偏差的错误，从一个有限的样本中推断总体特征时，样本可能不具有代表性，导致对总体的错误认识。这种情况下，数据的陷阱来自于样本的选择或采集方法。解决这个问题的方法之一是使用随机抽样来确保样本的代表性。

一个实际案例：

某公司要评估某款新产品在市场上的受欢迎程度。他们决定在购物中心进行了一次问卷调查，收集了500份调查问卷。

调查结果显示有80%的受访者对新产品表示喜欢和有意愿购买。基于这个结果，市场调研公司得出结论认为新产品在市场上将受到广泛欢迎，并投入大量资源进行市场推广。

然而，结果显示新产品的销量远不及预期。公司内进行复盘，发现问卷调查可能有问题。

因为，调查问卷仅发放给购物中心的访客，未能涵盖更广泛的消费者群体，包括其他渠道或者不常去购物中心的消费者，他们的观点可能不同。这可能导致市场调研公司过度估计了新产品的市场潜力。

为了避免样本偏差导致结论出错的情况发生，市场调研应该采用多种渠道和方法，以确保样本具有代表性。可以在购物中心之外的其他地方进行调查，或者使用在线调查等方式进行数据收集，以覆盖更广泛的消费者群体。这样可以更全面地了解市场对新产品的态度和需求，并制定更准确的决策。

05 数据口径问题

假设有两个机构A和B，它们都在报告某个国家的失业率。

机构A使用广义定义上的失业率，包括所有正在寻找工作但没有找到的人，并将其与劳动力总数相除。根据机构A的统计数据，失业率为5%。
机构B使用狭义定义上的失业率，仅包括那些正在寻找工作但没有找到的人，并将其与就业人口相除。根据机构B的统计数据，失业率为3%。

由于机构A和机构B使用了不同的统计口径，导致了失业率的差异。机构A的统计方法更加宽泛，包括更多的人群，因此失业率较高。

而机构B的统计方法较为严格，只计算特定群体的失业率，因此失业率较低。

这种差异可能会对政策制定和经济分析产生重要影响。例如，机构A可能会认为需要采取更多的就业刺激措施，而机构B可能会认为就业市场已经相对健康。

这个案例表明，即使数据都是正确的，但是因为数据统计口径不同，进行解释时，结论不一致的情况也会发生。

06 基数问题

（1）某件商品在50%折扣的基础上再打20%折扣，我们容易以为会有70%的折扣。

实际上，折扣只有60%——因为后面20%的折扣实在50%即五折的基础上折算的。

（2）A基金年化收益率对比去年增加了100%！容易让人热血沸腾，下一秒就想梭哈。

实际情况可能是：A基金去年的年化收益率只有1%，今年达到了2%，而同期的银行利率可能高于这个数。

07 样本分布是非正态分布

用平均数掩盖分布。

美国前总统小布什在竞选演讲中曾经说到：我的2003年的减税计划让4000多万美国家庭平均少纳税1586美元，从纯数字角度来看，没有任何问题。但是这里有很强的误导性。

因为财富的分配不服从正态分布，大部分家庭收入不高，减税的额度非常有限，但小部分收入极高的家庭，减税的额度甚至能达到几十万美元，从而拉高了平均数。

实际上，当年减税的中位数是650美元，可以理解为有一半的家庭减税额度都没达到650美元。

08 数据样本不足

“今年经济学院的新来的研究生，有三分之一身高超过一米九，我们学院今年篮球赛夺冠有希望了。”

实际上，今年只录取了三名研究生，其中一个人身高超过了一米九。

这里其实犯了数据样本不足的问题，因为样本不足，用百分比掩盖规模。导致数据解读出误。

09 信息不完整

有这样一则数据：过去几十年，癌症的死亡人数增多。

这个数据结论看起来非常吓人。但实际上忽略了很多其他因素。如：

现在的人数远远超过以前；
由于医学的进步，从前很多死因不明的案例，在现在，都被归到了具体的癌症类别；
因为现代社会的发展，各个易发病的年龄段人数在不断增加；

这里是犯了信息不完整的错误，有时候，我们在分析或总结事物时可能会遗漏某些变化的原因。这可能是因为我们没有获得所有相关数据，或者我们只关注了部分信息而忽略了其他方面。

三、总结

以上，我们通过具体的案例总结了数据误导性的九种常见的类型。分别是：数据可视化陷阱、相关性与因果、放大有利数据、样本偏差、数据口径问题、基数问题、样本分布是非正态分布、数据样本不足、信息不完整。

之后，再遇到别人用数据做出的论断时，建议先对照着上述的九种场景，防止陷入数据陷阱。

最后，多说一句：数据不会说谎，但解读数据的人会。

微信公众号：董点数据，分享产品、运营、数据思维。

本文由 @董点数据原创发布于人人都是产品经理。未经许可，禁止转载。

题图来自Unsplash，基于CC0协议

2023 年 7 月
一	二	三	四	五	六	日
	1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

数据会说谎？带你识别9种常见的数据陷阱

一、九种数据陷阱

01 数据可视化陷阱

02 相关性与因果

03 放大有利数据

04 样本偏差

05 数据口径问题

06 基数问题

07 样本分布是非正态分布

08 数据样本不足

09 信息不完整

三、总结

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

文心AIGC

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定