注册 登录
美国中文网首页 博客首页 美食专栏

ImYoona //www.sinovision.net/?70618 [收藏] [复制] [分享] [RSS] txgz999@yahoo.com

分享到微信朋友圈 ×
打开微信,点击底部的“发现”,
使用“扫一扫”即可将网页分享至朋友圈。

柴静视频中图示的解读

热度 8已有 20159 次阅读2015-3-14 16:16 分享到微信

3/6/2015 方舟子最初的推特
https://mobile.twitter.com/fangshimin/status/573734653351174144

柴静视频中图示的解读_图4-1

柴静视频中图示的解读_图4-2



柴静视频中图示的解读_图4-3

柴静视频中图示的解读_图4-4


高清版:柴静雾霾调查:穹顶之下
https://www.youtube.com/watch?v=xbK4KeD2ajI

柴静视频中图示的解读_图4-5

柴静视频中图示的解读_图4-6

柴静视频中图示的解读_图4-7

柴静视频中图示的解读_图4-8

柴静视频中图示的解读_图4-9

柴静视频中图示的解读_图4-10


柴​静​雾​霾​调​查​片​《​穹​顶​之​下​》​中​有​争​议​的​“​中​科​院​给​我​们​提​供​的​测​算​显​示​,​当​P​M​2​.​5​的​值​升​高​的​时​候​,​人​群​的​死​亡​率​是​随​之​上​升​的​.​.​.​”​引​用​图​表​原​论​文​。​中​科​院​大​气​物​理​研​究​所​、​北​大​医​学​院​等​单​位​做​的​【​北​京​大​气​颗​粒​物​粒​级​对​死​亡​率​影​响​的​时​间​序​列​分​析​】​。
Time-series analysis of mortality effects from airborne particulate matter size fractions in Beijing


3月19日补充:

蒙枪枪垂问,勉为其难的了解了一下柴静视频中一个有关P​M​2​.​5值和死亡率关系的图示引发的争论。

初读之下我有这样三个疑问:
1)柴静说'当PM2.5值升高的时候',是在说2005-2009的实际情况,还是在说一种与事实不同的假设状态?
2)为何三条曲线和三个三次函数的值不匹配?
3)为何柴静的最上面一条曲线与论文图完全不同?

看了柴静视频的那个片段,通读了原始论文以及方舟子和岳东晓的相关博文,最主要是靠了一剑和枪枪两位好友的点拨,感觉现在基本理解了该图示的意思。所以我来用自己的语言来谈谈我的理解。

柴静图是基于原始论文及其中的图6。这图说的是2005至2009年北京市的PM2.5值对三种常见死亡原因(循环系统,呼吸系统,非意外事故)的死亡率的影响,更明确的说是测算在每天PM2.5值增加10时,这三种死亡率的增加幅度。

有意思的是当考虑PM2.5值对死亡率的影响时,作者并没有直接比较那些年份间PM2.5的大小和死亡率的大小的关系,在论文中甚至没列出那些年的死亡率,而是估算了一个假设的问题,在同一时间段如果PM2.5增加10,死亡率会有多大变化?

论文作者在北京某北三环和北四环之间的密集居住区的某个点上持续5年测量了每天的PM2.5值,又用了国家机构提供的北京市每天各种死亡原因的死亡数数据。具体的测算方式据作者说是基于时间序列分析,我没学过这个理论,但如果我有一年365天每天的死亡数和PM2.5值,我会如何估算呢?我们知道这些PM2.5的值大致是几十多的有一百多。所以在这365个数组里,会有一些两组两组的能成为一对,它们的PM2.5值会相差将近10。我们就计算对应的死亡数的增长率,然后把每对所得的死亡数的增长率做个平均,就得到一年的估算值。

这样我们就有了这五年每年这三种常见死亡原因的死亡率的增长率的估算值,然后用曲线拟合来描述这个增长趋势,这是个简单的数学问题,就是如何选取一定次数的多项式曲线来尽可能的和给定的样品点拟合,这在数学上称为最小二乘曲线拟合 (curve fitting in the least-squares sense) http://read.pudn.com/downloads144/ebook/629385/minleast.doc, 我们可以用一个拟合度(R^2值)来衡量这种拟和程度,这值最大是1,当曲线经过所有样品点时达到。

论文图用的是四次曲线来拟合五年的数值,所以拟合度达到1,而柴静的图用的是三次曲线来拟合五年的数值。这说明柴静图和论文图曲线的不同是因为前者用三次曲线吻合而后者用四次曲线,至少从数学上讲两者都是正确的结果。当然从这个具体问题看,也许可以说由于样品点的上下波动,三次曲线难以和样品点有很好的吻合,应该用四次曲线来吻合更合适。当然是不是需要用四次曲线来拟合又和想要得到的结论有关,在论文中强调的一点是2008年北京奥运会前对空气污染的控制,那用四次曲线就很有必要。而柴静要说明"当​P​M​2​.​5​的​值​升​高​的​时​候​,​人​群​的​死​亡​率​是​随​之​上​升​的​",那用三次曲线来拟合也能行,事实上曲线拟合都不需要,因为这五年每年的死亡率测算结果都说明了这个结论。

也许有人会认为"当​P​M​2​.​5​的​值​升​高​的​时​候​,​人​群​的​死​亡​率​是​随​之​上​升​的​"这样一个结论是显而易见无需论证的,其实也许也不尽然,因为同一篇论文还发现了P​M​2​.​5​-10的​值​的升​高对​人​群​的​死​亡​率​没明确影响。

回到我前几天不解的问题。这图利用的北京PM2.5值是虚拟的吗?也是也不是。大致上讲它是在比较那五个年度PM2.5值(76,84, 78, 69, 65)时的死亡率和这些值增加10,即(86, 94,88,79,75)时的通过上述估算的死亡率的增长率。(在我前面的土测算法里严格的讲不一定就是这些数如76和86,而是那些对中大的半部分的平均和小的半部分的平均。所以也可能是比如75和85,相差一定是10。)

那么柴静说的当PM2.5值升高时死亡率是随之上升的是如何体现在图上的呢?这条曲线完全在横坐标的上方,所以每年(即每个横坐标点)都是一个证明柴静这句话的例子。前几天我一直以为柴静说的当P​M​2​.​5值升高指的是横向,即如果按年份不断增长,现在才知道是指同一时间如果PM2。5值高一些的话会对死亡率造成的影响。

记得推特或新语丝里有评论说图上显示的每年的死亡率数据,为何要提每天死亡率?当我们了解了估算的途径后就知道光有年死亡率是没法进行估算的。

还有论文图里标的每年的P​M​2​.​5值并不是官方的北京市数值,而且官方也没公布过这几年的数据(除2005年外)。这个数据就是依据作者在北京某处的逐日观察结果。

最后总结一下我对柴静图和论文图不同的理解。之所以不同是因为前者用的是三次曲线拟合而后者用的是四次曲线拟合。对于柴静想说明的结论"当​P​M​2​.​5​的​值​升​高​的​时​候​,​人​群​的​死​亡​率​是​随​之​上​升​的​"而言,拟合都是多余,每年的测算值都是正的本身就说明了柴静的结论。

柴静视频中图示的解读_图4-11



免责声明:本文中使用的图片均由博主自行发布,与本网无关,如有侵权,请联系博主进行删除。







鲜花
3

握手

雷人

路过

鸡蛋

刚表态过的朋友 (3 人)

发表评论 评论 (183 个评论)

回复 ImYoona 2015-3-21 16:19
随笔: 看了这篇论文,对柴静展示的这张图,我基本同意方舟子的看法,说明显篡改原图也许不为过。柴静的图,删除了最最重要的对比因素,pm.没有这个对比参数,这张图还 ...
关于"我还是不太明白你这篇论文中最后的结论,我看不出你说的规律",其中一个在Abstract里提到的重要结论是(就是我们在讨论论文中的图6所显示的)
---------------------------------------------------------------------------------
After controlling for potential confounding, the results of a time-series analysis during the period 2005-2009 show that a 10 μg m-3 increase in PM2.5 levels is associated with a 0.65% (95% CI: 0.29-0.80%), 0.63% (95% CI: 0.25-0.83%), and 1.38% (95% CI: 0.51-1.71%) increase in non-accidental mortality, respiratory mortality, and circulatory mortality, respectively.
---------------------------------------------------------------------------------
我怎么觉得柴静的话"当​P​M​2​.​5​的​值​升​高​的​时​候​,​人​群​的​死​亡​率​是​随​之​上​升​的​"就是这段话的通俗版呢?
回复 随笔 2015-3-21 16:04
岳东晓: 柴静说她的依据是中科院的研究,因此我认为讨论的核心是(1)原论文结论是什么;(2)柴静的说法与原论文结论是否一致。

论文本身的正确性是题外话。

我认为两 ...
刚看了你的文章,对论文的看法我们没有什么分歧,我也认为这是一篇做过大量数据研究,运用了科学的统计方法,严谨且又通俗易懂的论文。文中列出了大量的统计数据,都是相辅相成的,不能随便挑出一个图,忽略其它的相关指标给出结论,为我所用。方舟子指出她对原图做了重要的修改,是不可争议的事实,至少,她报告中的图让我发生了理解的困惑,以及错误的结论,而原图,就是你讨论的那张图,本来是很清晰的,对原图我没有异议。
你和方舟子争论的死亡率和死亡增长率的问题,没有看到方舟子的原话不好判断。如果我理解正确,你认为死亡增长率是在逐年上升,方反驳你的理由之一,如果是这样,有一天中国人就会死绝了。你的反驳理由,因为中国出生率的变化也在逐年上升,而且超过死亡率的变化。这个结论应该没错,所以中国人口会越来越多。
不过,你的反驳我也可以得出这样的结论,死亡率变化会随出生率变化而变化,这应该是自然规律,如果出生率上升,死亡率不变化,中国人就没地方可待了。出生率的变化可能比雾霾变化对死亡率变化的影响更大,那么柴静只用雾霾来解释死亡率的变化好像更站不住脚了。
回复 岳东晓 2015-3-21 13:41
随笔: 看了这篇论文,对柴静展示的这张图,我基本同意方舟子的看法,说明显篡改原图也许不为过。柴静的图,删除了最最重要的对比因素,pm.没有这个对比参数,这张图还 ...
柴静说她的依据是中科院的研究,因此我认为讨论的核心是(1)原论文结论是什么;(2)柴静的说法与原论文结论是否一致。

论文本身的正确性是题外话。

我认为两个个问题应该先厘清 :(1)原图6是在描述什么;(2)图6数据是怎么来的。

我的总结如下,可以作为参考 http://blog.sciencenet.cn/blog-684007-876217.html 由于论文图6下面的说明有误,我是看了论文之后才准确理解的。

我对那条曲线的解读在  http://zzwave.com/home.php?mod=space&uid=2&do=blog&id=28585

具体的统计分析原论文作者考虑了各种因素,包括温度、湿度、季节、节假日等等等等,所用方法是 Generalized Additive Model,相关软件使用算法是 penalized spline, 而不是常见的backfitting 。
回复 随笔 2015-3-21 13:03
ImYoona: 笔笔要是有空时读读那篇论文,想听听你的读后感。好像那篇论文也考虑了其它多种因素如温度,这图只是一个结论。这篇论文基于时间序列分析,对你来说读起来一定不 ...
看了这篇论文,对柴静展示的这张图,我基本同意方舟子的看法,说明显篡改原图也许不为过。柴静的图,删除了最最重要的对比因素,pm.没有这个对比参数,这张图还有神马意义,这就是我一直看不懂你们讨论的原因。
第二,那条红色曲线画的太勉强,这些点是每年的平均数,已经如此发散,论文的table1里还给出了平均数的标准差,有些标准差已经大过平均数,也就是说,它是根据一堆没有规律,不着边际的数据算出的一个不具代表性的平均值,这样的值再找出趋势值,就是那条红线,应该没有神马意义。
论文table1也间接用数据说明柴静对此图下的结论是不准确的,她忽略了表中所有的数据,改变了原始图形,只能有一个原因,她的结论在图之前就已经有了。
我还是不太明白你这篇论文中最后的结论,我看不出你说的规律,你能解释一下吗。今天有时间,说说我对论文中table1的看法。我个人认为,这个论文得不出柴静的结果,相反,说明雾霾和死亡率,静态对比,或同时间对比没有必然的联系。
回复 ImYoona 2015-3-21 08:51
随笔: 谢谢你的解释,我可能没表达清我的观点。
我不是说这张图里的雾霾和死亡数据不够充分,想说的是统计分析的指标不足,结论不足以令人信服。
举个例子,大家都清楚 ...
笔笔要是有空时读读那篇论文,想听听你的读后感。好像那篇论文也考虑了其它多种因素如温度,这图只是一个结论。这篇论文基于时间序列分析,对你来说读起来一定不枯燥。

我被你们说糊涂了。如果那图不能用来说明PM2.5值升高时死亡率也升高的结论,那论文里的研究结果是不是说明了这个结论?当然不是数学意义上的证明,但能不能说从一个角度证明了这个结论?

你说的死亡率由多种因素决定我也同意。从直观上讲我也觉得分析雾霾长期积累的影响比即时效应更靠谱些,不过那篇论文研究的是即时的反应(最多考虑了几日均线)。对于不相信有即时效应的人来讲,也许看到文中对连续五年每年的测算结果还是满惊讶的吧?
回复 在美一方 2015-3-21 01:20
ImYoona: 你也提示我一下吧?或者告诉我你指随笔哪些话?不知在这点上,你是说我没读懂那篇论文,还是说那篇论文里的测算数据没法支持柴静的结论?如果是后者,我也无话可 ...
哎,

1. 你看看我回随笔的啊“后面两段和我原来私下讨论时候讲的差不多,我也是这个意思”

2. 具体原文的数据我没有去看有没有死亡率的。但是柴静重新画的那张图以及原文里的图6,都不能得出柴静说的“当PM2.5升高的时候,人群的死亡率是上升的”这个结论。原因见1
回复 ImYoona 2015-3-21 01:11
在美一方: OK

1. Pass

2. 除了在湾里对岳有过一个提示之外,我的评论都没有公开发表,但是随笔网友基本上说出了我的意思(天地良心,我没有摘桃子哦),参考他说的就行 ...
你也提示我一下吧?或者告诉我你指随笔哪些话?不知在这点上,你是说我没读懂那篇论文,还是说那篇论文里的测算数据没法支持柴静的结论?如果是后者,我也无话可说了。
回复 在美一方 2015-3-21 01:09
随笔: 谢谢你的解释,我可能没表达清我的观点。
我不是说这张图里的雾霾和死亡数据不够充分,想说的是统计分析的指标不足,结论不足以令人信服。
举个例子,大家都清楚 ...
后面两段和我原来私下讨论时候讲的差不多,我也是这个意思。
回复 在美一方 2015-3-21 01:08
方枪枪: 你的意思是不是这样:
不必在意那个10个单位,不然数值太小,百分之零点零几,所以就把自变量加大,成了变化10个单位,因变量变成百分之零点几
就是你前面说的只 ...
就好像对差距巨大的数据用对数坐标那样,一是为了说着方便,二是为了有实际意义。好比说死亡数增加0.035%,很可能毫无意义,医学数据都必须考虑 clinically meaningful
回复 在美一方 2015-3-21 01:05
ImYoona: 1)我说我对自己想的土办法很满意是因为在这之前我想不出如何能估计PM2.5增长10情况下的死亡率,那时我觉得每天北京的PM值都是实际测量所得,无法在全市的范围内 ...
OK

1. Pass

2. 除了在湾里对岳有过一个提示之外,我的评论都没有公开发表,但是随笔网友基本上说出了我的意思(天地良心,我没有摘桃子哦),参考他说的就行
回复 随笔 2015-3-21 00:45
方枪枪: 她提供的其他资料也已经被方批的一文不值了。这是后话,呵呵。

https://medium.com/@fangshimin/错误百出的柴静-穹顶之下-c5d7e726a63b

这是最新的发言的集合 ...
别忽悠我了。
谢谢你的推荐,看来我应该看完方的所有文章后再发言。
回复 ImYoona 2015-3-21 00:45
在美一方: 就是这个意思,不然,柴静手指那根红线,说到“这条红线虽然是上升的趋势,但是没有科学上承认的统计学意义”,岂不是砸了锅?

而真实准确的说法,还真 ...
等你回答了我的2),我再想想柴静图或论文图或论文的研究本身能不能用来支持她在那时表述的结论。如过你同意论文里的研究能支持她的结论,但又觉得这图不是说明她结论的最好办法,你能不能设计一张配她的结论的图?我刚画了一张附在了文后,觉得也不是很满意。
回复 随笔 2015-3-21 00:42
ImYoona: 原来笔笔是学统计的,不知是否学过时间序列分析?
你应该问我,你大学是不是肄业了,这门课一般学经济学的都应该是必修课吧。
回复 随笔 2015-3-21 00:39
ImYoona: 欢迎笔笔加入我们的讨论,我这也在下雪,我都铲了两次了。雪还特别湿,铲雪机也没法用。上星期还以为春天来了,没想到又回到冬天去了。 ...
我刚刚又看了一遍你上面的论文,不好意思,还是没看太明白,我觉得,柴静是在试图把复杂的东西简单化,你是在把她简化的东西复杂话,我基本被你绕糊涂了。
不过你这篇博真的满有意思,我也学了不少东西。
回复 随笔 2015-3-21 00:33
在美一方: 1. 不止这么几个点,这几个点是年平均(我推测的,还需要看原文求证)

2. 滞后的问题,忘了原文有没有,记得好像是有的,如果没有,也是同一个研究组发过类似的 ...
谢谢你的解释,我可能没表达清我的观点。
我不是说这张图里的雾霾和死亡数据不够充分,想说的是统计分析的指标不足,结论不足以令人信服。
举个例子,大家都清楚,经济发展是多种因素综合作用的结果,在分析某一因素的影响时,必须剔除其余指标的影响,这时趋势很可能会变化,结论会不同,所以经济统计要用综合指标分析法。
你是学医的,对于死亡原因分析你应该是行家。我想,死亡率的上升和下降也是一样,是受多方面的因素影响的,雾霾可能是一个因素,但它的变化是不能完全解释死亡曲线变化的,或者不一定是主要原因。所以,柴静对这个趋势的解释有些勉强。
我说的好像和天香说的不是一回事,我的前提是假设数据是真实的,想表明的是,如果推论的方法有问题,不科学,真实的数据同样会得出错误的结论。
回复 方枪枪 2015-3-21 00:21
随笔: 大家好像在讨论图示的真实性和关联性,我个人认为,无论图式中的曲线反映的是不是客观趋势,用这个图证明雾霾高时死亡率就高都是没有依据的。

首先,死亡的原因 ...
她提供的其他资料也已经被方批的一文不值了。这是后话,呵呵。

https://medium.com/@fangshimin/错误百出的柴静-穹顶之下-c5d7e726a63b

这是最新的发言的集合,全是关于数据等方面的质疑。大家感兴趣可以看一下,从httpS到6A63B 拖黑复制,放地址栏中看。
有一个专业内的朋友在看,他刚刚跟我说你,She's fine. Probably the best so far

你看的时间这么短,有这样简单明了的看法,真不错的
回复 方枪枪 2015-3-21 00:11
在美一方: 细节错误比较致命的有

1. 所以在这365个数组里,会有一些两组两组的能成为一对,它们的PM2.5值会相差将近10。我们就计算对应的死亡数的增长率,然后把每对所得 ...
你的意思是不是这样:
不必在意那个10个单位,不然数值太小,百分之零点零几,所以就把自变量加大,成了变化10个单位,因变量变成百分之零点几
就是你前面说的只要采样的定义域包涵了将来报告的值域就可以。
不然如果PM2.5在实际情况下从来就没有过超出10的变化,那么用这些数值去估算PM2.5增加10的情况就是外插,而外插比较lack of credit 除非有证据支持外插。
回复 ImYoona 2015-3-20 23:46
随笔: 感谢天香的视频链接,让我终于有机会看到柴静的这个报告,解除了我对柴静的很多误解。说句实话,看完后很受感动,中国的高层领导人有几个像柴静这样脚踏实地的面 ...
原来笔笔是学统计的,不知是否学过时间序列分析?
回复 ImYoona 2015-3-20 23:44
在美一方: 细节错误比较致命的有

1. 所以在这365个数组里,会有一些两组两组的能成为一对,它们的PM2.5值会相差将近10。我们就计算对应的死亡数的增长率,然后把每对所得 ...
1)我说我对自己想的土办法很满意是因为在这之前我想不出如何能估计PM2.5增长10情况下的死亡率,那时我觉得每天北京的PM值都是实际测量所得,无法在全市的范围内人为提高10后来观察死亡率的变化。后来想到每天的PM值是不同的,可以通过比较每天相应的死亡率来估算PM值对此的影响。这样一想就知道了估算的合理性和可行性。至于作者的方法我没细看。如果我们还继续讨论下去的话,也许我会去读读。

2)这我倒没想到,愿闻其详。如果你在其它地方已经解释过了,烦你拷贝过来给这里的网友看看好吗?
回复 ImYoona 2015-3-20 23:31
随笔: 感谢天香的视频链接,让我终于有机会看到柴静的这个报告,解除了我对柴静的很多误解。说句实话,看完后很受感动,中国的高层领导人有几个像柴静这样脚踏实地的面 ...
欢迎笔笔加入我们的讨论,我这也在下雪,我都铲了两次了。雪还特别湿,铲雪机也没法用。上星期还以为春天来了,没想到又回到冬天去了。

facelist

您需要登录后才可以评论 登录 | 注册

 留言请遵守道德与有关法律,请勿发表与本文章无关的内容(包括告状信、上访信、广告等)。
 所有留言均为网友自行发布,仅代表网友个人意见,不代表本网观点。

关于我们| 节目信息| 反馈意见 | 联系我们| 招聘信息| 返回手机版| 美国中文网

©2024  美国中文网 Sinovision,Inc.  All Rights Reserved. TOP

回顶部