注册 登录
美国中文网首页 博客首页 美食专栏

ImYoona //www.sinovision.net/?70618 [收藏] [复制] [分享] [RSS] txgz999@yahoo.com

分享到微信朋友圈 ×
打开微信,点击底部的“发现”,
使用“扫一扫”即可将网页分享至朋友圈。

柴静视频中图示的解读

热度 8已有 20319 次阅读2015-3-14 16:16 分享到微信

3/6/2015 方舟子最初的推特
https://mobile.twitter.com/fangshimin/status/573734653351174144

柴静视频中图示的解读_图7-1

柴静视频中图示的解读_图7-2



柴静视频中图示的解读_图7-3

柴静视频中图示的解读_图7-4


高清版:柴静雾霾调查:穹顶之下
https://www.youtube.com/watch?v=xbK4KeD2ajI

柴静视频中图示的解读_图7-5

柴静视频中图示的解读_图7-6

柴静视频中图示的解读_图7-7

柴静视频中图示的解读_图7-8

柴静视频中图示的解读_图7-9

柴静视频中图示的解读_图7-10


柴​静​雾​霾​调​查​片​《​穹​顶​之​下​》​中​有​争​议​的​“​中​科​院​给​我​们​提​供​的​测​算​显​示​,​当​P​M​2​.​5​的​值​升​高​的​时​候​,​人​群​的​死​亡​率​是​随​之​上​升​的​.​.​.​”​引​用​图​表​原​论​文​。​中​科​院​大​气​物​理​研​究​所​、​北​大​医​学​院​等​单​位​做​的​【​北​京​大​气​颗​粒​物​粒​级​对​死​亡​率​影​响​的​时​间​序​列​分​析​】​。
Time-series analysis of mortality effects from airborne particulate matter size fractions in Beijing


3月19日补充:

蒙枪枪垂问,勉为其难的了解了一下柴静视频中一个有关P​M​2​.​5值和死亡率关系的图示引发的争论。

初读之下我有这样三个疑问:
1)柴静说'当PM2.5值升高的时候',是在说2005-2009的实际情况,还是在说一种与事实不同的假设状态?
2)为何三条曲线和三个三次函数的值不匹配?
3)为何柴静的最上面一条曲线与论文图完全不同?

看了柴静视频的那个片段,通读了原始论文以及方舟子和岳东晓的相关博文,最主要是靠了一剑和枪枪两位好友的点拨,感觉现在基本理解了该图示的意思。所以我来用自己的语言来谈谈我的理解。

柴静图是基于原始论文及其中的图6。这图说的是2005至2009年北京市的PM2.5值对三种常见死亡原因(循环系统,呼吸系统,非意外事故)的死亡率的影响,更明确的说是测算在每天PM2.5值增加10时,这三种死亡率的增加幅度。

有意思的是当考虑PM2.5值对死亡率的影响时,作者并没有直接比较那些年份间PM2.5的大小和死亡率的大小的关系,在论文中甚至没列出那些年的死亡率,而是估算了一个假设的问题,在同一时间段如果PM2.5增加10,死亡率会有多大变化?

论文作者在北京某北三环和北四环之间的密集居住区的某个点上持续5年测量了每天的PM2.5值,又用了国家机构提供的北京市每天各种死亡原因的死亡数数据。具体的测算方式据作者说是基于时间序列分析,我没学过这个理论,但如果我有一年365天每天的死亡数和PM2.5值,我会如何估算呢?我们知道这些PM2.5的值大致是几十多的有一百多。所以在这365个数组里,会有一些两组两组的能成为一对,它们的PM2.5值会相差将近10。我们就计算对应的死亡数的增长率,然后把每对所得的死亡数的增长率做个平均,就得到一年的估算值。

这样我们就有了这五年每年这三种常见死亡原因的死亡率的增长率的估算值,然后用曲线拟合来描述这个增长趋势,这是个简单的数学问题,就是如何选取一定次数的多项式曲线来尽可能的和给定的样品点拟合,这在数学上称为最小二乘曲线拟合 (curve fitting in the least-squares sense) http://read.pudn.com/downloads144/ebook/629385/minleast.doc, 我们可以用一个拟合度(R^2值)来衡量这种拟和程度,这值最大是1,当曲线经过所有样品点时达到。

论文图用的是四次曲线来拟合五年的数值,所以拟合度达到1,而柴静的图用的是三次曲线来拟合五年的数值。这说明柴静图和论文图曲线的不同是因为前者用三次曲线吻合而后者用四次曲线,至少从数学上讲两者都是正确的结果。当然从这个具体问题看,也许可以说由于样品点的上下波动,三次曲线难以和样品点有很好的吻合,应该用四次曲线来吻合更合适。当然是不是需要用四次曲线来拟合又和想要得到的结论有关,在论文中强调的一点是2008年北京奥运会前对空气污染的控制,那用四次曲线就很有必要。而柴静要说明"当​P​M​2​.​5​的​值​升​高​的​时​候​,​人​群​的​死​亡​率​是​随​之​上​升​的​",那用三次曲线来拟合也能行,事实上曲线拟合都不需要,因为这五年每年的死亡率测算结果都说明了这个结论。

也许有人会认为"当​P​M​2​.​5​的​值​升​高​的​时​候​,​人​群​的​死​亡​率​是​随​之​上​升​的​"这样一个结论是显而易见无需论证的,其实也许也不尽然,因为同一篇论文还发现了P​M​2​.​5​-10的​值​的升​高对​人​群​的​死​亡​率​没明确影响。

回到我前几天不解的问题。这图利用的北京PM2.5值是虚拟的吗?也是也不是。大致上讲它是在比较那五个年度PM2.5值(76,84, 78, 69, 65)时的死亡率和这些值增加10,即(86, 94,88,79,75)时的通过上述估算的死亡率的增长率。(在我前面的土测算法里严格的讲不一定就是这些数如76和86,而是那些对中大的半部分的平均和小的半部分的平均。所以也可能是比如75和85,相差一定是10。)

那么柴静说的当PM2.5值升高时死亡率是随之上升的是如何体现在图上的呢?这条曲线完全在横坐标的上方,所以每年(即每个横坐标点)都是一个证明柴静这句话的例子。前几天我一直以为柴静说的当P​M​2​.​5值升高指的是横向,即如果按年份不断增长,现在才知道是指同一时间如果PM2。5值高一些的话会对死亡率造成的影响。

记得推特或新语丝里有评论说图上显示的每年的死亡率数据,为何要提每天死亡率?当我们了解了估算的途径后就知道光有年死亡率是没法进行估算的。

还有论文图里标的每年的P​M​2​.​5值并不是官方的北京市数值,而且官方也没公布过这几年的数据(除2005年外)。这个数据就是依据作者在北京某处的逐日观察结果。

最后总结一下我对柴静图和论文图不同的理解。之所以不同是因为前者用的是三次曲线拟合而后者用的是四次曲线拟合。对于柴静想说明的结论"当​P​M​2​.​5​的​值​升​高​的​时​候​,​人​群​的​死​亡​率​是​随​之​上​升​的​"而言,拟合都是多余,每年的测算值都是正的本身就说明了柴静的结论。

柴静视频中图示的解读_图7-11



免责声明:本文中使用的图片均由博主自行发布,与本网无关,如有侵权,请联系博主进行删除。







鲜花
3

握手

雷人

路过

鸡蛋

刚表态过的朋友 (3 人)

发表评论 评论 (183 个评论)

回复 方枪枪 2015-3-17 21:43
ImYoona: 不瞒你说,不是很想去看那些讨论
我的思路已经盘死了。  

那是一剑的文章啊,你不是问吗,我就发了。
我也不想看那些讨论了。
回复 ImYoona 2015-3-17 21:41
不瞒你说,不是很想去看那些讨论
回复 方枪枪 2015-3-17 21:40
ImYoona:        我看城里人在称赞你,但到湾里没看到有你写的博文。你能不能把你写在各处的评论综合起来,完整的写一篇对柴静图的专家解读? ...
http://www.zhenzhubay.com/home.php?mod=space&uid=22&do=blog&id=28539


http://www.zhenzhubay.com/home.php?mod=space&uid=22&do=blog&id=28604
回复 ImYoona 2015-3-17 21:38
在美一方: 有那么点意思,不过基本上细节全错   
有点困惑的是好像我把自己的思路盘活了(即能自圆其说了),但却还没用上你和枪枪说的RR。这估计是个纰漏。容我再想。
回复 ImYoona 2015-3-17 21:30
在美一方: 有那么点意思,不过基本上细节全错   
    我看城里人在称赞你,但到湾里没看到有你写的博文。你能不能把你写在各处的评论综合起来,完整的写一篇对柴静图的专家解读?
回复 ImYoona 2015-3-17 21:25
在美一方: “所以在这365个数组里,会有一些两组两组的能成为一对,它们的PM2.5值会相差将近10。我们就计算对应的死亡数的增长率,然后把每对所得的死亡数的增长率做个平均 ...
是吗?,我们要估算的是PM差10的情况。如果将PM相差20的也配对,对应的死亡数增长率举例来说算出来是0.2%,那我们如何将它换算成PM差10情形的死亡数增长率呢?难道就假定是线性关系来做个换算?
回复 在美一方 2015-3-17 21:25
ImYoona: 今天把论文打印了出来后,在回家的火车上读了读,好像对图明白多了。当然最主要是靠好友这两天的点拨,我用自己的语言讲讲我的理解。

这图说的是2005至2009年北 ...
有那么点意思,不过基本上细节全错  
回复 在美一方 2015-3-17 21:17
ImYoona: 今天把论文打印了出来后,在回家的火车上读了读,好像对图明白多了。当然最主要是靠好友这两天的点拨,我用自己的语言讲讲我的理解。

这图说的是2005至2009年北 ...
“所以在这365个数组里,会有一些两组两组的能成为一对,它们的PM2.5值会相差将近10。我们就计算对应的死亡数的增长率,然后把每对所得的死亡数的增长率做个平均,就得到一年的估算值。”

没必要去找什么PM2.5值差为10的,任何数据对都可以,只要提供涵盖10以上的定义域
回复 ImYoona 2015-3-17 20:21
方枪枪:    我特别信赖侦探秘书天香,就是这原因,自己想,自己看,不受七嘴八舌的影响。 以后有争议,作业全交给你做,哈哈。 ...
    就是到目前为止的认识,一定还有理解错误的地方,请你们指正。很多都是从你们那听来的,但只有自己想通了,才能转化为自己的认识。
回复 方枪枪 2015-3-17 19:58
ImYoona: 今天把论文打印了出来后,在回家的火车上读了读,好想对图明白多了。当然最主要是靠好友这两天的点拨,我用自己的语言讲讲我的理解。

这图说的是2005至2009年北 ...
我特别信赖侦探秘书天香,就是这原因,自己想,自己看,不受七嘴八舌的影响。 以后有争议,作业全交给你做,哈哈。
回复 ImYoona 2015-3-17 19:46
今天把论文打印了出来后,在回家的火车上读了读,好像对图明白多了。当然最主要是靠好友这两天的点拨,我用自己的语言讲讲我的理解。

这图说的是2005至2009年北京市的PM2.5值对三种常见死亡原因(循环系统,呼吸系统,非意外事故)的死亡率的影响,更明确的说是测算在每天PM2.5值增加10时,这三种死亡率的增加幅度。

论文作者在北京某北三环和北四环之间的密集居住区的某个点上持续5年测量了每天的PM2.5值,又用了某机构的北京市每天各种死亡原因的死亡数数据。具体的测算方式据作者说是基于时间序列分析,我没学过这个理论,但如果我有一年365天每天的死亡数和PM2.5值,我会如何估算呢?我们知道这些PM2.5的值大致是几十多的有一百多。所以在这365个数组里,会有一些两组两组的能成为一对,它们的PM2.5值会相差将近10。我们就计算对应的死亡数的增长率,然后把每对所得的死亡数的增长率做个平均,就得到一年的估算值。

这样我们就有了这五年每年这三种常见死亡原因的死亡率的增长率的估算值,然后用三次曲线来描述这个增长趋势,这是个简单的数学问题,就是如何选取一定次数的多项式曲线来尽可能的和给定的样品点拟合,这在数学上称为最小二乘曲线拟合 (curve fitting in the least-squares sense) http://read.pudn.com/downloads144/ebook/629385/minleast.doc, 我们可以用一个拟合度(R^2值)来衡量这种拟和程度,这值最大是1,当曲线经过所有样品点时达到。

回到我前几天不解的问题。这图利用的北京PM2.5值是虚拟的吗?也是也不是。大致上讲它是在比较那五个年度PM2.5值(76,84, 78, 69, 65)时的死亡率和这些值增加10,即(86, 94,88,79,75)时的通过上述估算的死亡率的增长率。严格的将不一定就是这些数如76和86,而是那些对中大的半部分的平均和小的半部分的平均。所以也可能是比如75和85,相差一定是10。

那么柴静说的当PM2.5值升高时死亡率是随之上升的是如何体现在图上的呢?这条曲线完全在y=0的上方,所以每年(即每个横坐标点)都是一个证明柴静这句话的例子。前几天我一直以为柴静说的当PM2。5值升高指的是横向,即如果按年份不断增长,现在才知道是指同一时间如果PM2。5值高一些的话会对死亡率造成的影响。

那么柴静图那条与原图不同的曲线对吗?我觉得这个改动是错误的。虽然还没读完原文,但我猜测对曲线的选取条件就是前述的数学问题,即使R^2最大(即最接近1)。图中另外两条曲线的R^2值都很接近1也是佐证。柴静新曲线的R^2值是0.19,而原曲线的R^2值则应该很接近1。看不出柴静这样改动的任何道理。(补充:我在后面的评论里给出了柴静改动的合理解释。)

记得推特或新语丝里有评论说图上显示的每年的死亡率数据,为何要提每天死亡率?当我们了解了估算的意义后就知道光有年死亡率是没法进行估算的。

还有论文图里标的每年的PM2。5值并不是官方的北京市数值,而且官方也没公布过这几年的数据(除2005年外)。这个数据就是依据作者在北京某处的逐日观察结果。
回复 ImYoona 2015-3-17 16:37
在美一方: 老朋友们都知道,我是歪楼大王。所以说,我已经灰常 behave了
http://blog.sinovision.net/home/space/do/blog/uid/70618/id/250762.html  
回复 ImYoona 2015-3-17 16:36
方枪枪: 那么我前面的理解就是对的了?

另外请天香是不是再开个随便什么的其它的博文,以利于我们说点其它聊天和HAPPY的话题,省得在这里歪楼:) ...
http://blog.sinovision.net/home/space/do/blog/uid/70618/id/250762.html   
回复 在美一方 2015-3-17 16:20
ImYoona: 我现在有点明白这曲线的来历了。先不管纵坐标的意义,给了五个点,如果对这条曲线的唯一要求就是使R^2 达到最大,那就是个简单的数学问题。我以前学过,枪枪也肯 ...
你看得真仔细,我根本就没注意R^2的大小,如果真有0.19这种,放上去的唯一原因就是说明自己的拟合不很好
回复 在美一方 2015-3-17 16:19
方枪枪: 那么我前面的理解就是对的了?

另外请天香是不是再开个随便什么的其它的博文,以利于我们说点其它聊天和HAPPY的话题,省得在这里歪楼:) ...
老朋友们都知道,我是歪楼大王。所以说,我已经灰常 behave了
回复 方枪枪 2015-3-17 15:13
在美一方: 基数不是前一年的值,也不是之前任何一年的值。根据 RR 的意义,基数是 without exposure 的值
那么我前面的理解就是对的了?

另外请天香是不是再开个随便什么的其它的博文,以利于我们说点其它聊天和HAPPY的话题,省得在这里歪楼:)
回复 ImYoona 2015-3-17 13:52
在美一方: They are totally different things

RR= Relative Risk

R^2 = R squared, is a measure of the goodness of fit when fitting a curve to data points.
我现在有点明白这曲线的来历了。先不管纵坐标的意义,给了五个点,如果对这条曲线的唯一要求就是使R^2 达到最大,那就是个简单的数学问题。我以前学过,枪枪也肯定精通。那柴静的曲线肯定是错的。除非对这曲线还有其它要求?
回复 ImYoona 2015-3-17 11:58
在美一方: They are totally different things

RR= Relative Risk

R^2 = R squared, is a measure of the goodness of fit when fitting a curve to data points.
谢谢,加个链接 http://www.graphpad.com/guides/prism/6/curve-fitting/index.htm?r2_ameasureofgoodness_of_fitoflinearregression.htm

我不理解柴静为何要用一条R^2很小(0。19)的三次曲线,我相信论文图里的那条三次曲线的R^2要大好多。
回复 在美一方 2015-3-17 11:50
ImYoona: 将柴静图中的三个三次函数用1至5代入算了算,发现数值与图不符,所以不能简单的把这三条曲线理解成这三个三次函数的图像表示。那两者到底是什么关系呢?
以第三 ...
基数不是前一年的值,也不是之前任何一年的值。根据 RR 的意义,基数是 without exposure 的值
回复 在美一方 2015-3-17 11:46
ImYoona: 泛泛而论,要说明柴没曲解论文比说明方曲解柴图或论文图困难因为
首先两图的纵坐标的含义是否一致?
1)如果不同的话,那为何两图下面的两条曲线几乎相同?
2) ...
1. 相同的纵坐标,原文是 percent increase (%), 柴图是 “增长百分比”,见图上方说明

2. 当然应该一致
2a。 因为是不同的拟合函数,针对相同的数据点
2b n/a

3. 柴图里面没有标pm2.5

4. n/a

facelist

您需要登录后才可以评论 登录 | 注册

 留言请遵守道德与有关法律,请勿发表与本文章无关的内容(包括告状信、上访信、广告等)。
 所有留言均为网友自行发布,仅代表网友个人意见,不代表本网观点。

关于我们| 节目信息| 反馈意见 | 联系我们| 招聘信息| 返回手机版| 美国中文网

©2024  美国中文网 Sinovision,Inc.  All Rights Reserved. TOP

回顶部