注册 登录
美国中文网首页 博客首页 美食专栏

ImYoona //www.sinovision.net/?70618 [收藏] [复制] [分享] [RSS] txgz999@yahoo.com

分享到微信朋友圈 ×
打开微信,点击底部的“发现”,
使用“扫一扫”即可将网页分享至朋友圈。

柴静视频中图示的解读

热度 8已有 20339 次阅读2015-3-14 16:16 分享到微信

3/6/2015 方舟子最初的推特
https://mobile.twitter.com/fangshimin/status/573734653351174144

柴静视频中图示的解读_图3-1

柴静视频中图示的解读_图3-2



柴静视频中图示的解读_图3-3

柴静视频中图示的解读_图3-4


高清版:柴静雾霾调查:穹顶之下
https://www.youtube.com/watch?v=xbK4KeD2ajI

柴静视频中图示的解读_图3-5

柴静视频中图示的解读_图3-6

柴静视频中图示的解读_图3-7

柴静视频中图示的解读_图3-8

柴静视频中图示的解读_图3-9

柴静视频中图示的解读_图3-10


柴​静​雾​霾​调​查​片​《​穹​顶​之​下​》​中​有​争​议​的​“​中​科​院​给​我​们​提​供​的​测​算​显​示​,​当​P​M​2​.​5​的​值​升​高​的​时​候​,​人​群​的​死​亡​率​是​随​之​上​升​的​.​.​.​”​引​用​图​表​原​论​文​。​中​科​院​大​气​物​理​研​究​所​、​北​大​医​学​院​等​单​位​做​的​【​北​京​大​气​颗​粒​物​粒​级​对​死​亡​率​影​响​的​时​间​序​列​分​析​】​。
Time-series analysis of mortality effects from airborne particulate matter size fractions in Beijing


3月19日补充:

蒙枪枪垂问,勉为其难的了解了一下柴静视频中一个有关P​M​2​.​5值和死亡率关系的图示引发的争论。

初读之下我有这样三个疑问:
1)柴静说'当PM2.5值升高的时候',是在说2005-2009的实际情况,还是在说一种与事实不同的假设状态?
2)为何三条曲线和三个三次函数的值不匹配?
3)为何柴静的最上面一条曲线与论文图完全不同?

看了柴静视频的那个片段,通读了原始论文以及方舟子和岳东晓的相关博文,最主要是靠了一剑和枪枪两位好友的点拨,感觉现在基本理解了该图示的意思。所以我来用自己的语言来谈谈我的理解。

柴静图是基于原始论文及其中的图6。这图说的是2005至2009年北京市的PM2.5值对三种常见死亡原因(循环系统,呼吸系统,非意外事故)的死亡率的影响,更明确的说是测算在每天PM2.5值增加10时,这三种死亡率的增加幅度。

有意思的是当考虑PM2.5值对死亡率的影响时,作者并没有直接比较那些年份间PM2.5的大小和死亡率的大小的关系,在论文中甚至没列出那些年的死亡率,而是估算了一个假设的问题,在同一时间段如果PM2.5增加10,死亡率会有多大变化?

论文作者在北京某北三环和北四环之间的密集居住区的某个点上持续5年测量了每天的PM2.5值,又用了国家机构提供的北京市每天各种死亡原因的死亡数数据。具体的测算方式据作者说是基于时间序列分析,我没学过这个理论,但如果我有一年365天每天的死亡数和PM2.5值,我会如何估算呢?我们知道这些PM2.5的值大致是几十多的有一百多。所以在这365个数组里,会有一些两组两组的能成为一对,它们的PM2.5值会相差将近10。我们就计算对应的死亡数的增长率,然后把每对所得的死亡数的增长率做个平均,就得到一年的估算值。

这样我们就有了这五年每年这三种常见死亡原因的死亡率的增长率的估算值,然后用曲线拟合来描述这个增长趋势,这是个简单的数学问题,就是如何选取一定次数的多项式曲线来尽可能的和给定的样品点拟合,这在数学上称为最小二乘曲线拟合 (curve fitting in the least-squares sense) http://read.pudn.com/downloads144/ebook/629385/minleast.doc, 我们可以用一个拟合度(R^2值)来衡量这种拟和程度,这值最大是1,当曲线经过所有样品点时达到。

论文图用的是四次曲线来拟合五年的数值,所以拟合度达到1,而柴静的图用的是三次曲线来拟合五年的数值。这说明柴静图和论文图曲线的不同是因为前者用三次曲线吻合而后者用四次曲线,至少从数学上讲两者都是正确的结果。当然从这个具体问题看,也许可以说由于样品点的上下波动,三次曲线难以和样品点有很好的吻合,应该用四次曲线来吻合更合适。当然是不是需要用四次曲线来拟合又和想要得到的结论有关,在论文中强调的一点是2008年北京奥运会前对空气污染的控制,那用四次曲线就很有必要。而柴静要说明"当​P​M​2​.​5​的​值​升​高​的​时​候​,​人​群​的​死​亡​率​是​随​之​上​升​的​",那用三次曲线来拟合也能行,事实上曲线拟合都不需要,因为这五年每年的死亡率测算结果都说明了这个结论。

也许有人会认为"当​P​M​2​.​5​的​值​升​高​的​时​候​,​人​群​的​死​亡​率​是​随​之​上​升​的​"这样一个结论是显而易见无需论证的,其实也许也不尽然,因为同一篇论文还发现了P​M​2​.​5​-10的​值​的升​高对​人​群​的​死​亡​率​没明确影响。

回到我前几天不解的问题。这图利用的北京PM2.5值是虚拟的吗?也是也不是。大致上讲它是在比较那五个年度PM2.5值(76,84, 78, 69, 65)时的死亡率和这些值增加10,即(86, 94,88,79,75)时的通过上述估算的死亡率的增长率。(在我前面的土测算法里严格的讲不一定就是这些数如76和86,而是那些对中大的半部分的平均和小的半部分的平均。所以也可能是比如75和85,相差一定是10。)

那么柴静说的当PM2.5值升高时死亡率是随之上升的是如何体现在图上的呢?这条曲线完全在横坐标的上方,所以每年(即每个横坐标点)都是一个证明柴静这句话的例子。前几天我一直以为柴静说的当P​M​2​.​5值升高指的是横向,即如果按年份不断增长,现在才知道是指同一时间如果PM2。5值高一些的话会对死亡率造成的影响。

记得推特或新语丝里有评论说图上显示的每年的死亡率数据,为何要提每天死亡率?当我们了解了估算的途径后就知道光有年死亡率是没法进行估算的。

还有论文图里标的每年的P​M​2​.​5值并不是官方的北京市数值,而且官方也没公布过这几年的数据(除2005年外)。这个数据就是依据作者在北京某处的逐日观察结果。

最后总结一下我对柴静图和论文图不同的理解。之所以不同是因为前者用的是三次曲线拟合而后者用的是四次曲线拟合。对于柴静想说明的结论"当​P​M​2​.​5​的​值​升​高​的​时​候​,​人​群​的​死​亡​率​是​随​之​上​升​的​"而言,拟合都是多余,每年的测算值都是正的本身就说明了柴静的结论。

柴静视频中图示的解读_图3-11



免责声明:本文中使用的图片均由博主自行发布,与本网无关,如有侵权,请联系博主进行删除。







鲜花
3

握手

雷人

路过

鸡蛋

刚表态过的朋友 (3 人)

发表评论 评论 (183 个评论)

回复 方枪枪 2015-3-21 23:23
岳东晓: 图6显示,PM值增加10, CM病死亡增加 1.38%。 PM值200, 死亡增加 26%,这是一个推算结果。

实际数据显示,2008年CM病死亡率比2007年增加了9%。

论文中研究的 ...
我拨冗解释一下,这里的朋友们学你说话,用“拨冗”,都是粉拳。人都相当奈斯啊 你可以请他们拨冗讲一下与造假有关的。
回复 在美一方 2015-3-21 23:21
方枪枪: 这里有三个概念:1. CM 病死率;2. CM死亡人数; 3. CM占死亡人数的%

现在的情况是,CM病死率是下降的,owing to advanced healthcare tech and delivery and ed ...
    是啊是啊,如果现在病死率还是上升的,我们都扎脖子算了
回复 在美一方 2015-3-21 23:19
这个是meta-analysis,没有自己取样
回复 在美一方 2015-3-21 23:15
冗得厉害,拨不开了  
回复 方枪枪 2015-3-21 23:14
在美一方: 医疗保健水平的升高就被你一下子给抹杀了吗?
这里有三个概念:1. CM 病死率;2. CM死亡人数; 3. CM占死亡人数的%

现在的情况是,CM病死率是下降的,owing to advanced healthcare tech and delivery and education
但是,CM死亡人数是上升的,因为得CM的人在急剧上升
所以,常常会很诡异的数字搀和在一起.
回复 ImYoona 2015-3-21 22:58
在美一方: 终于“拨冗”读了(不仅仅是看了)论文,感觉问题多多,真是毛病多多,当然,这就超出了我们原本讨论柴静是不是改动论文数据/图表的问题了

最晕菜的一句话就是 ...
再拨冗看看这篇
http://thorax.bmj.com/content/early/2014/04/04/thoraxjnl-2013-204492.full.pdf
回复 在美一方 2015-3-21 22:57
评论一句(这个与柴静无关,我们提倡冤有头债有主),任何模型推算都不能超出其适用数据空间,除非有极好的 a prior knowledge 来支持超出其数值空间的外插。
回复 在美一方 2015-3-21 22:54
终于“拨冗”读了(不仅仅是看了)论文,感觉问题多多,真是毛病多多,当然,这就超出了我们原本讨论柴静是不是改动论文数据/图表的问题了

最晕菜的一句话就是岳掌门那句“图6显示,PM值增加10, CM病死亡增加 1.38%。 PM值200, 死亡增加 26%,这是一个推算结果。”

能不能告诉我这是谁做的推算?
回复 在美一方 2015-3-21 20:42
ImYoona: 哦,原来2005-2009年的死亡率是下降的,我猜主要原因是涌入北京的外来人口大多是青壮年。不过不管是什么原因,在死亡率和PM2.5值都在下降(PM2.5值除2005年外) ...
医疗保健水平的升高就被你一下子给抹杀了吗?
回复 岳东晓 2015-3-21 20:13
随笔: “41%”,有这么大的比重。我是外行,以前只觉得雾霾和呼吸道系统的病,肺病有关,不知对心血管病也有影响。如果有这么大的死亡比例,真不可小视。
感觉你引的柴 ...
图6显示,PM值增加10, CM病死亡增加 1.38%。 PM值200, 死亡增加 26%,这是一个推算结果。

实际数据显示,2008年CM病死亡率比2007年增加了9%。

论文中研究的雾霾“即时”作用,应该是对濒死人群的作用。长期的效果,正如你所说的,应该统计病人数,而不是死亡数。
回复 岳东晓 2015-3-21 20:11
ImYoona: 哦,原来2005-2009年的死亡率是下降的,我猜主要原因是涌入北京的外来人口大多是青壮年。不过不管是什么原因,在死亡率和PM2.5值都在下降(PM2.5值除2005年外) ...
我只看了视频的前几分钟。那段话是网上文字版里的。文字版可能跟视频不同?
回复 随笔 2015-3-21 19:40
岳东晓: 我补充一点。柴静的具体陈述是:“这是中科院做的一个测算,他们有一个简单的结论,pm2.5上升到200微克每立方米的时候,我们各种呼吸系统疾病,和心血管系统的疾 ...
“41%”,有这么大的比重。我是外行,以前只觉得雾霾和呼吸道系统的病,肺病有关,不知对心血管病也有影响。如果有这么大的死亡比例,真不可小视。
感觉你引的柴静的话也有点言过其实,如果说雾霾上升,发病人,住院的人增加20%好像还说的过去。雾霾上升高直接导致两种病死亡率增加26%,这也太恐怖了,比SAS病毒还可怕。我的话没有依据,只是凭感觉说的。
回复 岳东晓 2015-3-21 19:35
随笔: 开始我也误读了那个图,以为红线是雾霾上升曲线,下面的白线是死亡率和死亡率变化的曲线,所以没搞清大家在讨论什么。为什么要把一条线改为红色的? ...
实际数据我们现在更清楚了
(1)北京总死亡率在降低(在美数据);(2)但心脑血管病导致的死亡率在直线上升(我文中引用的心脑血管病死亡数据)。

也就是说心血管病死亡占全部死亡的比例在增加。

而中科院的统计分析表明雾霾PM2.5增加10,CM病死亡率增加 1.38%。
回复 随笔 2015-3-21 19:25
ImYoona: 哦,原来2005-2009年的死亡率是下降的,我猜主要原因是涌入北京的外来人口大多是青壮年。不过不管是什么原因,在死亡率和PM2.5值都在下降(PM2.5值除2005年外) ...
开始我也误读了那个图,以为红线是雾霾上升曲线,下面的白线是死亡率和死亡率变化的曲线,所以没搞清大家在讨论什么。为什么要把一条线改为红色的?
回复 ImYoona 2015-3-21 17:51
在美一方: 添油加醋地加一张图,北京市10年来的死亡率变化
[img]http://im1.shutterfly.com/media/47a5dd00b3127cdc5962c93ccc0900000010O01AYt3DFs1cMQe3bjo/cC/f%3D0/ls% ...
哦,原来2005-2009年的死亡率是下降的,我猜主要原因是涌入北京的外来人口大多是青壮年。不过不管是什么原因,在死亡率和PM2.5值都在下降(PM2.5值除2005年外)的实际情况下,说'当PM2.5的值升高的时候,人群的死亡率是随之上升的'很容易误导听众。而且这图本身也是很误导人的,任谁看到一条不断上升的线(或三条整体上升的线)配合她那时说的话都会以为那几条线指的那几年死亡率在不断上升,而且是由于那些年PM2.5值的上升引起的。

我看到当柴静展示那张图的时候,她口里说的是"这个是中科院给我们提供的测算。这个复杂的图表显示的是,当PM2.5的值升高的时候,人群的死亡率是随之上升的。这个趋势的测算很多科研机构都做过",见我博文里的截屏,接下来画面就变了,她也说起陈竺的话了。岳东晓引的话应该不是在她展示这图时说的,除非同样一副图她展示了两次。
回复 岳东晓 2015-3-21 17:24
随笔: 如果柴静的话来自上句话的翻版,这里的误区就更大了。论文中说的是两种疾病和非意外事故死亡和雾霾的关系,而柴静说的是全部人口死亡数,这是totally完完全全不 ...
我补充一点。柴静的具体陈述是:“这是中科院做的一个测算,他们有一个简单的结论,pm2.5上升到200微克每立方米的时候,我们各种呼吸系统疾病,和心血管系统的疾病死亡率会 增加14%到26%”。

“当pm2.5值升高的时候,人群的死亡率是随之上升的。” 的一般性陈述,我的理解是这是在其他因素不变的情况下,否则这句话就不 make sense了。BTW:中国心脑血管病死亡人数占总死亡人数的41%。
回复 在美一方 2015-3-21 17:20
添油加醋地加一张图,北京市10年来的死亡率变化


link is here, you can select the location, years and outcome: http://calendar.hexun.com/area/dqzb_110000_D0070000.shtml
回复 随笔 2015-3-21 17:06
岳东晓: 谢谢回复。论文图6的说明文字有误,因此,我对图6的最初理解与图6实际含义不符,这我在前面列出的总结文说明了。论文及图6的正确理解应该参照 http://zzwave.com ...
我也是柴静这个演讲的支持者,中国太需要有人出来做这件事,她至少是一个敢于站出来说话的人。
回复 随笔 2015-3-21 16:54
ImYoona: 关于"我还是不太明白你这篇论文中最后的结论,我看不出你说的规律",其中一个在Abstract里提到的重要结论是(就是我们在讨论论文中的图6所显示的)
--------- ...
如果柴静的话来自上句话的翻版,这里的误区就更大了。论文中说的是两种疾病和非意外事故死亡和雾霾的关系,而柴静说的是全部人口死亡数,这是totally完完全全不同的两个概念。简单地说,你能算出两种疾病和非意外事故死亡人数占人口死亡数的比例有多大吗,如果超过50%,也许会有这么大影响,低于5%三种死亡的变化基本不会影响整个人口的变化。
概念是不可以随便改滴,随意改,科学的结论会变成伪科学的结论。
回复 岳东晓 2015-3-21 16:37
随笔: 刚看了你的文章,对论文的看法我们没有什么分歧,我也认为这是一篇做过大量数据研究,运用了科学的统计方法,严谨且又通俗易懂的论文。文中列出了大量的统计数据 ...
谢谢回复。论文图6的说明文字有误,因此,我对图6的最初理解与图6实际含义不符,这我在前面列出的总结文说明了。论文及图6的正确理解应该参照 http://zzwave.com/home.php?mod=space&uid=2&do=blog&id=28585 之后的说法。图6是计算出的雾霾PM2.5的”毒性“。

柴静的图与论文图有两个明显不同:(1)去掉了上面各年的PM值平均值;(2)最上面一条曲线由起伏改成了单调增。

现在的问题是,这两个不同(1)是否会改变结论;(2)是否能说明柴静意图作假。

我的分析表明,(1)这两个改动对结论没有任何影响,实际上保留上面的黑柱雾霾信息可以加强柴静的说法; (2) 除非柴静与方舟子对原图理解相同,没有理由说明柴静作假,但证据显示,柴静正确理解了论文(她根据图6数据进行了假设性举例)。

至于方舟子从我对死亡率直线上升观点作出的北京人几年会死光的推论,这是一个与主题无关的衍生问题。我的回应是:(1)直线上升不等于垂直上升,上升速度取决于坡度;(2)2006-2009直线上升,不等于最终死亡率会达到100%。

facelist

您需要登录后才可以评论 登录 | 注册

 留言请遵守道德与有关法律,请勿发表与本文章无关的内容(包括告状信、上访信、广告等)。
 所有留言均为网友自行发布,仅代表网友个人意见,不代表本网观点。

关于我们| 节目信息| 反馈意见 | 联系我们| 招聘信息| 返回手机版| 美国中文网

©2024  美国中文网 Sinovision,Inc.  All Rights Reserved. TOP

回顶部