注册 登录
美国中文网首页 博客首页 美食专栏

ImYoona //www.sinovision.net/?70618 [收藏] [复制] [分享] [RSS] txgz999@yahoo.com

分享到微信朋友圈 ×
打开微信,点击底部的“发现”,
使用“扫一扫”即可将网页分享至朋友圈。

柴静视频中图示的解读

热度 8已有 20345 次阅读2015-3-14 16:16 分享到微信

3/6/2015 方舟子最初的推特
https://mobile.twitter.com/fangshimin/status/573734653351174144

柴静视频中图示的解读_图8-1

柴静视频中图示的解读_图8-2



柴静视频中图示的解读_图8-3

柴静视频中图示的解读_图8-4


高清版:柴静雾霾调查:穹顶之下
https://www.youtube.com/watch?v=xbK4KeD2ajI

柴静视频中图示的解读_图8-5

柴静视频中图示的解读_图8-6

柴静视频中图示的解读_图8-7

柴静视频中图示的解读_图8-8

柴静视频中图示的解读_图8-9

柴静视频中图示的解读_图8-10


柴​静​雾​霾​调​查​片​《​穹​顶​之​下​》​中​有​争​议​的​“​中​科​院​给​我​们​提​供​的​测​算​显​示​,​当​P​M​2​.​5​的​值​升​高​的​时​候​,​人​群​的​死​亡​率​是​随​之​上​升​的​.​.​.​”​引​用​图​表​原​论​文​。​中​科​院​大​气​物​理​研​究​所​、​北​大​医​学​院​等​单​位​做​的​【​北​京​大​气​颗​粒​物​粒​级​对​死​亡​率​影​响​的​时​间​序​列​分​析​】​。
Time-series analysis of mortality effects from airborne particulate matter size fractions in Beijing


3月19日补充:

蒙枪枪垂问,勉为其难的了解了一下柴静视频中一个有关P​M​2​.​5值和死亡率关系的图示引发的争论。

初读之下我有这样三个疑问:
1)柴静说'当PM2.5值升高的时候',是在说2005-2009的实际情况,还是在说一种与事实不同的假设状态?
2)为何三条曲线和三个三次函数的值不匹配?
3)为何柴静的最上面一条曲线与论文图完全不同?

看了柴静视频的那个片段,通读了原始论文以及方舟子和岳东晓的相关博文,最主要是靠了一剑和枪枪两位好友的点拨,感觉现在基本理解了该图示的意思。所以我来用自己的语言来谈谈我的理解。

柴静图是基于原始论文及其中的图6。这图说的是2005至2009年北京市的PM2.5值对三种常见死亡原因(循环系统,呼吸系统,非意外事故)的死亡率的影响,更明确的说是测算在每天PM2.5值增加10时,这三种死亡率的增加幅度。

有意思的是当考虑PM2.5值对死亡率的影响时,作者并没有直接比较那些年份间PM2.5的大小和死亡率的大小的关系,在论文中甚至没列出那些年的死亡率,而是估算了一个假设的问题,在同一时间段如果PM2.5增加10,死亡率会有多大变化?

论文作者在北京某北三环和北四环之间的密集居住区的某个点上持续5年测量了每天的PM2.5值,又用了国家机构提供的北京市每天各种死亡原因的死亡数数据。具体的测算方式据作者说是基于时间序列分析,我没学过这个理论,但如果我有一年365天每天的死亡数和PM2.5值,我会如何估算呢?我们知道这些PM2.5的值大致是几十多的有一百多。所以在这365个数组里,会有一些两组两组的能成为一对,它们的PM2.5值会相差将近10。我们就计算对应的死亡数的增长率,然后把每对所得的死亡数的增长率做个平均,就得到一年的估算值。

这样我们就有了这五年每年这三种常见死亡原因的死亡率的增长率的估算值,然后用曲线拟合来描述这个增长趋势,这是个简单的数学问题,就是如何选取一定次数的多项式曲线来尽可能的和给定的样品点拟合,这在数学上称为最小二乘曲线拟合 (curve fitting in the least-squares sense) http://read.pudn.com/downloads144/ebook/629385/minleast.doc, 我们可以用一个拟合度(R^2值)来衡量这种拟和程度,这值最大是1,当曲线经过所有样品点时达到。

论文图用的是四次曲线来拟合五年的数值,所以拟合度达到1,而柴静的图用的是三次曲线来拟合五年的数值。这说明柴静图和论文图曲线的不同是因为前者用三次曲线吻合而后者用四次曲线,至少从数学上讲两者都是正确的结果。当然从这个具体问题看,也许可以说由于样品点的上下波动,三次曲线难以和样品点有很好的吻合,应该用四次曲线来吻合更合适。当然是不是需要用四次曲线来拟合又和想要得到的结论有关,在论文中强调的一点是2008年北京奥运会前对空气污染的控制,那用四次曲线就很有必要。而柴静要说明"当​P​M​2​.​5​的​值​升​高​的​时​候​,​人​群​的​死​亡​率​是​随​之​上​升​的​",那用三次曲线来拟合也能行,事实上曲线拟合都不需要,因为这五年每年的死亡率测算结果都说明了这个结论。

也许有人会认为"当​P​M​2​.​5​的​值​升​高​的​时​候​,​人​群​的​死​亡​率​是​随​之​上​升​的​"这样一个结论是显而易见无需论证的,其实也许也不尽然,因为同一篇论文还发现了P​M​2​.​5​-10的​值​的升​高对​人​群​的​死​亡​率​没明确影响。

回到我前几天不解的问题。这图利用的北京PM2.5值是虚拟的吗?也是也不是。大致上讲它是在比较那五个年度PM2.5值(76,84, 78, 69, 65)时的死亡率和这些值增加10,即(86, 94,88,79,75)时的通过上述估算的死亡率的增长率。(在我前面的土测算法里严格的讲不一定就是这些数如76和86,而是那些对中大的半部分的平均和小的半部分的平均。所以也可能是比如75和85,相差一定是10。)

那么柴静说的当PM2.5值升高时死亡率是随之上升的是如何体现在图上的呢?这条曲线完全在横坐标的上方,所以每年(即每个横坐标点)都是一个证明柴静这句话的例子。前几天我一直以为柴静说的当P​M​2​.​5值升高指的是横向,即如果按年份不断增长,现在才知道是指同一时间如果PM2。5值高一些的话会对死亡率造成的影响。

记得推特或新语丝里有评论说图上显示的每年的死亡率数据,为何要提每天死亡率?当我们了解了估算的途径后就知道光有年死亡率是没法进行估算的。

还有论文图里标的每年的P​M​2​.​5值并不是官方的北京市数值,而且官方也没公布过这几年的数据(除2005年外)。这个数据就是依据作者在北京某处的逐日观察结果。

最后总结一下我对柴静图和论文图不同的理解。之所以不同是因为前者用的是三次曲线拟合而后者用的是四次曲线拟合。对于柴静想说明的结论"当​P​M​2​.​5​的​值​升​高​的​时​候​,​人​群​的​死​亡​率​是​随​之​上​升​的​"而言,拟合都是多余,每年的测算值都是正的本身就说明了柴静的结论。

柴静视频中图示的解读_图8-11



免责声明:本文中使用的图片均由博主自行发布,与本网无关,如有侵权,请联系博主进行删除。







鲜花
3

握手

雷人

路过

鸡蛋

刚表态过的朋友 (3 人)

发表评论 评论 (183 个评论)

回复 在美一方 2015-3-17 11:41
ImYoona: 明白了,看来我忽视了些重要的东西,特别是对图中纵坐标的理解。你和枪枪都解释过了,我这两天再看看。
看到你之前还有一些误解的地方
回复 在美一方 2015-3-17 11:39
ImYoona: 看到你和一剑同时说到了些我不知道的东西,这两天我再看看。还有在三个公式右面还有几个关于R平方的值,这个R平方就是你们在说的那个RR吗? ...
They are totally different things

RR= Relative Risk

R^2 = R squared, is a measure of the goodness of fit when fitting a curve to data points.
回复 ImYoona 2015-3-17 06:51
杨敏娟,潘小川, 北京市大气污染与居民心脑血管疾病死亡的时间序列分析
环境与健康杂志 2008,25(4)
http://wenku.baidu.com/view/8da7b353be23482fb4da4c8d.html
回复 ImYoona 2015-3-16 23:16
方枪枪: 4)如果这图是在2005-2009北京PM2.5的值在不断升高的前提下做成的,我认为那这个前提只能是虚拟的,因为2006-2010北京PM2.5的值是不断下降的。 ...
看到你和一剑同时说到了些我不知道的东西,这两天我再看看。还有在三个公式右面还有几个关于R平方的值,这个R平方就是你们在说的那个RR吗?
回复 ImYoona 2015-3-16 23:08
在美一方: 很简单的啊

关于1)的1-4

1. 不能
2. 不是,而是根据真实死亡人数所做的模型推测,推测PM2.5的影响
3. 非常难说,因为“当PM2.5的值升高的时候”,我不知道怎 ...
明白了,看来我忽视了些重要的东西,特别是对图中纵坐标的理解。你和枪枪都解释过了,我这两天再看看。
回复 方枪枪 2015-3-16 23:02
ImYoona: 枪枪把我吓坏了。你给我单独办个小学生班吧。等你有空时给我解释解释。

关于1),柴静在展示这副图时是这么说的"这个是中科院给我们提供的测算。这个复杂的图 ...
4)如果这图是在2005-2009北京PM2.5的值在不断升高的前提下做成的,我认为那这个前提只能是虚拟的,因为2006-2010北京PM2.5的值是不断下降的。不光那篇论文里这么说,我看新闻报道里也这么
----------------------------
我读岳东晓的博文,我觉得他是这个意思,P2.5升高是一个假设.因此抹去柱形图没有影响.(柱形图是表示的近几年的实际情况) 对于论文的结论,当PM2.5升高时,人群的死亡率是随之上升的,这个没有什么大的关系.
回复 在美一方 2015-3-16 22:57
ImYoona: 枪枪把我吓坏了。你给我单独办个小学生班吧。等你有空时给我解释解释。

关于1),柴静在展示这副图时是这么说的"这个是中科院给我们提供的测算。这个复杂的图 ...
很简单的啊

关于1)的1-4

1. 不能
2. 不是,而是根据真实死亡人数所做的模型推测,推测PM2.5的影响
3. 非常难说,因为“当PM2.5的值升高的时候”,我不知道怎么定义的,因为RR的定义是针对 no exposure的,这样的话,只要出现数据点,就是 with exposure vs no exposure。任何 exposure 相当于 no exposure 都可以考虑成升高。但是,她这句话也有已经有 exposure 了再在此加上更多的 exposure ,这样也可以认为是“当PM 2.5 的值升高的时候”,所以我要看原文或者相关类似的论文中间的 M&M
4. 这个理解在我看来是不对的,参见3
回复 ImYoona 2015-3-16 22:40
在美一方: 哎,现在我这个科学家在之前被加上“伪”字之后又有了新的限定词,“丧尽天良无耻”,所以 my new complete title iiiiiiiiiiiis: 丧尽天良无耻的伪科学家  [em: ...
枪枪把我吓坏了。你给我单独办个小学生班吧。等你有空时给我解释解释。

关于1),柴静在展示这副图时是这么说的"这个是中科院给我们提供的测算。这个复杂的图表显示的是,当PM2.5的值升高的时候,人群的死亡率是随之上升的。这个趋势的测算很多科研机构都做过。",参见我新加的截屏。

我的问题是
1)从这副图上如何能看出"当PM2.5的值升高的时候,人群的死亡率是随之上升的"?
2)图上这些死亡率是北京2005至2009年的真实数据吗?
3)这图的哪一段显示的是"PM2.5的值升高的时候"?
4)如果这图是在2005-2009北京PM2.5的值在不断升高的前提下做成的,我认为那这个前提只能是虚拟的,因为2006-2010北京PM2.5的值是不断下降的。不光那篇论文里这么说,我看新闻报道里也这么讲。http://news.sciencenet.cn/htmlnews/2012/1/258264.shtm
5)如果这图是在2005-2009北京2.5值升高的虚拟假设下做出的,那我反而觉得论文图很confusing的,因为它在上方把真实的PM2.5值标在那里
回复 在美一方 2015-3-16 21:34
方枪枪: 忙也玩玩吧,边玩边探索这那的:)
这样挺好,不想把对错看得太严重,成了逞强,摆出理由来说别人大错特错这没什么,谁都可以适当取笑对手,但在不摆理由的前提 ...
你太天真了,尊重不同意见的人,需要的不仅仅是人品,还有最基本的学识。没知识的人勉为其难地尊重一下别人也憋屈,所以憋着憋着就不得不放点儿。
回复 ImYoona 2015-3-16 21:13
方枪枪: percent increase的意思的确费解,这应该是个相对值,而不是绝对值,因为如果是绝对数的话,应该要在图上标明单位(如说这是每百万人口里的死亡人数)。方的理解 ...
   不得了,你说的这些我闻所未闻,我得去查文献了,等周末有空的话请再回来赐教。
回复 方枪枪 2015-3-16 20:34
在美一方: 我也忙啊,最近招千老,今天在权衡办H-1值不值呢
忙也玩玩吧,边玩边探索这那的:)
这样挺好,不想把对错看得太严重,成了逞强,摆出理由来说别人大错特错这没什么,谁都可以适当取笑对手,但在不摆理由的前提下注重于谁大错特错,是要摁倒别人,把可能出现错误的一方看作是一种羞辱,这个心态不好
希望路过的网友或当事方也这样想,大家讨论这个问题是个兴趣和对社会热点的关注。不要太注重对错输赢,换句话说发表了相关具体文章的人(包括计算和推断),都是有自己的思考方式的,值得尊重,即使任何一个对相关理解有错,他们敢发表出来也是对自己学识的自信,受过相关教育才有这个自信。
回复 在美一方 2015-3-16 20:21
方枪枪: 兄弟我病了,这两天你多动脑筋哈,
我也忙啊,最近招千老,今天在权衡办H-1值不值呢
回复 方枪枪 2015-3-16 20:18
在美一方: 柴和原文图的横轴都是年度。因为原文没有这个三次曲线,所以我完全不知道柴静的三次曲线是对什么的拟合。你用值域[1,5]得到相当近似的曲线,那么说明柴静的三次 ...
兄弟我病了,这两天你多动脑筋哈,
回复 方枪枪 2015-3-16 20:15
ImYoona: 通读了一下论文。

inter-annual variability 年际变化率
NAM:non-accidental mortality 非意外事故死亡率
RM:resptratory mortality 呼吸道疾病死亡率
CM:ci ...
percent increase的意思的确费解,这应该是个相对值,而不是绝对值,因为如果是绝对数的话,应该要在图上标明单位(如说这是每百万人口里的死亡人数)。方的理解是这是对于一个基数(但是是什么基数呢?),估计是指同一个基数,所以说死亡率和死亡率的增长几乎是一回事,就是个不同比例的问题。而岳的理解是对前一年的增长(或者说前一年是基数),也就是每年的基数不同。岳认为方说的死亡率就是死亡数的意思,这是否是方的原意呢?
----------------------------------------------------------------
我也一直在费解。我觉得方是对的。
RR = P(when exposed)/P(when no exposure)
P = probability   这个是原始定义

方只是在有人问基数是什么的时候提到了这个定义。
他很明白这是rr
所以基数就是 when no exposure,这是最基础的定义
了解流行病学的,看到RR就知道什么是基数。所以他取笑了对手。
原文用的就是RR,相对明确
只是这个是频度公式,原文不是用频度倍数表示的,是用了% change。
这个最常用的是简单关系,比如说吸烟人相对不吸烟的,得肺癌几率是30倍。

其实也说明危险和吸烟相比,真的非常小,因为吸烟的RR用% increase就是个大数了

打假秘书天香,这方面接下来的交给一剑/在美来回答,毕竟这是他专业领域的事,我是基于自己的理解和查文献。
回复 在美一方 2015-3-16 19:47
ImYoona: 哦,不知科学家秘书是否同意?

我用网上画三次曲线的工具(https://www.graphsketch.com)把这三个三次曲线画出来了。X的范围是从1到5,Y的范围是从0 ...
柴和原文图的横轴都是年度。因为原文没有这个三次曲线,所以我完全不知道柴静的三次曲线是对什么的拟合。你用值域[1,5]得到相当近似的曲线,那么说明柴静的三次曲线以年度为自变量呢,2005年作为第一年。

果如此,柴静的曲线就表示三个outcomes随年度的变化。
回复 ImYoona 2015-3-16 19:18
在美一方: OK,明白了。

三次曲线的值域随自变量的变化而变化得非常剧烈,所以你取1、2、3、4、5,如果不是原来拟合时候的定义域,会完全不一样。

原文没有看到这个3次曲 ...
哦,不知科学家秘书是否同意?

我用网上画三次曲线的工具(https://www.graphsketch.com)把这三个三次曲线画出来了。X的范围是从1到5,Y的范围是从0到2。你看看和柴静的图像不象?

0.02x^3-0.28x^2+1.46x-0.87
0.07x^3-0.70x^2+2.15x-1.2
0.08x^3-0.84x^2+2.63x-1.71

https://www.graphsketch.com/?eqn1_color=1&eqn1_eqn=0.02x^3-0.28x^2%2B1.46x-0.87&eqn2_color=2&eqn2_eqn=0.07x^3-0.70x^2%2B2.15x-1.2&eqn3_color=3&eqn3_eqn=0.08x^3%20-%200.84x^2%20%2B%202.63x%20-%201.71&eqn4_color=4&eqn4_eqn=&eqn5_color=5&eqn5_eqn=&eqn6_color=6&eqn6_eqn=&x_min=1&x_max=5&y_min=0&y_max=2&x_tick=5&y_tick=5&x_label_freq=1&y_label_freq=1&do_grid=0&do_grid=1&bold_labeled_lines=0&bold_labeled_lines=1&line_width=4&image_w=500&image_h=250

我的观察是形状相当接近,定义域[1,5]对应的值域也很接近。你说
1)"三次曲线的值域随自变量的变化而变化得非常剧烈",没错,但它们的驻点没有几个,所以只要图上有驻点,不难看出图中采用的自变量的取值范围
2)"原文和柴静的图都不是用X(supposedly the PM2.5 delta)做横轴来画的",不明白你的意思,那这三个公式和这三条曲线是什么关系呢?我觉得即使三条曲线不是这三个公式的图示,也就是一个很简单的线性比例的转化,不然太巧合了:
1)这三个公式是三次函数,而这三条曲线看上去也是三次曲线
2)从我上面画的图看,三个公式在自变量的取值范围[1,5]内和柴静图从形状到值域相当接近
回复 在美一方 2015-3-16 18:04
ImYoona: 在上班,先把问题2)详细的说一下,柴静图的三条曲线的右方各写着一个三次函数,见下图
[img]http://hanshan.info/data/attachment/album/201503/15/202241eq7p ...
OK,明白了。

三次曲线的值域随自变量的变化而变化得非常剧烈,所以你取1、2、3、4、5,如果不是原来拟合时候的定义域,会完全不一样。

原文没有看到这个3次曲线(也许我漏了毕竟溜得很快),所以无从知道其定义域,没法儿 examine

另外,别忘了,原文和柴静的图都不是用X(supposedly the PM2.5 delta)做横轴来画的。所以你用Excel时候别用scatter plot
回复 ImYoona 2015-3-16 10:54
在美一方: 哎,现在我这个科学家在之前被加上“伪”字之后又有了新的限定词,“丧尽天良无耻”,所以 my new complete title iiiiiiiiiiiis: 丧尽天良无耻的伪科学家  [em: ...
在上班,先把问题2)详细的说一下,柴静图的三条曲线的右方各写着一个三次函数,见下图


我将三个三次函数用1至5代入算了算,发现数值与图不符,以第三条曲线为例
y(x) = 0.08x^3 - 0.84x^2 + 2.63x - 1.71
y(1) = 0.16  (从图上看约0.2)
y(2) = 0.83  (从图上看约0.85)
y(3) = 0.78  (从图上看约0.95)
y(4) = 0.49  (从图上看约0.8)
y(5) = 0.44  (从图上看约1.02)
回复 在美一方 2015-3-16 10:31
ImYoona: 谢谢      科学家来的正好,我有好几个问题要请教。归纳一下:
1)柴静说'当PM2.5值升高的时候',是在说2005-2009的实际情况,还是在说一种与事实不同的假 ...
哎,现在我这个科学家在之前被加上“伪”字之后又有了新的限定词,“丧尽天良无耻”,所以 my new complete title iiiiiiiiiiiis: 丧尽天良无耻的伪科学家  

OK, get to the business:

1)这个我要看上下文,所以现在我只能说,不知道。不过对于你或其他仔细看过视频的人来说,可以这样判断:
如果柴说“科学家们发现,在这些年里,PM2.5升高的时候”,就是说的这些年的实际情况
如果柴说“科学家们发现,PM2.5升高的时候”,那就是模棱两可,不知道是泛指还是特指
如果柴说“中科院科学家们发现”,那么应该指她提到的中科院科学家们论文里提到的年份

2) 这个我没有看具体的拟合函数,回头我看看再回答你,具体我必须先弄明白你到底问的是什么

3) 柴最上面的一条曲线,我想你指那条红色的单调上升曲线。根据其趋势和穿过数据点的方式,我觉得她是对原数据点做了不同于原作者的数据拟合,所以会不同。

至于其它问题,我得抽时间看看你问了什么他解答了什么,还没仔细看你们的往来,不过从粗看的结果,我感觉你有些地方没理解原文,当然这并不是说,岳理解了。两码事。
回复 ImYoona 2015-3-16 06:58
在美一方: 没了,原作者group 有大概3-5篇左右相似的论文,我都看过了,没有另外比这张更接近柴静的图了。
谢谢     科学家来的正好,我有好几个问题要请教。归纳一下:
1)柴静说'当PM2.5值升高的时候',是在说2005-2009的实际情况,还是在说一种与事实不同的假设状态?
2)为何三条曲线和三个三次函数的值不匹配?
3)为何柴静的最上面一条曲线与论文图完全不同?
详见我前面的评论。

岳博士已经来赐教过了。他的话有些我前天提问题前就在他博文里看到过,其余的好像也没直接回答我的问题。不知是不是我愚钝。即便你觉得他已经回答了我的问题,也请你再给我解释一遍好吗?

facelist

您需要登录后才可以评论 登录 | 注册

 留言请遵守道德与有关法律,请勿发表与本文章无关的内容(包括告状信、上访信、广告等)。
 所有留言均为网友自行发布,仅代表网友个人意见,不代表本网观点。

关于我们| 节目信息| 反馈意见 | 联系我们| 招聘信息| 返回手机版| 美国中文网

©2024  美国中文网 Sinovision,Inc.  All Rights Reserved. TOP

回顶部