您的位置: 网界网 > 大数据 > 正文

大数据能否破解数据造假难题?

2015年08月23日 09:48:08 | 作者:中国大数据 | 来源:CIO时代网

摘要:什么是大数据分析?通俗地讲,就是运用一些数据分析软件工具,对海量的、混杂的数据进行分析,在融合丰富的实践基础上,运用创造性思维,得出突破性的结论。

标签
大数据
数据分析
监测数据造假

对话人:西安交通大学环保大数据[注]研究中心主任  林宣雄

采访人:中国环境报记者李莹

大数据可否解决数据造假问题?

■可以通过环比、同比、类比,发现数据中的异动

中国环境报:在线监测数据造假已经成为当前环境管理工作中的一大难题。一些专家认为,以大数据为代表的新技术可以破解这一难题。您怎么看?

林宣雄:我也这样认为,用大数据的分析方法可以发现在线监测数据造假。其实,这也是我的研究重点领域之一。

在解释大数据如何破解在线监测数据造假问题之前,必须先了解大数据的基本特征。

大数据是近年来的一个热词。什么是大数据分析?通俗地讲,就是运用一些数据分析软件工具,对海量的、混杂的数据进行分析,在融合丰富的实践基础上,运用创造性思维,得出突破性的结论。大数据包括3个特征:一是具有海量的、混杂的基础数据;二是熟练运用 Hadoop和Spark等分析软件工具;三是具有开放的、有创造性的思维方式。只有具备了这3项,才能真正做好大数据分析。

大数据和以前的数据分析有3个明显的区别:一是原来的数据分析针对部分样本,大数据是所有的数据都要参与计算;二是大数据中,相关关系重于因果关系;三是大数据允许混杂数据甚至错误数据。

我们得到海量数据后,首先,要对这些数据进行本体分析,即对其本身进行分析,如污染源数据、环境质量数据等。其次,要做扩展分析,如分析清楚污染源数据和环境质量有什么关系。第三,要做延伸分析,即将污染源数据、环境质量数据和经济数据、人口数据、产业结构的数据结合起来进行分析。如果不做这些分析,就不算是大数据分析,或者说做不好大数据分析。

中国环境报:您刚刚谈到,大数据允许混杂数据甚至错误数据,这是为什么?

林宣雄:大数据允许混杂数据甚至错误数据。这是因为,大数据能够通过造假数据的特征将其辨识出来。造假的数据和平常的数据不一样,可以通过环比、同比、类比,发现数据中的异动,判断企业是否存在数据造假行为。

目前,通过线上、线下数据对比,能够迅速发现企业偷排行为。一个真实的案例是,某公司焦炉烟囱二氧化硫自动监控数据长期稳定在20mg/m3。但现场人工监测发现,实际数据为100mg/m3~200mg/m3,检查前后自动监控数据差距较大。经调查证实,企业擅自拔出部分二氧化硫测量探头,使采样孔漏气,稀释排放污染物,人为干扰采样装置、降低测量数据,造成监控数据失真。针对公司的违法行为,环保局依法对企业下达了处罚决定书,对企业存在的超标排放、干扰自动监控数据行为,分别给予6万元、3万元处罚,追缴2015年第一季度焦炉烟囱二氧化硫排污费,启动按日计罚程序,公安局对涉嫌违法的主管人员和其他直接责任人作出了行政拘留10日的行政处罚。

目前,我们正通过分析数据异常波动为环保部门精准执法提供线索。例如,我们每周都要为浙江省嘉兴市环保局提供一份在线数据出现异动的企业名单,环保局可以根据这份名单,有针对性地执法检查,执法效率可大大提高。

中国环境报:据您了解国外有没有通过大数据研究,发现环保数据造假的案例?

林宣雄:目前,国外大数据在环保领域还没有典型案例。这是因为,一些发达国家的环境问题已经得到了较好解决,而大数据的概念是这几年才提出的。但大数据应用在国外有一个经典案例,值得借鉴。2009年,甲型H1N1流感暴发的几周前,谷歌公司通过对运用谷歌软件搜索流感相关信息的人群进行分析,成功地预测了流感在美国境内的传播,其分析结果甚至具体到特定的地区和州,并且非常及时,令公共卫生官员倍感震惊。因为通常来说,美国疾病控制中心要在流感暴发一两周之后才可以做到这些。

大数据拥有如此大的威力,对于环境问题十分严峻的我国来说,其应用意义更加巨大。将大数据应用于环保领域,也将成为我国的一大创新。

基础数据获得方面急需哪些突破?

■首先要形成拉直、拉真、拉准的机制

中国环境报:要进行大数据研究分析,前提是有海量数据。现在我们具备大数据分析的基础吗?

林宣雄:近年来,环保物联网的建设已经为环境大数据分析提供了一定的基础。什么是环保物联网?通俗地讲,就是将应用在环保领域的传感网挂接到互联网上就构成了环保物联网。例如,各种环境监测设备收集了大量的环境相关数据,如COD排放量、SO2排放量、空气质量等,将这些数据传到互联网上,就形成了环保物联网。

目前,我国的国控污染源已经全部联网,仅污染源一类每年全国就有近50亿条的基础数据产生,这些数据为我们进行大数据分析提供了一定基础。

中国环境报:据了解,目前我国地市级、县级污染源联网推进工作并不十分顺利,这是为什么?

林宣雄:目前的数据造假不仅是企业行为,也有政府行为。如今数据造假面临的最大的难题是地方利益和中央利益的博弈。地方不愿意往上报数据,不愿意让中央知道地方的真实情况。

因此,要通过大数据防止数据造假问题,首先要形成拉直、拉真、拉准的机制。拉直,是指地市级、县级的环保数据要联网到省、联网到国家。如果数据不能拉直,就无法判断数据是否造假。如果数据都是地方说了算,都烂在下面,也就无所谓真假了。拉直后要拉真,拉真的一个重要步骤是信息公开。数据上传后,必须把它们亮出来、晒出来。最后才是拉准。数据的准和真是两个层面的问题,如果一些仪器安装的位置不合适,数据也会不准。目前,数据联网、实现拉直是最关键的问题。

中国环境报:一些研究机构反映,目前数据收集困难重重。您认为,还有哪些方面需要突破?

林宣雄:数据收集难度大确实是很多研究者的障碍。如果能够将城市规划、经济发展等数据纳入数据库通盘分析,将会得到更加准确的结论。只有用更加混杂的数据,才能矫正错误的、混乱的数据。例如,电厂的排污数据,可以通过用煤量、发电量等数据验证。

实际工作上,我们在污染源数据的收集过程中并未遇到很大困难,因为很多省市环保局正在应用我们开发的环保物联网软件。但目前最需要的气象、水文、经济等数据却很难获得。主要原因在于:一些部门把数据当作部门的利益,不愿对外开放;一些部门怕暴露问题,不敢对外开放。

我认为,互联网的思维是开放的思维,数据必须要开放才能真正发挥作用。各部门收集到的数据都是国家的数据,必须信息公开。在这方面,各部门都要打破阻隔。只有打破阻隔(+本站微信networkworldweixin),将数据公开释放出来,才能发挥数据的效用。

中国环境报:对污染底数不清,也是环保数据利用的一个重大难题。您认为,当前有哪些数据急需收集?

林宣雄:污染源数据方面,目前只有末端的数据,也就是排放口的数据,缺乏过程的数据。如果有了生产过程的数据,如来料数据,用水、用电数据等,数据分析就能产生更大威力。此外,土壤方面相关数据也比较少。

中国环境报:很多企业认为,来料数据,用水、用电数据涉及商业机密,如何平衡数据公开与保护商业机密的关系?

林宣雄:生产过程的数据对于民营企业来说,并不涉及商业机密。只是少数的军工企业需要保密。在做相关分析时,并不需要工艺、发明等涉及商业秘密的相关数据。所谓商业机密,只是企业不愿意公开数据的借口。

大数据可否使数据分析更为科学?

■没有大数据的创新思维,即使躺在大量的数据上,也不会有突破性的结果

中国环境报:环境保护部近日表示,要大力提高数据采集、合成和综合分析能力,提高环境管理的精细化水平。现实工作中发现,如果没有运用科学的分析方法,即使有大量基础数据,也不能得出科学的结论。对此,您有何看法?

林宣雄:确实如此。现在很多人在谈大数据的概念,但其实谈的人多,做的人少,真正运用互联网思维解决实际问题的例子目前还不多。还有人认为,只要运用大数据就可以解决环境问题,这也是一个思维误区。

一方面,大数据分析需要在大量基础数据、大量实践的基础上进行。没有数据、没有物联网的高效运转,大数据分析无从谈起。

另一方面,在各种数据、各种技能都已掌握的基础上,还要有大数据的思维。根据多年的实践和对环保问题的深层理解,将混杂的数据融会贯通进行思考,才能产生思维上的突破。如果没有大数据的创新思维,即使躺在大量的数据上,也不会有突破性的结果。

现在很多地方都在做生态文明指标体系、绿色创建指标体系。但是,他们对指标的运用仍停留在传统思维层面,没有真正领会大数据的内涵,没有用系统的思维分析问题。我们近期也在做环境综合指数的相关研究,在广泛、持久、规模、专注实践的基础上,基于大数据进行哲学思辨和创新思维。运用分形(Fractal)理论,建立思维分析计算模型,反复进行推演测算对攻反证,最终获得了环保大数据研究的突破,就是所有的污染物排放控制都必须遵循环境黄金律,也就是环境容量和污染物排放的平衡点。

我认为,在做数据分析时,必须运用大数据思维,也就是系统思维,将所有的数据整合起来,找出内在规律。否则,数据分析只是一种形式,并不能真正为决策提供科学依据。

参考资料

1.大数据:(Big Data),研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 ...详情>>

[责任编辑:行云之路 yu_xiang@cnw.com.cn]

我也说几句

热点排行

云分析的未来
云分析的未来
应用案例的爆炸性增长也促进了云分析的增长。不过,真的能够确认云是IT...
Hadoop可能已经达到预期的成熟度
Hadoop可能已经达到预期的成熟度
五年前,Hadoop用可以解决所有大数据难题的身份杀入主流市场。如今尘埃...