从肝炎、流感到大数据预测疾病
7月28日是世界肝炎日。关于这一点,相信很多人或许已经从媒体、社交网站和朋友圈得知,比如百度今天就通过各种社交渠道发布了一组主题为“小心肝儿”的图片,包含了各种关于肝脏保护和使用的常识和窍门,各种有关肝炎的现状等等。
这些知识包括:世界每三个慢性肝炎患者里就有一个在中国;再比如,中国是肝炎严重流行区之一,乙肝病毒感染者的人数有1.2亿;还有,中国每年有近40万人死于肝脏疾病;以及,每饮酒一次相当于得一次轻度肝炎,等等。
但是这还远远不够。
首先,你想跨越国界,来一场说走就走的旅行?根据去年CEVHAP(亚太扑灭病毒性肝炎联盟)的数据,亚太区每30秒就有一人死于病毒性肝炎,死亡率是艾滋病的3倍,而从1990年到现在,亚太区死于病毒性肝炎的人数已经从每年70万人增长到100万人。
其次,你不进行国际旅行,但你像这个国家里一半人那样,住在城市里。贾雷德•戴蒙德在《枪炮、病菌与钢铁》中说的,很多群众性传染疾病只有在积聚起足够多的人口才可能发生,很多我们熟知的传染病出现的时间都出奇地晚,它们都源自大规模的城镇化。你总知道中国的城镇化将是最近数十年这个星球最大的奇观吧?
对于病毒性肝炎,乃至其他一系列的传染病来说,那些小贴士有用,但是不足够有用。非常年代,你需要在过去的经验中非常陌生、但未来会对你非常有用的工具:大数据。
为何要在肝炎日谈大数据?
上面已经说过,世卫组织从2011年起设立世界肝炎日,绝非只因为这天是空闲的。人们并不重视肝炎,一方面是由于肝炎并不像其他一些病毒那样致命和传播快速、普遍,另一方面则是由于肝炎具备一些特征,例如只有部分疫苗,以及非季节性和非飞沫传播等,使其并不那么容易预防。
但是你应该比之前更重视它,因为第一它是很严重的传染疾病,其二是因为我们现在有了更好的工具:大数据。相信我,红极一时的《大数据时代——生活、工作与思维的大变革》一书,就是源于谷歌使用大数据对2009年甲型H1N1流感的成功预测。作者在引言中说,“这是当今社会所独有的一种新型能力,以一种前所未有的方式,通过对海量数据进行分析,获得有巨大价值的产品和服务,或深刻的洞见”。
具体到肝炎,尽管从百年前发现肝炎病毒和部分疫苗以来,人类在医学上的进展屈指可数,但除了打疫苗和切断传播途径、远离易感人群,其实还有另外一种积极的预防方法——那就是上述“深刻的洞见”,养成使用大数据分析工具的习惯,经常性地了解所在地或目的地的流行病情况,尽可能地远离高危的传染源发地。
目前可供个人使用的大数据工具主要有两类,一类是来自医学监测机构的大数据,类似中国的疾控中心,美国的Carolinas Health Care,日本京都大学荒牧研究所等,以来自就诊患者统计为主,辅以大数据分析手段,以显示某地区目前流行病的发病情况为主,预测疾病流行走向为辅;另一类则来自搜索引擎和数据分析机构,包括google trends的疾病预测,百度预测6月上线的疾病预测,以及基于社交搜索的sickwether、patientslikeme和融合性的Healthmap等,以预测疾病流行走向为主,展示区域发病情况为辅。
两种数据工具的手段大同小异,区别只在于前者提供的数据多是针对大区域的、服务机构的数据需要,后者则多针对小区域甚至某个城市商圈,为个人消费者服务。考虑到中国人的具体需求,这里我们主要介绍针对国外旅行的google预测,和针对国内的百度预测。
Google预测:曾经很准,现在不好说
谷歌流感预测(www.google.org/flutrends)早在2008年即已推出,原理是采用流感趋势系统监测全美的网络搜索,寻找与流感相关的词语,比如“咳嗽”和“发烧”等,并利用这些搜索结果来提前9个星期预测可能与流感相关的就医量。
2009年在H1N1爆发几周前,谷歌公司的工程师们在《Nature》上发表了一篇论文,介绍了GFT,成功预测了H1N1在全美范围的传播,甚至具体到特定的地区和州,而且判断非常及时,令公共卫生官员们和计算机科学家们倍感震惊。
这个工具最初运行表现很好,许多国家的研究人员已经证实,其流感样疾病(influenza-like illness, ILI)的估计是准确的,并且可以提前数周乃至数月,不像疾控中心一样要在流感爆发一两周之后才可以做到。
但此后的2013年,《新科学家》发现,在过去3年,该系统一直高估与流感相关的就医量,在这类数据最有用的流感季节高峰期尤其预测不准确。在2012/2013流感季节,它预测的就医量是美国疾控中心(CDC)最终记录结果的两倍;在2011/2012流感季节,它高估了逾50%。
《scientists》杂志认为错误源自一种被称作大数据浮夸(Big Data Hubris)的算法变化,例如对模型的人工优化,或是模型对某些不当关键词的自动调整(例如某些搜索其实源于季节而非真实发病),google对此也做出了一些调整,但效果仍待评估。
百度预测:新鲜上线,期待闪光
百度的疾病预测(http://trends.baidu.com/disease/)于今年6月上线,目前可以对全国331个地级市,2870个区县的四种疾病进行未来趋势的预测,某些城市甚至已经细化到具体的商圈。目前该产品提供流感、肝炎、肺结核和性病四种疾病的活跃度、流行指数,以及各种疾病相关的城市和医院排行榜,用户可以查看过去30天以内的数据和未来7天的预测趋势。而且百度还在疾病预测的页面上,整合了百度旗下其他优势产品资源,比如在页面右下角提供了百度百科和百度健康的链接,用户点击过去就可以了解到有关当前页面疾病的各种相关知识。
因为上线时间较短,百度预测的效果还很难评估,但考虑到比google预测上线较晚,加入了一些最新的技术成果和数据采集结果,这款产品在技术上应该是靠谱的。
例如,从公开资料来看,该产品模型的搭建一是通过历史数据构建统计规律性,比如流感或者手足口等疾病具有季节性周期的规律,二是通过研究疾病人数与其它相关数据的相关性来计算预测结果,同时从统计的角度来验证数据的正确性,以机器提供的数据为基础,加入对异常数据的监控和分析。
而为了让预测的准确率更高,百度还做了另外两方面的努力。其一是在数据合作上,不仅引入权威机构的相关数据而且保持同步更新,这其中不仅包含数据互通,同时也会与合作方的专家进行产品交流。
另一点不同在于,百度预测引入社交、天气、人群迁徙等搜索之外的数据,在搜索数据上,google的query数据依赖于Google Correlation产品,而百度则是直接从原始日志中进行清洗、消岐、扩展和分析,相对来说,理论上更容易避免“春天感冒怎么办”这样的查询影响结果。此外,百度的地理划分可以细化到城市商圈,可以查询的疾病也比google多。有鉴于此,我们有理由给予其更多的期待。
结语:无论如何,你应该试试
从此前世界杯预测的结果来看,百度拥有比google更灵活的数据挖掘手段,和更专业的分析团队,但目前我们面对的现实是,百度尚未提供国外服务,因此我建议在国内使用百度预测,在国外则使用google预测,或者试试基于社交媒体数据的sickwether,据说准确率也不错,达到90%。
需要指出的是,对google的差错过分担心是没有必要的。正如《大数据时代》一书所说,大数据本身探寻的是一种趋势,而非精准性,大数据时代需要学会接受数据的不完美。换言之,不能因为不精确而放弃大数据的应用和发展,若要无限接近统计结果的真,必须让大数据与精细的传统统计方法互补,而非两者相互替代。
百度也需要面对一些挑战。例如,目前我国对大数据给健康服务业发展带来的影响认识不足,在当前的产业发展规划中,忽视了大数据对该产业的影响,这些都需要百度运用其行业影响去改善。
总的来说,从现在开始,你应该养成出门前看看“疾病预报”的习惯,正如看天气预报那样,它惠而不费,而且已经足够好用,这并不仅限于肝炎。至少我已经开始这么做了。
- 01-092023年的四大网络风险以及如何应对
- 01-09操作系统/虚拟化安全知识域:攻击者模型
- 01-09操作系统/虚拟化安全知识域:操作系统及其设计在安全中的作用
- 01-092022年全球勒索赎金TOP 10
- 03-06俄乌冲突快讯:乌克兰网站被攻击数量超十倍
- 02-23开放式银行创新:开发人员与网络犯罪分子之间的竞赛
- 02-23数据泄露后信息会怎样?
- 02-23四个首创 冬奥网络安全“黑科技”面面观
- 01-11全球最受赞誉公司揭晓:苹果连续九年第一
- 12-09罗伯特·莫里斯:让黑客真正变黑
- 12-09谁闯入了中国网络?揭秘美国绝密黑客小组TA
- 12-09警示:iOS6 惊现“闪退”BUG
- 11-18LG新能源宣布与Bear Robotics达成合作,成为
- 11-18机构:三季度全球个人智能音频设备市场强势
- 11-18闲鱼:注册用户过6亿 AI技术已应用于闲置交
- 11-18美柚、宝宝树回应“涉黄短信骚扰”:未发现
- 11-01京东七鲜与前置仓完成融合