當前位置 > 首頁 > 優秀會員推薦 > 基于新型冠狀病毒肺炎疫情下的數據與模型思考

基于新型冠狀病毒肺炎疫情下的數據與模型思考

來源:中國數據分析行業網 | 時間:2020-06-03 | 作者:數據委

以下文章來源于山東智谷數據分析師事務所
作者:徐斐飛
基本概述

2019年12月以來,湖北省武漢市部分醫院陸續發現了多例有華南海鮮市場暴露史的不明原因肺炎病例,后已證實為2019新型冠狀病毒感染引起的急性呼吸道傳染病,隨著疫情蔓延,我國其他地區及境外多個國家地區也相繼出現此類病例。2020年2月,國家衛健委1號公告將新冠狀病毒感染的肺炎納入《中華人民共和國傳染病防治法》規定的乙類傳染病,并采取甲類傳染病的預防控制措施。截至3月4日,國家衛生健康委員會(以下簡稱“國家衛健委”)官網已發布試行第七版的新型冠狀病毒肺炎診療方案。隨著疫情的不斷蔓延,國家、省及各地區相應采取一系列防控措施,積極應對疫情發展。

 

在疫情全球肆虐之下,作為數據從業者,數據在哪些方面可以助力防控疫情,如何利用這些數據等問題,都值得我們去思考與研究。有專家學者表示,在疫情爆發前,數據就已經在發揮舉足輕重的作用,數據可以清晰地描繪出人與動物接觸的方式及頻次,以及多地多物種數量的分布情況等,基于這些數據,專家學者不難分析出病毒有多少幾概率是來源于動物。在此前的SARS、埃博拉病毒等大范圍爆發的流行病,科學家估算出,約四分之三的新病毒都是源于動物,多達80萬種未知動物病毒可以傳染給人類,這正是通過數據解析之后獲得有價值的信息。在此基礎上,整合已知病毒、動物數量、人口統計等,利用新技術來預測新病毒可能出現的區域,從而幫助政府和公共衛生機構提前采取措施,在疫情爆發前做好準備及預防性工作。

 

新冠肺炎疫情發生以來,各地政府也通過多種渠道發布疫情數據,對于滿足公眾知情權,加強自我防護起到了積極重要的作用,還有些數據被專業人員進一步利用,開發出許多受歡迎的應用服務。但是,各地發布數據的內容和方式各有不同,帶來的閱讀體驗和應用價值也不相同。本文將從數據源頭入手,以不同的角度探討此次疫情的數據標準及質量實施情況,并結合已發布的數據,分析呈現疫情趨勢,嘗試探討構建趨勢擬合模型。

 

由于本人能力有限,以及時間上的倉促,恐難免有以偏概全之論,不足之處,望予以批評指正。

 

 

數據來源

國家衛健委官方網站、國家各地區衛生健康委員會官方網站、山東省公共數據開放網站、百度疫情實時大數據報告。

 

數據透析

基于政府發布的新型冠狀病毒肺炎確診病例、疑似病例、治愈出院情況、死亡病例等數據,從政府數據發布形式,提供格式等方面探討數據標準、質量情況,并以公開發布數據呈現分析全國各地區、?。ㄒ陨綎|省為例)、市(以泰安市為例)疫情發展趨勢。

 

(一)全國疫情數據

 

1.?數據采集

國家衛健委在其官方網站最顯著位置增設疫情防控專題模塊,涵蓋疫情通報、防控動態、通知公告、醫者風采、防控知識、你問我答、普法知識、新聞報道功能,其中本文全國疫情數據均來自疫情通報。

 

國家衛健委每日發布昨日數據,包括31個?。ㄗ灾螀^、直轄市)和新疆生產建設兵團報告新增確診病例、新增死亡病例、新增疑似病例、當日新增治愈出院病例、解除醫學觀察的密切接觸者、累計治愈出院病例、累計死亡病例、累計報告確診病例、現有疑似病例、累計追蹤到密切接觸者、尚在醫學觀察的密切接觸者等統計數據,另外湖北省疫情數據再單獨通報一次,并發布港澳臺地區的通報確診病例。疫情通報數據格式如下(文字+數字):

 

 

2020年1月10日起,每日通報疫情數據,1月10日至1月19日數據以武漢地區為主;2月12日,對湖北省以及湖北省以外其他省份的病例診斷標準進行了區分,湖北省增加了“臨床診斷病例”分類,對疑似病例具有肺炎影像學特征者,確定為臨床診斷病例,以便患者能及早按照確診病例相關要求接受規范治療,進一步提高救治成功率,因此會導致確診病例數量突然大量增加;2月13日,湖北省因重復統計,核減108例;2月21日,湖北省將19日、20日核減的病例數重新加回到確診病例,并對當日新增病例數進行了校正。疫情通報數據格式期間更改過一次,整體數據比較完善。

 

各省級疫情數據均來自各省衛健委網站疫情通報。各省衛健委疫情通報模塊,大部分與上級單位一致,疫情前期每天通報昨天數據,中途更改為每半天通報一次,通報格式略有調整。無論是開始的“文字+數字”形式,還是現在 “文字+數字+圖片”形式,均不便于被開發利用,需要對這些數據先做一些技術處理,將數據從這些文字中、圖片中提取出來,整理成結構化數據。

 

2.?數據呈現

數據呈現主要從累計確診病例、累計治愈病例、累計死亡病例、每日新增病例和累計疑似病例等五個方面展示全國及各地區疫情形勢。

 

 

從上圖,可以看出2月11日全國累計確診病例持續增長,2月12日突然呈垂直增長,經查詢材料發現,2月12日驟增的重要原因主要是,為做好新型冠狀病毒肺炎患者早診早治,落實好湖北病例應收盡收、應治盡治工作,按照《新型冠狀病毒肺炎診療方案(試行第五版?修正版)》,對湖北省以及湖北省以外其他省份的病例診斷標準進行了區分,湖北省增加了“臨床診斷病例”分類,對疑似病例具有肺炎影像學特征者,確定為臨床診斷病例,湖北省報告的13,332例臨床診斷病例納入確診病例統計,以此來降低病死率,所以導致當天,數據異常增長。累計疑似病例從2月8日起,持續下跌,每日增加確診病例數自2月12日起,持續下跌,累計治愈病例數呈指數增長,可見疫情在全國上下齊心一致抗擊疫情下,態勢得到了良好的控制。

 

從每日確診病例熱力圖中看出,2月12日顏色程度較深,表明這一天確診病例較其他時間確診人數眾多。自2月下旬以來,顏色程度較淺,也印證了確診病例每日持續下跌的事實。

 

(二)省級疫情數據(山東)

 

1.?數據采集

省衛健委與國家衛健委同樣,在其官方網站最顯著位置增設疫情防控專題模塊,涵蓋通知公告、防控動態、醫者風采、健康知識、媒體視窗、一封家書等功能,其中本文省級疫情數據均來自通知公告。另外,省衛健委在官網首頁增設了萬眾“疫”站 謹防嚴控和“疫”線視頻兩個專題模塊。

 

省衛健委提供數據格式1月份與國家衛健委一致,“文字+數字”的形式對外公布,自1月30日12時~24時開始,通報形式變為“文字+數字+表格圖片”,表格圖片對于一般讀者,便于閱讀和理解,但是對于數據使用者來說,但還不好用,如要對這些數據進行分析,需要先將圖片中的數據轉化為機器可以讀取和處理的結構化數據。數據表格在不同的時間發布,呈現為不連續的、碎片化,如果想要分析某段時期內的趨勢,就要把之前發布的一條條通報搜尋出來,然后再把其中的數據整合起來。

 

為充分分析挖掘疫情數據,向社會提供可獲取的、完整的、結構化的數據,用于疫情防控、幫助公眾理解數據背后信息等應用的開發,省衛健委在官網通知公告中每日通報外,還通過省數據公共開放網,將全省及各地區疫情數據以開放數據為基本標準,向社會提供excel、csv、XML、json、API等形式的疫情數據服務,數據內容豐富,數據整體質量較高。

 

 

本部分利用的數據主要來源于省衛健委官方網站的通知公告,省公共數據開放網發布的疫情數據作為補充。

 

2.?數據呈現

省級數據呈現主要從累計確診病例、累計治愈病例、累計死亡病例、每日新增病例和累計疑似病例等五個方面展示山東省及各地市疫情形勢。

 

 

 

從上圖,可以看出2月10日山東省累計確診病例持續增長,2月11日至2月19日累計確診病例增速放緩,但在2月20日,突然驟增,經查詢材料發現,2月20日驟增的重要原因主要是,山東省任城監獄疫情感染事件造成的,當天僅任城監獄新增確診200例,2月21日起累計確診病例趨于平緩。累計疑似病例從2月13日起,持續下跌,每日增加確診病例數自2月10日起,持續下跌,僅因任城監獄感染事件,出現異常數據外,其余時間一直保持下跌態勢。累計治愈病例數持續增長,在省委省政府及各地市政府共同努力下,疫情發展態勢得到了控制,為復工復產奠定了良好的基礎。

 

從省每日確診病例熱力圖中看出,2月20日顏色程度較深,表明這一天確診病例較其他時間確診人數眾多。自2月下旬以來,顏色程度較淺,也印證了確診病例每日持續下跌的事實。

 

(三)市級疫情數據(泰安) 

1.?數據采集

 

同樣,在市級衛健委官網醒目的位置,設置有新型冠狀病毒肺炎疫情防控專欄。每半天更新上半天的數據,數據格式到目前為止,主要是“文字+數字”一直未有更改,但數據更新時間,多次調整(由一天更新一次,變為兩次,中途又出現一天更新一次),自2月9日到現在,數據更新時間(一天兩次)保持一致。 

本部分采用的數據均來自本級衛健委官網發布的疫情通告,在數據存在異議的情況下,結合上級部門的數據進行校正。

 

2.?數據呈現

市級數據呈現主要從累計確診病例、累計治愈病例、累計死亡病例、每日新增病例和累計疑似病例等五個方面展示泰安市及各縣市區疫情形勢。

 

 

從上圖,可以看出2月10日泰安市累計確診病例持續增長,2月11日至2月18日累計確診病例不再增加,2月19日至2月21日增長速度放緩,隨后不再有病例增加。累計疑似病例從2月4日起,持續下跌,每日增加確診病例數自2月10日起,下跌至0,除2月19日至2月21日期間每日新增1例確診病例外,后期均無新確診病例。累計治愈病例數一直呈增長態勢。?

從市級每日確診病例熱力圖中看出,2月10日顏色程度較深,表明這一天確診病例較其他時間確診人數眾多,2月1日、2月5日確診人數次之。自2月下旬以來,顏色程度較淺,印證了確診病例每日持續下跌的事實。疫情態勢的良好控制,得益于市委市政府在疫情期間積極落實上級防控政策,因地制宜的采取一系列符合現實狀況的防控措施。

 

疫情模型

 

通過構建統計學模型、數學模型,或者利用機器學習、深度學習方法擬合疫情發展趨勢,利用歷史數據對未來的確診病例等疫情形勢進行預測,比如說,邏輯斯蒂生長曲線擬合數據,預測未來幾天可能的發展趨勢;或者利用時間序列模型構建預測模型;也可用LSTM構建預測模型,一種特殊的RNN網絡。以上方法,除生長曲線外,其他模型,需要大量數據做訓練,就目前情況看,數據量并不大,即使構建出模型,參考價值并不大,并沒有與業務做融合,只是以數據理解數據。

 

另外一個建模思路,可以從傳統疾病傳播模型(SIS、SIR、SEIR等),建立傳染病模型,結合此次冠狀病毒的傳播特性,利用現有的樣本數估計出一個大概的參數,建立適當的傳染病數學模型,能較為精準的預估疫情的發展趨勢,當然這是一個較為復雜且專業的問題。近日,由鐘南山院士團隊研究構建的「具有飽和發病率(其解釋,任何傳染病都具有飽和發病率,即不可能完全被消滅) SIQS 傳染病模型」雖然被國外權威期刊退回,但研究成果還是符合國內疫情發展趨勢。

 

據有關學者介紹,SIQS傳染病模型實際上是在傳統SEIR模型基礎上,加上兩個干預因素,即國家的強力干預和春節后的回程高峰,另外,2020年2月28日,鐘南山院士團隊發表了一篇名為《公共衛生干預下COVID-19流行趨勢的 SEIR和AI預測修正》,將2020年1月23日前后的人口遷移數據及最新的新冠肺炎流行病學數據整合到SEIR模型中生成流行曲線,同時,團隊還利用人工智能技術,以2003年SARS數據為基礎進行訓練,從而更好地預測新冠疫情。研究團隊還使用長短期記憶模型,預測新增感染數隨時間的變化。對于基本訓練數據集的處理,研究團隊利用 2003年4-6 月SARS的病例統計,納入COVID-19流行病學參數。從鐘南山院士團隊的研究成果來看,假設是一支純技術團隊,是無法作出解釋性強、可信度高的預測模型,所以說數據建模不僅僅依靠的是技術工具,更多的是業務理論背景,模型不應該是冰冷的技術實現,更應該是有溫度、有內涵的業務與技術的融合。

 

因本人不具備傳染病、醫療專業領域相關知識,從非專業角度,嘗試利用Logistic生長曲線模擬泰安地區累計確診病例數量,并試著簡單敘述傳統疾病傳播模型-SEIR。 

(一)Logistic生長曲線

 

邏輯斯蒂曲線是由比利時數據學家首次發現的特殊曲線,后來,生物學家皮爾(R.Pearl)和L·J·Reed根據這一理論研究人口增長規則,因此,邏輯斯蒂生長曲線也被稱為生長曲線或者珍珠德曲線。邏輯斯蒂生長曲線一般形式如下:

 

L,a,b均為未知參數,需要根據歷史數據進行估計。生長曲線在現代商業、生產行業、生物科學等方面有著非常廣泛的應用。

 

我們利用生長曲線模型,擬合泰安本地累計確診病例數據,建立生長曲線模型。數據擬合如下圖所示,藍色部分顯示的確診病例觀測值,紅色部分顯示的是確診病例預測值,并計算出未來7天的確診病例數據。

 

從上圖預測值生成的曲線來看,生長曲線模型整體呈現“S”型,按照相關參考文獻說明,生長曲線可以分為初期、中期和末期三個階段:

 

在初期,雖然 t處于增長階段,但是 y 的增長較為緩慢,這時曲線呈現較為平緩的上升;在中期,隨著t的增長,y 的增長速度逐漸增快,曲線呈現快速上升的態勢;當達到拐點(t,Y)后,因函數飽和程度的增長達到末期,隨著t的增長 y 的增長較為緩慢,增長速度趨近于0,曲線呈水平狀發展。

 

在了解模型特點后,假設外部因素干預事件發展,就會導致數據的突然增多或減少,會影響模型的預測精度。因此,logistic增長模型只是對疾病進行預估,并不能準確判斷,也并不是最佳模型。當然可以通過模型優化,來提高預測精度,有的文獻提出可以根據華羅庚提出的0.618選優法,對得到的模型進行優化(計算該模型是否能得到預測值和測量值最小殘差平方和)。這里我們就不再展開,可以后期進行探討學習。

 

(二)疾病傳播模型-SEIR

查閱相關文獻后,發現常見的傳染病模型按照傳染病類型分為SI、SIR、SIRS、SEIR 模型等,用于研究傳染病的傳播速度、空間范圍、傳播途徑等問題,用來指導對傳染病的預防和控制。模型中涉及S、E、I、R、r、β、γ、α參數:

 

S類:表示易感者 (Susceptible),指未得病者,但缺乏免疫能力,與感染者接觸后容易受到感染;E類:表示暴露者 (Exposed),指接觸過感染者,但暫無能力傳染給其他人的人,對潛伏期長的傳染病適用;I類:表示感病者 (Infectious),指染上傳染病的人,可以傳播給 S 類成員,將其變為 E 類或 I 類成員;R類:表示康復者 (Recovered),指被隔離或因病愈而具有免疫力的人。如免疫期有限,R類成員可以重新變為 S 類。

 

r:感染患者(I)每天接觸的易感者數目;β:傳染系數,由疾病本身的傳播能力,人群的防控能力決定;

 

γ:恢復系數,一般為病程的倒數,例如流感的病程5天的話,那么它的γ就是1/5;α:潛伏者的發病概率,一般為潛伏期的倒數。

我們這里不再利用采集到的數據,模擬疫情發展形式,一方面原因是我們并不能較好的估計模型中涉及到各個參數, 需要考慮的的參數較多,另一方面數據并不能支撐其模型推導,特別是疫情的政府干預因素、社會輿情因素,對疫情發展趨勢都會產生一定的影響,應將相關的因素考慮進去,所以這個問題相對來說是比較復雜的過程,我們這里不再進行過多探討。大家有興趣的可以去查找相關文獻材料,進行深入研究學習。

 

 

 

 

參考文獻

[1] 百度百科. 新型冠狀病毒肺炎[EB/OL].

https://baike.baidu.com/item/%E6%96%B0%E5%9E%8B%E5%86%A0%E7%8A%B6%E7%97%85%E6%AF%92%E8%82%BA%E7%82%8E/24282529?fr=aladdin.

[2]?劉俊寰.?疫情中數據的作用無法忽視,但也不能盲信模型?| 專訪前DHS生物監管總監[EB/OL].

http://www.bigdatadigest.cn/#/articleDetail?articleId=591&type=0

[3] 國家衛健委官網.?全力做好新型冠狀病毒肺炎疫情防控工作[EB/OL].

http://www.nhc.gov.cn/xcs/xxgzbd/gzbd_index.shtml

[4] 山東省衛健委官網. 全力做好新型冠狀病毒肺炎疫情防控工作[EB/OL].

http://wsjkw.shandong.gov.cn/ztzl/rdzt/qlzhfkgz/index.html

[5] 泰安市衛健委官網. 新型冠狀病毒肺炎疫情防控?[EB/OL].

http://wjw.taian.gov.cn/col/col119732/index.html

[6] 百度. 新型冠狀病毒肺炎疫情實時大數據報告[EB/OL].

https://voice.baidu.com/act/newpneumonia/newpneumonia/?from=osari_pc_1

[7]?山東省大數據局.?山東公共數據開放網[EB/OL].http://data.sd.gov.cn/

[8]?金濤. 邏輯斯蒂增長曲線模型的優選研究[J].1003-8965(2015)04-0130-01

[9] 雷鋒網.?鐘南山等人用?LSTM 力證“早發現早隔離”重要性[EB/OL].

https://www.sohu.com/a/377229230_114877

[10] CSDN昵稱:土豆西瓜大芝麻.SEIR傳染病模型[EB/OL].

https://blog.csdn.net/jinking01/article/details/104145509

[11] 鄭磊.?哪些地方開放了真正“能用”和“好用”的疫情數據?這些數據能用來做什么?[EB/OL].

https://mp.weixin.qq.com/s/2V6tfS8gJkxA4-GLRbJ1mw

 

?
江苏11选5开奖分布走势图 浙江省11选5任选开奖结果 内蒙古十一选五走势图一定牛 手机玩股票哪个软件好 贵州快三预测号码推荐 辽宁快乐12五码最大遗漏 福建十一选五基本走势一定牛 内蒙古11选5网购平台 票据理财平台排行榜 上期算出下期五行公式 重庆幸运农场计划群