24萬條大資料揭祕:公眾情緒怎樣受防控政策影響

語言: CN / TW / HK

在應對新冠疫情過程中,防控策略及其變化與公眾情緒之間形成了複雜的動態關係,而政策調整經常滯後於公眾情緒。近日來自新加坡國立大學的研究者,基於疫情期間新加坡社交媒體24萬條帖子,提出了資料驅動的公眾情緒識別方法,進而能夠接近實時地評估輿情對政策的反應。該研究5月線上發表於 PNAS ,本文是對該研究的解讀。

集智俱樂部組織的「計算社會科學讀書會」已經啟動報名,將聚焦討論Graph、Embedding、NLP、Modeling、Data collection等方法及其與社會科學問題的結合,並針對性討論預測性與解釋性、新冠疫情研究等課題。讀書會6月18日開始,持續8-10周,詳情見文末。

研究領域:計算社會科學,社交媒體大資料,NLP,機器學習

劉志航   | 作者

梁金

| 審校

鄧一雪  | 編輯

論文題目:

Determining containment policy impacts on public sentiment during the pandemic using social media data

論文連結:

http://www.pnas.org/doi/10.1073/pnas.2117292119

自2020年1月以來,全球各國政府一直在使用各種政策工具遏制新冠傳播。從封控到各個階段社會和經濟活動緩慢恢復,政府不斷設計和實施政策,由此產生不同影響。其中,遏制和封控政策是一種最常見的政策工具,包括了居家令、社交距離要求、關閉學校、工作場所和娛樂場所,以及出行限制等。雖然遏制政策通常能有效減少新冠病毒的傳播,但對人們的精神和心理健康會產生重大不利影響,實時評估這些影響對於在快速變化的疫情中進行循證決策很有價值。

通過對社交媒體資料的情緒分析,可以幫助決策者辨別人們的情緒和擔憂,從而提高對政策影響的理解。最近發表於 PNAS 的文章,使用2020年1月至11月期間來自公共 Facebook 群組的約240,000條帖子的高頻資料,研究了遏制政策實施後平均每日情緒和公眾關注的變化。自然語言處理技術 (NLP) 能夠解析社交媒體上表達的公眾情緒和關注的問題,以及它們隨政策變化的變化,為新冠疫情防控和治理提供了一種強大、可擴充套件的實時分析工具。

1. 新冠遏制政策導致公眾負面情緒

如圖1所示,作者收集了新加坡的政府、新聞和社群團體中關注度最高的公共 Facebook 頁面的使用者帖子,進行文字清理和預處理,然後使用 NLP 工具從文字中計算情緒得分,以獲得每日平均公眾情緒因變數,自變數是政策施行經過的天數。

圖1. 政策影響研究方法:資料收集、清理、預處理和分析。

新加坡的疫情防控政策可以分為四個階段:第一階段是預封控 (PrLD,2020年1月15日至4月6日) 。隨後是封控 (LD) 階段 (2020 年 4 月 7 日至 6 月 1  日) ,當時辦公室、學校、商店和休閒場所都被關閉,只允許提供基本服務。最後是封鎖期,分為兩個階段,即最初重新開放時期 (PtLD1,2020年6月2日至8月3日) 和進一步放寬時期 (PtLD2,2020年8月4日至11月30日) ,允許更大的社交聚會。

考慮可能影響公眾情緒的外部因素,作者控制了醫療保健、遏制和封控、經濟和其他相關的政策指標,還有每日新病例數、死亡人數和感染率等疫情指標,以及零售指數、消費者價格指數 (CPI) 、失業率和通貨膨脹率等經濟指標。通過多元迴歸 (MLR) 分析發現, 封控階段與公眾情緒呈現負面關係,可能是因為該階段的出行和公共活動受到限制。但是該階段收入支援的經濟政策和佩戴口罩政策與情緒呈現正向關係,表明公眾對政府的經濟刺激和口罩健康政策的積極反應。

作者進一步使用斷點回歸 (RDD) 分析,以確定每個階段變化對情緒的因果影響。從圖2可以觀察到,中值情緒值 (senti_comp) 隨著這些遏制政策措施/階段而發生變化,並且在每階段過渡初期出現了明顯的不連續值。

圖2. 從Facebook帖子中計算得出的隨時間(經過的天數)情緒值變化曲線。

新加坡2020年4月7日實施的封控政策使平均每日情緒增加了0.1個單位,這表明人們對該政策的反應是積極的。然後,在2020年6月2日部分解除鎖定後,平均情緒值再次顯著上升0.2個單位。 但在8月4日之後,儘管限制進一步放寬,情緒值卻顯著下降0.15個單位,這似乎是違反直覺的 。這可能是由於對失業的擔憂、對感染的持續恐懼以及當時對外出就餐的限制所導致。因此,為了進一步分析這種變化的原因,需要使用自然語言處理技術對不同階段的公眾關注點進行主題歸因。

2. 封控期人們更擔心工資和工作

使用自然語言處理中的雙向編碼器表示模型 (BERT) ,作者歸納了不同階段公眾的突出關注點。首先,病毒感染和戴口罩是貫穿四個階段的話題 (圖3B、C) 。在預封控階段,人們關注的主題主要是口罩短缺和學校關閉問題;但 在封控階段,人們首要關心的問題是工資和工作問題(圖3D) 。這種擔憂首先在這一階段浮出水面,然後在最初重新開放時下降了1.7個單位,但在進一步放寬時期再次上升了2.4個單位,這可能是造成這一階段情緒顯著下降的原因。 這種擔憂反映了人們對失業的恐懼,以及在受疫情影響的經濟中無法找到新工作的恐懼。

圖3. 使用 BERTopic 模型進行主題建模。(A)不同階段的主題,按主題頻率大小進行詞雲視覺化。(B)口罩擔憂的變化(需要戴口罩和口罩短缺)。(C)病毒感染擔憂的變化(包括害怕感染 COVID-19 病毒和接種疫苗)。(D)工資和工作擔憂的變化(包括擔心失去工作和在 新冠大流行期間難以找到新工作)是封控期間的主要話題。(E)自殺和抑鬱的話題,這是封控之後出現的話題。

3. 封控後人們關注自殺和抑鬱問題

出人意料的是,在政府宣佈重新放開政策後,出現了自殺和抑鬱的話題,這可能表明人們對疫情的嚴重程度/持續時間以及接下來會發生什麼感到焦慮和沮喪。在最終進一步放開階段,對抑鬱症的擔憂進一步增加了1.91個單位 (圖3E) 。這樣的增長說明人們可能需要政策制定者提供更多心理諮詢、資訊和保證,以瞭解接下來會發生什麼。

值得注意的是,在這四個階段中,領導力、自豪感和欽佩性的話題都很突出。總體而言,公眾對政府領導層的看法是積極的,對領導層對疫情的處理表示欽佩。 新加坡因其有效的流行病管理政策和低死亡率而獲得全球認可,這可能會進一步加強公眾自豪感。

4. 資料驅動方法幫助評估政策影響

總而言之,通過計算社會科學相關方法,能夠確定不同政策階段突出的公眾關注點,並計算出跨階段邊界關注點的重大變化。這種公眾情緒實時分析技術能夠為政策制定者提供在存在多個協變數的情況下,其遏制政策影響的豐富資訊,有助於政策修訂以改善公眾情緒,並在未來實施類似政策。

這種方法的一個直接實際優勢是, 當政府機構開始看到負面公眾情緒或擔憂水平上升時,在限制性遏制和關閉政策不可避免的情況下,政府機構可以計劃適當的干預措施 ,如對小企業提供資金支援,對公眾提供心理諮詢等。

值得注意的是,社交媒體上反映的情緒可能無法完全代表人群。新加坡的高網際網路普及率(88.5%)和 Facebook 等社交媒體的廣泛使用(82%)一定程度上緩解了這個問題。但對於無法使用社交媒體發聲的農民、外來勞工以及老人等邊緣群體,這種技術是有偏的。因此,需要結合其他資料來源進行補充,才能完善出一種以人為本、資料驅動和基於證據的方法,用於微調現有政策並在未來實施類似政策。

計算社會科學讀書會第二季

計算社會科學作為一個新興交叉領域,越來越多地在應對新冠疫情、輿論傳播、社會治理、城市發展、組織管理等社會問題和社科議題中發揮作用,大大豐富了我們對社會經濟複雜系統的理解。 相比於傳統社會科學研究,計算社會科學廣泛採用了計算正規化和複雜系統視角,因而與計算機模擬、大資料、人工智慧、統計物理等領域的前沿方法密切結合。 為了進一步梳理計算社會科學中的各類模型方法,推動研究創新,集智俱樂部發起了計算社會科學系列讀書會。

新一季【計算社會科學讀書會】由清華大學羅家德教授領銜,卡內基梅隆大學、密歇根大學、清華大學、匹茲堡大學的多位博士生聯合發起,自2022年6月18日開始,持續10-12周。本季讀書將聚焦討論Graph、Embedding、NLP、Modeling、Data collection等方法及其與社會科學問題的結合,並針對性討論預測性與解釋性、新冠疫情研究等課題。讀書會詳情及參與方式見文末,歡迎從事相關研究或對計算社會科學感興趣的朋友參與。

詳情請見:

資料與計算前沿方法整合:計算社會科學讀書會第二季啟動

點選“閱讀原文” ,報名讀書會