澎湃新聞趙佐燕:數據新聞怎麼做?| 芒種觀點

語言: CN / TW / HK

點擊上方藍色文字

關注“ 騰訊媒體研究院

一個典型的數據新聞生產是怎樣的?需要什麼人?選題是如何操作的?對於非專門的數據新聞從業者而言,又可以從這個領域獲取到什麼,來用於自己的報道中?

在騰訊媒體研究院的本篇文章中, 澎湃新聞數據新聞部記者 趙佐燕, 結合澎湃新聞過往稿件,分享了數據新聞的操作流程,以及自己的經驗與思路。 以下是她的自述:

來源 | 深度訓練營

作者 | 徐含燁

Newsroom:

數據新聞的產生

數據新聞我們可以做到這三類,一是圖文,二是視頻,三是H5的交互。

我們在2020年的年底做的一個交互項目,它的基礎就是當年1萬多名的確診病例,包括他們的流調信息。這是一個非常典型的交互項目,我們能看到一些很炫酷的可視化,拖到最後面,這裏每一個數的一個點,代表的就是一個確診病例,然後你可以進行點擊,它會顯示這個人的流調信息。大概是這樣子的一個交互項目。

圖源: 11699位患者和我們的這一年

另一個交互項目同樣也是來自我們對於新冠疫情的報道,講的是全球死亡病例。我們基於當年全球的新冠死亡人數做了一個可視化,你所看到的其實是各個國家的死亡病例增長情況。

圖源: 百萬逝者:新冠何以成為全球悲劇?

生產一個典型的數據新聞,需要什麼樣的人呢? 我記得我當年還在讀書的時候,應該是2017年,財新的韋夢老師來給我們介紹數據新聞團隊的構成,當年她説需要有一個記者,也就是內容的生產者,一個可視化的設計師,一個前端工程師。這三種人組成了一個數據新聞的團隊。

等到我畢業,開始從事這方面的工作的時候,會發現其實 工種多了很多 ,比如説我們有視頻編導、3D建模、調色師、插畫師,這些工種也會在我們自己的稿子裏發揮作用,比如説像這個稿子是我們講泳池裏面有多少尿,開篇的這張圖表其實就是我們的建模師建了一個游泳池的模型、一個裝了尿的瓶子的模型,然後做出來的。所以會發現 隨着技術的更新迭代 ,然後我們的人員的構成也變得越來越多樣化,就不只是像最開始只有三種人, 越來越多不一樣的工種加入到我們的行列當中。

圖源: 一個泳池裏,到底有多少尿?

所以這時候就回到了一個非常典型的問題,是不是做數據新聞一定要會寫代碼?其實我覺得不一定,我對代碼基本上就只能看得懂大概的框架。

其實你會發現我們團隊人很多,所以總能找到一個支援你的人。比如説我需要做一些分析,我們有一個非常專業做Python分析的同事幫我,我做的可能更多是給出我的想法,類似於作為一個產品經理,由她幫我去實現。所以我覺得你不能什麼都不瞭解,但是你不一定要非常的精通,有大概的瞭解就可以了。

非常想給大家分享的就是,一個典型的數據新聞的操作和流程,我們前面有非常多精美的可視化,你可能比較好奇究竟是怎麼生產出來的呢?一個非常典型的日常圖文稿,我們的流程是這個樣子的:由記者去報選題,主編覺得OK之後,我們就會開始收集數據,然後做數據分析,基於分析得出數據的結論,也就是組成一個數據框架。

這個數據框架會有很多不同的圖、不同的表格,每個表格就會轉換成不同的邏輯。比如説在高温城市的稿子裏面,我們就需要先拎出重點,把有標題、年份、城市、持續天數的一個表格給到我們設計師,然後設計師就會基於這個表格來進行一個創作。

圖源: 7000條温度數據:中國的火爐城市,也越來越熱了

主編覺得這個數據框架OK之後,我們就會分成兩個部分,設計師會基於你的數據框架做圖表的設計,同時你會寫文章,最後我們做出一個校對的初稿。

而我們剛剛看到的H5交互,就稍微複雜一點。同樣是我們需要報選題,收集數據分析,有一個基本的數據結論,做一個數據框架。除此之外我們還需要畫一個交互UE,就是一個交互的草圖,比如説我們希望在開頭出現什麼、接下來出現什麼、每一個轉場是怎麼樣的,我們需要把它給大概畫出來。

像我們剛剛看到的有關全球新冠死者的數據新聞,在操作時會先把死亡的折線圖勾勒出來,然後交由設計師進行更加精美的設計,這個時候前端會寫一些對應的交互的代碼,比如説怎麼樣可以實現這種3D的感覺,最後進行一個結合,典型的操作流程大概是這個樣子的。

數據新聞也是新聞

第二部分主要想説的就是 跳出數據新聞,可以從這個領域收穫到一些什麼東西。

像我們帶的實習生,有很多同學畢業之後也不是在做數據新聞,大家也在做各行各業。其實重點在於你可以從這個領域收穫到什麼,用到你自己未來的選題上面。

數據新聞其實只是新聞的一種載體形式,或者是一種選題的驅動方式。沒有必要非要把它割裂出來,因為它其實本質上也是新聞,具體而言就是利用可視化讓你讀者更好的理解你的內容,而不是打亂他的閲讀節奏。其實現在有很多媒體在用很多不同的圖表,這個時候就出現了一個很重要的問題—— 如何利用好你的圖表?

有三個問題, 第一就是,真的需要這麼多圖表嗎? 我們來看看現在的讀者是怎麼讀文章的。一般而言,讀者會首先看標題,然後他會跳着看你的圖表,最後只有一些比較細心的讀者才會去看你的文章,所以這個時候你的圖表起到非常重要的作用。如果你的圖表過多,其實是在打亂閲讀節奏。

比如説有這麼一句話,“在此類事件的受害者中有90%沒有獲得賠償”,然後你也可以基於這個數據做一張餅狀圖,表示10%獲得賠償了,90%沒有獲得賠償。但其實耐心去看這兩個東西,你會發現你的收穫其實是一樣的。你看他那句話“90%沒有獲得賠償”,你收穫的就是,真的有好多人沒有獲得賠償,感覺這個事情是非常不公平的;你看這個圖的時候也會獲得有很多人沒有獲得賠償這個信息。所以其實你獲得的信息都是差不多的,也就是説這個圖表它的信息增量其實是非常不夠的。它沒有為你的文章添色,反而打斷了閲讀節奏,因為你的讀者在看的時候,突然看到這裏多了一張圖表,他就得耐心去看這是個什麼圖表、在講什麼東西,其實可能就會打斷了他的閲讀思路。

之所以用到圖表來做,是因為它承載了很多信息增量。 你在看這個圖表的時候,第一個你能看到的就是天氣在變熱,之前都是藍色的,現在變成紅色的,代表近50年來天氣在不斷的變熱;我們在説的全球的最熱紀錄在不斷被打破,因為你可以看到這裏圖上有一些小白點,小白點就代表這個月它打破同期的歷史最高温;你會發現小白點在過去的50年出現越來越頻繁了,代表最近這段時間全球最熱的記錄在不斷被刷新。這個圖表起到了信息增量的作用,所以它的存在是有意義的。

圖源: 7000條温度數據:中國的火爐城市,也越來越熱了

總體而言,可視化是否真的可以為你的稿子帶來信息增量,是你需要非常去思考的一個問題。

第二個問題就是如何讓圖表被讀者看懂? 很多時候我們在看一些很複雜的圖表的時候,如果覺得閲讀有障礙,很可能就是可視化出了一些問題。

所以在我們日常操作過程中,需要有兩個保證。一個保證就是保證圖表單獨出現的時候也是有邏輯的,也能被看懂。 這個就是像我們剛剛説的,很多讀者在閲讀我們稿子的時候,他的閲讀流程是首先看標題,看標題大家知道了這個稿子在講什麼東西,然後他可能就跳着看,主要就是看圖表,所以這個時候你要保證的就是你的圖表單獨出現的時候,也是能被看懂的,哪怕讀者不看你的文字,他也可以有自己的收穫。

第二個保證就是保證閲讀完整的文章和圖表,也沒有邏輯錯誤。 這部分針對的是真的很認真很仔細的讀者,他們真的是會逐字逐句去看你的稿子,這個時候,你要保證文字起到一個輔助的作用,會給這部分很認真的讀者提供更多的信息。

所以一般來説我們會保證這兩個保證。很多時候我們看一些稿子,可能把圖表單獨拎出來,會需要看回文本才能理解在講什麼東西,這個就是需要再去提高的地方。

具體如何操作、如何讓每個圖表能被你的讀者看懂,很重要的一點就是做到信息分層。

比如説這張是我們一位實習生的稿子,你會發現我們做了一些顏色的標註和顏色的分類。可能你在作圖之前會思考“我的讀者最想知道什麼”,這張圖講的就是“熱射病的權益糾紛為什麼總是勞動者買單”,當我們發現很多熱射病的權益糾紛中,僱主承擔的責任並不是非常多,就準備研究為什麼出現這個現象。這張圖主要講的就是僱主願意承擔責任的理由、法院認定勞動者的承擔的責任的要素,這個時候你要開始想,你的讀者最想知道什麼呢?

圖源: 206例熱射病案件:勞動者在高温中倒下,如何維權?

第一我想強調的是,和勞動者有關的原因是什麼;第二,是什麼原因使僱主不願意承擔,什麼情況是法院認定屬於勞動者責任的。這個時候需要強調更多的是第一個,所以我們將和勞動者有關的原因進行了一個橙色的高亮標註。

當普通的讀者看到這張圖表的時候,第一反應看到的其實就是高亮的東西,下一步才會去閲讀文章。他會發現原來這個部分是僱主不願意承擔責任的理由,另一個部分講的是法院認定的勞動者責任要素。

所以這個時候做好信息分層——首先,你要去思考你的讀者最想知道什麼東西,然後把他最想知道的東西做到高亮,讓它非常的醒目;其次可能需要進行信息設計。

第三個問題是,數字其實是一個很冰冷的東西,如何才能離讀者更近一點? 很多時候,如果你只是單純地堆砌數字,可能比不上非虛構寫作。這個時候我們需要做一些額外的工作,讓這個數字離讀者更近一點。

有兩個辦法。一個是補充一些故事和細節,這就是我們的圖表當中會加很多舉例的原因。 比如説當我們講在婚前協定或在婚前協議裏面情侶們都會約定些什麼,會提到忠實協議,如果這個時候加一些協議的舉例,讀者就能知道具體是什麼情況。

另外一個是我們也最近在嘗試的新的東西——將人物的敍事放到統計數據中來看。 就説之前上過熱搜的涼山學子致謝,我們將它提到的一些句子放到了當年的一個宏觀統計數據當中來看(涼山小夥致謝刷屏背後,寒門學子有多難?)。比如他當時就寫到他從小生下來就營養不良,老人們特別擔心可能會養不活,為什麼會這麼想?我們就放到了宏觀統計數據來看,因為當年西部地區幼兒死亡率可能高達1/10,所以才會擔心營養不良的小孩是養不活的。通過這樣的結合,你會發現有數據、有故事,就可能講述得更好一點。

數字確實是冰冷的,怎麼才可以更好地可視化? 用財新當時做的一個數據可視化的項目舉例,是把每一個因為新冠而去世的人變成了一個櫻花的花瓣,你就不會把每一個逝去的生命當做一個很冷冰冰的數字。有的項目它會把死亡人數用一個折線圖或者一個點表示,其實是一件有點冷漠的事情。所以這個時候財新將每一個逝世的人化作花瓣,這樣可以進行一些交互的補充,通過可視化的一些感性去消弭距離。

數據新聞其實也只是一種表達的形式,更重要的是新聞的內容更適合什麼形式來呈現。

第二個想給到大家的是一種思路。數據新聞是可以驅動選題的,有時候可能只有當你把數據鋪開了才會找到選題,也就是基於數據去找到一個選題。

比方説這是我之前的一個稿子,當時是看到了這樣之前封控管理的上海有273條公交線開始恢復的新聞,有很多的表格告訴大家有多少公交線路要開始恢復了。

當時我就在想,這些公交線路都在哪裏呢?我們就做了一個可視化。我首先把表格上的公交線路全部下載,找到它對應的公交交通的站點,在路上鋪開,會發現它主要集中的還是在中心城區,以及去醫院的交通恢復了。我們將那些交通線路和醫院的打點結合在一起,發現它其實還是覆蓋了大部分的醫院,也就是去醫院其實已經在變得便利,一些去機場、火車站的交通也恢復了,但還有大片的地方是沒有辦法直接去到幾個機場和火車站的。

另外一個例子來自我同事,講的是鄭州暴雨的事情。當時我同事把所有微博的那種求助信息全部爬了下來,去看求助信息究竟是誰來轉發,誰在推動這些轉發。我們會發現其實普通人也可以比大v更有力量。( 突發災難面前,你的轉發有用嗎? )

你會發現有很多這種選題,只有通過數據,才會獲得發現選題的可能性,這就是數據驅動型選題。 比如説接下來有三個問句,你也可以思考一下究竟通過什麼數據來解答會比較好。

第一個問題是説被各大高校撤銷最多的專業是哪一個;第二個問題是説誰是最強舉報人;第三個問題是如何找到全上海最優秀的基層醫生。

這三個問題它其實是層層遞進的關係。第一個問題可能比較直接,説到撤銷最多的專業是哪個,很多人能想到的就是找專業目錄去看,就知道被各大高校撤銷最多的專業,即我們所謂的“最慘專業”是哪一個。這個其實就可以驅動一篇稿子出來,為什麼會被撤銷?是不是因為它的背景?

第二個誰是最強的舉報人,其實可以通過裁判文書網把他找出來。你去看相關案件中經常出現在裁判文書網的人是誰,找到這個人,其實就可以成為一個非常好的特稿。

第三個如何找到全上海最優秀的基層醫生,其實是取決於你想通過什麼數據來找到這個人。你既可以通過問診量,也可以通過回訪量,比如醫生他之前接診過的病人,80%都進行了回訪,另外一個醫生只有76%,那是不是80%要比76%優秀一點?

你會發現數據驅動的思維可以幫助你想特稿選題,不僅可以看到一件事情發生的時間線,還可以通過這個數據發現一個讀者非常感興趣的新選題。

總而言之,如何找到一個數據驅動的選題?

一點點數據意識,再加上一點點好奇心,你就可以找到一個非常好的、同行都沒有發現的選題。

Q&A

數據新聞方法論

Q:為數據新聞做可視化的工具有哪些呢?

A: 數據可視化的工具其實我們公眾號應該有整理過。 一般來説我們是通過一些線上的可視化的圖表的生成網站,進行非常簡單的可視化,再最後AI或者PS裏面進行細節的處理。

有的時候比較複雜的,比如我們發過一篇鄱陽湖的乾旱情況。我們首先通過歐空局衞星圖的公開平台下載衞星圖,然後我們的設計師把它拖到QGIS裏面進行處理。

圖源: 5張圖,看長江流域61年來最嚴重的氣象乾旱

Q:數據量特別大的時候一般會怎麼處理?

A: 數據量特別大的時候一般就會走代碼了 ,但好像我們暫時沒有遇到數據量特別大的問題,因為我是用Excel。之前有一個恐怖襲擊的數據庫,我記得當時好像有三十幾萬行,Excel還是能夠處理的。如果真的是處理不了的話,我們就會用Python進行處理。

Q:數據新聞中的數據一般是通過什麼樣的方式獲取的?

A:我自己會分成三類。 第一種是公開的數據 ,類似年報或統計數據,是別人已經整理好了的,然後你拿過來用一下,或者是學者的一些數據; 第二種是需要你自己分析出來的數據 ,比如説我們進行爬蟲,然後進行數據分析,比如我們之前整理新冠類型流量做一個數據分析; 第三種是直接找公司要的數據 ,比如之前我們有一個報道講上海恢復常態的事情,找的好像是高德,通過這些公司要到的車流量數據。

Q:可以具體講講製作流程裏面的數據框架嗎?這個框架如何搭比較好?要搭到什麼程度比較合適?

A:製作流程的數據框架每個人都不太一樣。比如説關於副業的數據框架,首先我們對豆瓣的關於副業失敗的帖子做了編碼,進行分類。我們會統計涉及具體什麼副業,它屬於什麼樣的副業類型,做這份副業持續了多久,什麼原因失敗的,有沒有賠錢,賠了多少,有沒有賺錢,賺了多少……做這麼一個編碼整理。

然後基於編碼做統計總結,比如因為性價比太低做副業失敗的一共多少人,因為一直沒有收益沒有起色失敗了有多少人,標註數據的來源。這個時候我會附上一個草圖,給到設計師去參考。

同樣的這裏整理出來最經常提到的失敗副業是什麼, 把想做成那個圖表的具體的數據表格給整出來,這就是我們的一個數據框架。

Q:在搜索數據的過程中是否會出現信息安全、用户隱私等問題?怎麼進行處理呢?

A:目前沒有遇到過這個問題,因為涉及到用户隱私的問題的主要都是平台,我們拿到的數據都是公開的數據、公開信息,好像暫時沒有遇到過這個問題。

Q:會出現數據不準確的問題嗎?怎麼樣確認獲取數據的準確性呢?

A:首先看這個數據是誰發佈的,是什麼機構。然後再看它的方法論,這個數據是怎麼來的,研究了多少個樣本,是怎麼得出數據的。拿到數據之後我們也會核實,如果它是專業性比較強的東西,我們也會給記者去做一個確認,讓他確定這個趨勢是沒有問題的。

與此同時,如果我們有多方的數據的話,會做交叉的驗證。

Q:一般會如何選取主題呢?如何判斷一個主題是不是適合數據新聞呢?

A:總體來説我們會分成兩個部分, 一個是它從選題角度來説是不是有意義的,另一個就是有沒有足夠的可靠的數據來支撐選題 。你報的選題,讀者是不是真的關心?如果它是一個可以做的選題,那麼有沒有足夠的數據來支撐?有很多選題沒有足夠的數據源來支撐,比如説限電的事情,我們是可以參考公司公報限產之類,但是它的數據還太薄了,沒有一個比較彙總的數據庫來做這個東西,可能我們權衡之下就會考慮不採取數據新聞這個形式,因為有條線記者也會在跟這個事情。

Q:如果遇到一些反爬蟲的網站(比如裁判文書網),但所需數據都在此類網站上,應該怎麼蒐集數據呢?

A:反爬蟲的網站先看能不能用技術代碼來解決,如果不能,一般就是人工笨辦法。我們之前有遇到過一個數據表格下載是有IP限制的,比如説一天只能下50,我們真的就是用很多個同事的不同的電腦不同的IP來下,很多時候沒有辦法。

Q:數據新聞中是數據輔助新聞還是新聞故事串聯數據?

A:看你想怎麼操作選題。如果你是從數據中發現了新聞點,可能你的數據就是主體;如果是做一個新聞的跟進,比如之前東航的事情,我們就有做一圖讀懂,以一個具體的新聞故事作為驅動,配套找很多對應的數據做解析。

Q:樣本量的選取一般怎麼控制呢?比如説副業那一篇稿子是怎樣確定訪談的個數的呢?

A:當然是越多越好。我們一般會選定一個特定的區間,然後把它全部爬下來。我記得我們好像在副業失敗小組裏面,檢索了失敗這個關鍵詞,然後對所有的帖子進行了編碼,因為有的帖子他們講的不是自己失敗的經驗,只是單純的提問,我們就把這部分給篩掉了。

如果是樣本特別多的情況,一般就會選取一年或兩年的數據做分析,比方説對於某個事情的一個微博的情況,可能就會爬關鍵詞近一年的情況。

主要是取決於最終你得出的樣本量有沒有足夠多,以及你的操作時間要多久。

數據新聞大環境

Q:感覺目前大多數的數據新聞例子的體量都較小,如果要做較全面的內容,怎麼 實現各部分內容的融合, 以故事連接嗎還是其他方法?還是説數據新聞更多做垂直方向?

A:全面的內容是説 更多數據的方向 。對於數據新聞未來的融合方向其實大家都在摸索階段,因為數字是非常冰冷的東西,你不可以只把數據單獨拋出來,你肯定要挖掘一些數據背後的東西,它又涉及很多方面。

你的稿子也可以做很多方面,比如説你看到一個數據,這個數據是怎麼來的?過程中就有很多有意思的的事情,比如説之前有一個特稿講城鎮化率,其實背後就是通過買房來完成這個指標,所以你看到某個數據的時候,它是怎麼來的,就是一個很有意思的特稿內容。

每一個數據它意味着什麼東西,它也是一個很好的內容。 它可能是一個邏輯鏈上的問題 :一個數據它是怎麼來的?這個數據意味着什麼?它會影響到怎麼樣的人?都是可以做的問題。

數據新聞體驗感

Q:比較好奇對於一個數據新聞記者來説,數據挖掘、可視化製作、寫稿子之類的好像都會接觸到,那其中比較重要或者説必備的技能應該是什麼呢?

A:我覺得不單單是記者,每個從業者的專長都是不太一樣的。比如説我有一個同事很擅長做Python分析,他可以通過這種技術驅動做到很多選題,我可能更多做的是選題意識方面的東西,就是我比較喜歡追求能夠通過數據挖掘到一些別人不知道的事情,可能我另外的同事他非常擅長做熱點稿。

所以我覺得 其實每個人他擅長的東西都是不太一樣的,主要就是把你最專長的東西發揮到位。

Q:日常的可視化設計是由另外的設計部負責嗎?對記者這方面的要求高嗎?

A:我們的可視化設計是由設計師來負責的。 對記者的要求是,首先要了解基本的技術 ,比如AI和PS的一些基本操作,然後要大概瞭解一些可視化的基本守則,比如説座標軸要統一。

Q:一張圖表中信息呈現的方式更多是由記者來決策還是負責設計的人員呢,二者如何溝通?

A:圖表中信息呈現的方式,其實更多都是溝通來決定的。因為設計師他可能更懂設計的專業性,記者可能更懂稿子,比如説我會跟設計師説,我需要強調什麼東西,但是具體用什麼圖表、什麼展現形式,設計師可以做一些決定。

Q:一個數據新聞製作從頭到尾的週期大概要多久?做一個報道的團隊人數有多少?

A: 製作週期和報道團隊人數都需要看項目 ,短線的一些快稿可能一兩天我們就發出來了,長的可能需要耗時一兩個月。比如説我們團隊當時做了很多冬奧的項目,然後有一些冬奧的遊戲的交互的H5,可能真的要做兩三個月。關於報道團隊人數,如果你對某一個稿子感興趣,你可以看作者的署名,大概就知道這個項目需要多少的人力。

Q:數據新聞比起其他的報道,更多的是和數據打交道,而不會接觸很多采訪對象,您覺得這樣的工作體驗是怎麼樣的呢?會有覺得枯燥的時候嗎?

A:我覺得説到採訪對象這個事情其實有兩個部分。 首先,你也可以去做採訪,沒有人限制你不能去做採訪 。像我們剛剛説基於數據發現的東西,比如你找的那個人是最強舉報人,你通過裁判文書網,找到這個人然後做一篇稿子,或者是你有數據跑出來了,你去採訪專家,問他為什麼是這個情況,專家會給你很多解讀。其實我們也會做採訪,只是我們做了很多數據驅動的選題,要在前期做過很多調研工作而已。

另一部分就是我們也會有跨部門的合作 。比如説我們會跟國際新聞、環境報道、時事新聞等等的同事做合作,做一個很完整的選題。我們提供思路,提供很多數據可視化的方向,他們提供他們條件和非常專業的經驗,以及一些對應的技巧,然後我們進行跟配合。

這樣的工作體驗我自己是非常感興趣的,因為 通過數據發現一個別人沒有發現的東西是非常有意思的 。以往我們可能是發生了一個事件,然後你做了一篇報道, 但數據新聞可以讓你跳出這種時間的限制,跳出這種事件的限制,你是基於自己的發現做了一篇稿子 。你完全不用因為沒有事情發生而擔心自己沒有稿子可以做。

*文中圖片來自受訪者與網絡

話題互動

你喜歡看數據新聞嗎?

你覺得數據新聞枯燥嗎?

數據新聞的發展路徑與前景如何?

歡迎在評論區留言討論

END

推薦閲讀

點擊下方圖片即可閲讀

數字時代的焦慮和疲憊:人們為何逃離社交網絡?| 芒種觀點

「其他文章」