給資料新聞學 (data journalism) 使用的 6 種開源工具

本文翻譯自 opensource.com,原作者為 Scott Nesbitt:https://opensource.com/life/14/7/6-open-source-tools-data-journalism

回到上個世紀 1980 年代末、當我還在新聞學院時,常常需要花好幾個小時的時間來蒐集相關事件的資料,包括研讀、列印文件或微縮影片。

從那個時候到現在,其實已經改變很多了。雖然說印刷的資源仍然是有用處的,但現今已有越來越多的資訊能夠直接在網路上提供給記者。這亦助長了現在什麼都能被稱為資料新聞學的熱潮。從本質上來說,資料新聞學 (data journalism) 是用來發現和訴說事件的行為—像是人口普查的資料、犯罪數據統計、人口統計…等。

有許多強大和昂貴的工具,能讓記者們收集、整理、分析和可視化那些資料,以作為他們準備公布的事件。但也有許多規模較小或較辛苦奮鬥的新聞組織,別說是獨立的記者了,說不定連購買工具的經費都沒有。

但這並不意味著他們受到冷落。

這裡有一些可靠的開源工具,可以提供給新聞記者們來做這項既有效率、又令人印象深刻的工作。本文著眼於六種可幫助新聞記者們得到他們所需資料的工具。

攫取資料

新聞記者們可以透過網路找到許多資料,他們可以下載像是一個電子表格、CSV 或 PDF 的文件。但也有許多的資料是嵌入在網頁中的。 其取代了手動式的複製、貼上這些資料,這招幾乎是每位蒐集資料的記者使用的伎倆。攫取資料變成是種使用自動化工具來抓取嵌入在網頁中的資料的行為,通常是種 HTML 表格的形式。

如果你、或其他在你組織內的成員,是個致力於技術性的工作者,那麼 Scrapy 可能會是你適用的工具。Scrapy 是 Python 編寫的命令列工具,其能快速地攫取網頁中的結構化數據。Scrapy 在安裝和設置上是有點挑戰性的,但它一旦啟動和運行,你就可以利用其一些有用的功能。精通 Python 的編程人員,也能迅速擴展這些功能。

電子表格是新聞記者的基本工具之一。在開源的世界中,LibreOffice Calc 是最廣泛使用的電子表格編輯器。Calc 不僅是用於查看和處理資料。透過利用它的 Web Page Query import 過濾器,你可以點出在資料網頁中包含 Calc 的列表,並攫取在網頁上的一個或全部的表格。。雖然它不是那麼快,不像 Scrapy 有效率,但 Calc 能夠很好地完成任務。

使用 PDF 處理資料

無論是意外還是設計好的,許多在網路上的資料都被鎖定於 PDF 的檔案。在這麼多的 PDFs 檔案裡,是包含許多有用的資訊的。如果你用 PDFs 做任何工作,你知道要從中攫取資料會是件苦差事。

這就是 DocHive,由 Raleigh Public Record 開發、從 PDFs 攫取資料的工具,它出現了。DocHive 的作用是掃描檔案並建立 PDFs。它分析了 PDF 的格式,將其分離成較小的部分,然後使用光學字符識別(optical character recognition)讀取檔案,並將檔案注入到 CSV 的文件裡。若想了解更多 DocHive,可以參考這篇文章

Tabula 類似於 DocHive。它被設計用來攫取在 PDF 上的表格資料,並將其轉為 CSV 文件或 Microsoft Excel 的電子表格。你需要做的是,在 PDF 中找到表格、選擇表格,剩下的就讓 Tabula 來完成吧!。它是快速且高效率的。

整理你的資料

在一般情況下,你攫取到的資料在文字符號的編碼上,可能包含拼寫或格式上的錯誤與問題。這將使資料變得不一致且不可靠,所以整理資料是個不可少的步驟。

如果你有一個小的數據資料集,一個由幾百行訊息所構成的資料,那麼你可以使用 LibreOffice Calc 和你的眼球一起做整理資料的工作。但如果你有的是更大的數據資料集,手做這件事將會是個長期、緩慢且低效的過程。

相反的,回到 OpenRefine。它是個可以自動操作和整理你的資料的過程。OpenRefine 可以將你的資料進行排序、自動查找重複的項目並重新將資料排列。OpenRefine 的真正力量來自 Facets。Facets 就像電子表格的過濾器,可以讓你放大特定的資料列。你可以利用這方面找出空白儲存格和重複的資料,以及看到某些值出現在資料中的頻率。

OpenRefine 可以做的事情不止於此。透過這份文件,你可以得到任何關於 OpenRefine 可以怎麼做的想法。

可視化的資料

能擁有資料及寫篇報導,是個好的主意。而一個好的圖形介面是當試圖總結、溝通、理解資料的時候,其資料是有幫助的。這也解釋了在網路上以及列印出資料圖表的普及化。

你不需要是一個圖形介面設計的巫師、就可以建立一個有效的可視化介面。如果你的需求並不是太複雜,Data Wrapper 就可以建立有效的可視化效果。這是個用來打破建立一個可視化界面的在線工具,其分為四個步驟:從電子表格中複製資料、說明你的資料、選擇你想要的圖形類型、然後將圖形生成。你也許沒有得到廣泛的圖形來使用 Data Wrapper,但是這過程再簡單不過了。

顯然地,這不是給在開源的資料新聞業使用工具的詳細清單。但在本文中討論的這些工具,提供了一個穩固的平台給有預算限制的新聞組織,甚至是一個勇敢的自由業者,使用資料來集結成故事的想法、並且豐富這些故事。




自由軟體鑄造場電子報 : 第 247 期 睡不好嗎?專訪輔仁大學「基於 HTML5 的跨行動平台響應式睡眠節律服務」
標籤: ,  
分類: 源碼秘技