路透社如何收集和分析監獄温度數據 | 路透社
Clare Farley,Disha Raychaudhuri
插圖:Adolfo Arranz在報道一篇關於氣温上升對美國監獄人口影響的專題時,路透社試圖解答:有多少監獄為囚犯提供降温設施?監獄內部温度究竟多高?路透社向美國各州及聯邦懲教部門提交了公共記錄申請,要求獲取監舍空調系統配置數據及室內温度記錄副本。
監獄缺乏空調可能導致危險的高温環境,引發嚴重健康問題甚至極端情況下的死亡。
數據收集
2024年2月,路透社提交公共記錄申請,要求提供各成人監獄監舍空調配置的電子表格或電子記錄。35個州作出回應,其中29個州提供了記錄,6個州拒絕請求或表示未保存相關記錄。
廣告·繼續滾動管轄全美122所聯邦監獄的聯邦監獄管理局未回應路透社關於空調設施數量的問詢。
2024年12月,路透社再次提交公共記錄申請,要求獲取2023年12月1日至2024年12月1日期間各成人監獄監舍區域的每日內部温度讀數。根據對在押人員的採訪,僅配備空調並不能確保監舍內部温度適宜。路透社確認全美有16個州處於易受高温影響區域或僅提供有限空調設施,本次申請未包含聯邦監獄管理局數據。
對這些請求的回覆以電子郵件、電子表格和PDF文件的形式呈現。
馬里蘭州公共安全與懲教服務部門提供的空調記錄示例。### 空調記錄
路透社根據各住房單元空調配置的反饋,製作了一份統一的標準電子表格。
每個監獄都被分配了一個唯一標識符(數據中的facility_id),與國土安全部(DHS)的監獄邊界數據庫相匹配。國土安全部的數據集包含監獄、拘留中心、重返社會設施、看守所和青少年拘留中心的地理邊界及屬性。廣告·繼續滾動如果某個facility_id在我們的電子表格中被標記為NA,可能是因為該設施是新建的,自國土安全部上次更新以來才開放。在其他情況下,某個設施可能被官方歸類為其他類型,因此在國土安全部的數據庫中無法找到。為了對空調狀態進行分類,路透社創建了兩個額外字段:ac_status和ac_status_details。對於ac_status,監獄被標記為:* 是:至少有一個住房單元配備空調。這包括機械空調和蒸發冷卻系統(俗稱沼澤冷卻器)。
- 否:沒有任何住房單元配備空調
- 不適用:無可用文件確定空調狀態
字段 ac_status_details 提供額外信息:* FULL:所有住房單元均配備空調
- PARTIAL:至少有一個住房單元配備空調
- NONE:所有住房單元均無空調
- NA:無文件可確認空調狀態
路透社調查發現,29個州近50%的州立監獄住房單元部分或完全無空調。德州刑事司法部報告稱,其58個設施中有51個屬於此類——在所有回應路透社的州中數量最多。馬里蘭州14所州立監獄均未安裝空調。
設施內存在空調系統並不保證其正常運行。部分州提供了額外細節説明空調設備是否需要維護。若某州報告住房單元配備空調,路透社默認這些系統可正常為在押人員提供冷氣。
廣告·繼續滾動此外,監獄可能在我們獲取記錄後已加裝空調系統。
室內温度記錄
路透社從五個州獲得了室內温度記錄副本,各州提供的文件均採用其特定記錄格式。
例如,德州刑事司法部提供了無空調住房區域每日下午3點的温度數據,而有空調區域的數據則為隔幾日記錄的下午1點數據。
德克薩斯州刑事司法部提供的温度記錄,顯示無空調居住區每日下午3點測量的温度。加州懲教署以掃描PDF文件(包含手寫記錄)的形式提供了2024年5月至9月的温度記錄。路透社共收到189份PDF文件,超過28,000頁。其中,路透社確認20,326頁與室內温度直接相關。
阿維納爾州立監獄的室內温度記錄樣本。
加州藥物濫用治療所及州立監獄的室內温度記錄樣本。我們重點處理加州數據,因為該州部分懲教設施位列全美十大最熱監獄——這些場所户外日均温度連續多日超過85華氏度(29攝氏度)。我們採訪的大多數在押人員也集中在加州州立監獄。
為加速處理海量數據,路透社採用Gemini 2.5 Pro(谷歌最先進AI思維模型)讀取並提取温度日誌信息,最終輸出JSON格式結果。廣告 · 繼續滾動PDF的每一頁都上傳至Gemini 2.5 Pro,並附有詳細的數據提取指令。AI提取的數據經過人工清理後合併為單一數據集。我們進一步篩選該數據集,僅包含2024年6月至8月的室內温度記錄,這些數據可在此處查看。2024年6月至8月期間,加州所有州立監獄的平均室內温度為76.2華氏度(24.6攝氏度)。最低和中等安全級別的Sierra Conservation Center監獄設施錄得最高平均值84華氏度(29攝氏度)。多個設施出現危險高温,部分室內温度高達104華氏度(40攝氏度)。
加州洛杉磯縣州立監獄的温度記錄顯示,室內温度曾達104°F(40°C)。### 數據驗證
為驗證加州內部温度記錄的轉換準確性,路透社通過計算精確匹配率(AI輸出與原始手寫PDF完全一致的條目百分比)及數值差異程度,評估了AI提取流程。
路透社從加州隨機抽取384份温度記錄樣本。樣本量採用費希爾公式:
費希爾公式其中:
- n = 樣本量
- Z = 對應置信水平的z分數
- p = 預期比例
E = 誤差範圍或置信區間,用於表示不確定程度
不同置信水平對應的z分數值我們選擇了95%的置信水平(95%置信度對應1.96的z分數),保守地採用0.5(50%)的比例以獲得最大樣本量,並設定5%(±5%對應0.05)的誤差範圍。由此計算得出樣本量為384份。隨後我們人工核對了這384份AI輸出結果與加州懲教署原始PDF文件的匹配情況。
該模型正確讀取和轉錄手寫體温數據的準確率為95%,在95%置信水平下誤差範圍為±5%。不過大多數誤差較小。當温度誤差在±1華氏度(0.6攝氏度)範圍內時,成功率升至97%。
在五次案例中,路透社在人工核查時無法辨認原始手寫內容,或AI輸出為空白。在既有可辨識記錄温度又有AI提取結果的情況下,平均絕對誤差(MAE)——即AI輸出與實際記錄的偏差——為2.6華氏度(1.4攝氏度)。均方根誤差(RMSE)對較大偏差更為敏感,其值為3.5華氏度(1.9攝氏度)。這意味着AI提取的温度數據平均與實際記錄温度相差約3.5華氏度。
這些結果表明模型表現可靠,且通常能生成接近原始結果的數據。
不匹配情況主要出現在PDF具有以下特徵時:
- 難以辨認或潦草的手寫內容
* 被劃掉並重寫的温度記錄
* 缺失的條目
* 掃描質量差的文檔
### 貢獻聲明
所有數據與方法論均公開於GitHub:https://github.com/reuters-graphics/prison-heat-records路透社關税觀察簡報是您獲取全球貿易與關税新聞的每日指南。立即訂閲
- 推薦主題:
- 美國