重磅乾貨!如何透過數據快速定位研究問題_風聞
观察者网用户_241051-2019-12-03 09:46
摘要:從事定量研究的前提是要有數據。在獲得數據之後,如何檢驗數據的性質和質量,併科學合理的分析數據成為更為重要的問題。本次推薦澳大利亞昆士蘭大學的馬克·D·查特菲爾德教授帶來的繪製“隨時間變化的個體數據”方法,在探索縱向和麪板數據集時,繪製每個個體(樣本)隨時間變化的數據圖表,洞察數據的性質和質量,生成假設,併為數據分析提供信息,從而有效幫助研究者選擇適當的分析方向,避免浪費寶貴的時間。
這是社論前沿第S1482次推送
微信號:shelunqianyan
簡 介
一個好的統計學原則是,在進行任何分析之前,必須對數據集有一定的熟悉和探索。繪製原始數據圖表是探索數據的一種有用的方法,它可以讓您和您的研究團隊更好地理解數據。例如,它可以闡明數據的性質和質量(數據模式、離羣值等),並且可以幫助選擇適當的研究議題和研究方向,避免時間浪費和減少研究中的沮喪。
Cox討論了數據圖表,強調個人之間或個人與羣體之間的比較。在探索數據集時,繪製每個個體隨時間變化的數據圖表的方法被忽視了。就其本質而言,這種方法強調個體內部(而不是個體之間)的差異。研究幾個人的圖表可以加深對數據的理解,併產生關於可能會對數據提出什麼問題以及如何分析數據的想法。
隨着時間的推移,在具有多個個體的大量信息的數據集中,繪製原始數據可能是具有挑戰性的。符號和線條可能會相互重疊,使圖表難以閲讀。一種解決方案是為每個人製作一個單獨的圖表。在本文中,將提供帶有註釋的代碼,説明如何在更一般的設置中生成個體數據圖表。
本文使用1968至1988年的美國勞動力市場經歷縱向調查數據來做一個簡單的示例分析。該數據是一個公共數據,可以在聯網情況下在Stata軟件通過命令直接調用:
“use http://www.stata-press.com/data/r15/
nlswork.dta”
該數據包含4711名婦女在就業、未入學和完成學業、工資超過每小時1美元但每小時不到700美元的時變數據。數據中的每個女性在接受調查的每一年都有一行數據。年份編碼為兩位數的年份,範圍從68到88。數據集包含隨時間變化的工資和其他相關因素。
在做隨時間變化的個體數據圖表之前,輸入命令“set scheme sj”“set autotabgraphs ”設置圖形方案。
一個簡單示例
2.1為個體繪製一張隨時間變化的單變量數據圖表
假設我們希望為每個個體生成隨時間變化的工資圖。我們可以在y軸上繪製工資,在x軸上繪製年份,檢查工資的變化。因為有些工資比其他數據高得多,所以我們把工資截斷為每小時20美元。
繪製每個個體隨時間變化的單變量數據圖表命令:
(温馨提示:點擊查看大圖)
報告個體編號為5的數據圖表:
(温馨提示:點擊查看大圖)
2.2命令解釋
命令的編寫邏輯是:首先,告知stata軟件,生成特定的個體數據圖表;其次,通過命令進行數據概括和添加,以便為每個個體生成一個單獨的圖。最後,將圖形保存到.docx文件中。具體的每項命令涵義:
第一行關閉一個打開的文檔,否則什麼都不做;
第二行創建用於導出的新文檔;
第三行將一個段落添加到文檔中,這是必需的,以便隨後可以添加圖像;
在foreach循環內部,在將.png文件立即添加到文檔之前,將圖形寫入.png文件。對於下一個idcode,將覆蓋.png文件,然後將.png文件添加到文檔中;
最後,關閉文檔並將其另存為“Example 1.Inc.Graphs.docx”,如果.docx文件已經存在,則將其覆蓋。
有關將圖形導出到.docx或.pdf文件的更多信息,請參見[P]putdocx或[P]putpdf。
達到目的後,.png文件從磁盤中刪除。
一個複雜示例
3.1為每個個體繪製一張隨時間變化的多變量數據圖表
首先要做的是,確定個體內部有哪些變量會隨年份變化,哪些變量則不會。在本例中,可以使用命令xtsum查看,那些不隨年份變化的變量的組間標準差為0。也可以使用distinct命令來檢查個體內部的變量是否為常量。
本示例我們四個時變的連續變量:工資、任期、小時數和年齡。將年齡變量age中的信息作為文本添加到x軸附近。檢查其他三個變量的值,使用線性標度並截斷較大的值。
(温馨提示:點擊查看大圖)
接下來,考慮兩個時變的分類變量union和msp。我們檢查這些值並確定字母“U”代表工會,“M”代表已婚,“-”代表在圖表上既不在工會中也不代表已婚。
(温馨提示:點擊查看大圖)
現在考慮非時變變量。先決定在圖表上畫一條垂直線,對應於death_yr變量,表示該個體信息存在。可以在靠近個人idcode的標題中提供有關年級和種族的信息。因為race變量的值是有標籤的,向圖中添加此信息變得更容易。
個體隨時間變化的多變量圖命令:
(温馨提示:點擊查看大圖)
報告個體編號為5的數據圖表:
(温馨提示:點擊查看大圖)
結 語
本文提供了一些示例來分享對許多數據集都有用的思考過程和編碼,特別是幾個變量隨時間變化的數據集,以及存在許多可能的時間點的數據集。
這樣的圖表可能需要一些時間。然而,這是值得花費的時間。人們經常可以看到許多單獨的故事,並且可以選擇一些典型的或不尋常的圖表在會議上進行強有力的演示。希望本文能鼓勵並使您能夠花一點時間以圖形化的方式探索這樣的數據集,思考您所做的將會揭示什麼,會產生什麼樣的想法?