生命本質上是數字化的_風聞
观察者网用户_241051-2019-09-04 09:30
摘要:社會生活越來越多地發生在數字環境中,並繼續通過數字系統進行調解。大數據來源於數字生活,數字痕跡和數字化生活。使用大數據來研究難以觀察的各種現象具有巨大的潛力,但是仍存在一些需要解決的問題。
大數據來源
大數據是巨大的和異構的,包括從YouTube到書籍數字檔案的一切。基於數據收集的軌跡可以確定大數據的來源:
1.數字生活。越來越多的生命本質上是數字化的。Twitter,Facebook和維基百科都是行為在線的平台,此類平台上的行為通常基本上由平台所有者捕獲。第三方可以從這些平台收集數據。
2.數字痕跡。現代複雜的組織創建了穩定的記錄輸出,記錄了所採取的行動(有時標記為元數據)。比如來自電話的呼叫詳細記錄、政府數據,如選民記錄,政治捐款數據和税收數據。
3.數字化生活。數字化生活代表以數字形式捕捉非本質數字生活(即大部分生命)。早於計算機的信息對象可以很容易地掃描成可操作的數字形式。
大數據機會
大數據的世界中存在的一系列截然不同的機會。
1.海量,被動:大規模行為數據
原則上,大數據提供了實際行為的衡量標準,而不是行為的自我報告。現有文獻中充斥着自我報告行為問題的證據。一般來説,自我報告的行為是嘈雜的,帶有各種系統性偏見。
2.實時監測
採用傳統方法更新重要統計數據,監控至關重要的現象的運行成本非常高,部署起來非常耗時,而且在時間和地理粒度較高的情況下也不準確。通過社會生活的數字化,降低了成本、提高了準確性和增加社會監測規模的潛力。
3.社會系統數據
大數據最令人興奮的地方是有機會建立一門關於社會的科學,這是一門研究大規模社會的科學,由子系統和個人組成,這些子系統和個人以特定的方式和地點動態地連接在一起。系統數據被用於回答有關人類流動的長期問題。
4.自然和現場實驗
所有種類的自然實驗都可能隱藏在大規模數據中。大數據為研究外部事件對正在進行的社會過程的影響提供了一個環境。大數據可以通過數據鏈接捕獲現場實驗的影響。大數據系統本身可以通過對其策略和實踐進行細微且不那麼微妙的更改來改變用户行為,從而創建自然實驗。
5.使大數據變小
大數據通常包含小數據。“使大數據變小”的研究,要麼使用大數據觀察傳統上難以接觸到的人羣,要麼利用大量非常具體的案例來生成穩健的估計。大數據提供了對傳統上未被充分代表的人口的數據的訪問。
大數據弱點
大數據造成了一種錯覺,即它們包含了所有相關人員的所有相關信息。然而,萬物之間的差異仍然是無限的,圍繞有效性和概括性的社會科學研究的核心問題仍然適用。此外,某些大數據可能非常脆弱,容易受到數據生成過程中的變化以及由於它們具有實質性影響而引發的攻擊。
1.普遍性
大數據幾乎總是提供一套獨特的優勢和劣勢的便利樣本。然而,目前容易獲得的數據與迄今為止社會科學中常見的大多數方便樣本不同。其中許多通常是便利普查:對符合特定標準的某一組個人或行為的完整記錄。數據的規模和表面上的全面性往往掩蓋了包含和選擇的主要問題,因此也就掩蓋了代表性和普遍性。
許多大數據普查工作都渴望捕獲所有可能的數據,但這樣做沒有系統的抽樣框架。試圖在沒有抽樣框架的情況下創建普查會導致與選擇、缺失數據和薄覆蓋率相關的誤差不可估量。
2.太多大數據
太多的大數據綁定到各個平台提出了另一個問題:當相關的行為跨越這些平台時,與之交互的數據存在於各種不同的數據集中,數據將繼續分裂。
3.人工與反應
大數據系統本身容易受到各種錯誤和盜用的影響。平台不僅表示數據,而且還生成數據。在某些情況下,很難將由系統中的錯誤導致的觀察結果與那些表示潛在行為的實際變化的觀察結果區分開來。當平台改變其運作方式時,記錄的行為和行為方式都會發生變化。這些變化可能對科學產生負面影響。
4.理想的用户假設:機器人、木偶和操縱
在大數據分析中,我們經常假設數據是由特定類型的用户生成的,通常是單一的、獨特的人,他們通過自己的個人帳户誠實地表達自己。這種理想的用户假設在各種各樣的關鍵情況下都不成立。許多帳户不是由人類操作的。此外,用户可以擁有多個帳户,有時意圖隱藏用户的真實身份。最後,人們、組織甚至民族國家都將平台用於意外的用途。總而言之,需要驗證而不是假設理想用户的特徵,並且需要對生成大數據的非理想用户進行自己的研究。
研究倫理
研究人員、機構和社會在獲取和使用大數據方面存在重大的倫理問題。然而,問題是,對於規則應該是什麼,沒有達成共識,提出的政策和建議差異很大,往往相互矛盾。這些倫理問題又提出了有趣的可研究問題,從圍繞重新識別的問題到受試者同意的意義和管理。
規範知情同意是人類受試者研究的核心,只是尚未解決的核心問題之一。其他公開問題包括次要主題的權利,衡量隱私權損失的危害,以及規範泄露數據的狀態。大學的作用在這裏變得至關重要,因為它是監管機構執行規則和保護學者的一部分,也因為它提供了授權合規的培訓基礎設施。
未來趨勢
研究人員使用大數據以新的方式回答舊問題和以前從未回答過的新問題。大數據的六個趨勢。
1.更多數據到來
大數據將繼續增長到更多領域。隨着圖書館數字化收藏,報紙數字化檔案,以及谷歌圖書和古騰堡項目數字化圖書等計劃,大數據也將繼續回到過去。不同大數據之間的更多聯繫將變得更加普遍。
2.不同數據來臨
分析圖像、音頻和視頻等大數據的工具越來越多地通過可公開訪問的界面(如Google Cloud Vision API)提供。通過可公開訪問的模型,研究人員將其文件上傳到服務,該服務使用預訓練模型對文件進行推斷,然後發送這些推斷回元數據。
3.模型更加通用
創建通用模型並向公眾提供。通用模型允許研究人員在自己的數據上使用預訓練的機器學習模型,而不必處理數據處理和模型規範的問題。這些開箱即用的機器學習項目希望使用大數據來創建最有效的模型,然後使這些模型成為處理非結構化數據的標準。
但是,通用模型在應用任務方面不一定比專業模型更好。並且,在沒有社會理論的情況下,這些通用模型可能會錯過數據中明顯的社會模式,可能會加劇長期存在的社會偏見。
4.來自多個平台的數據將成為標準
隨着大數據系統的激增和多個系統提供類似的服務,研究人員在不同平台上進行研究的可能性將越來越大。
5.大數據的定性方法
將結合定性方法和計算方法來處理大規模數據。數字檔案的搜索和整理對於定性的理解來説是必不可少的。在最簡單的層面上,這可能只需要關鍵字搜索,有針對性地閲讀和手工編碼是可行的。
6.方法論整合
大數據將越來越多地與社會學中現有的研究方法相結合。二十一世紀最引人注目的社會學研究將不是大數據,而是與重要問題相關的數據源的融合。調查數據將鏈接到檔案數據的一小部分,為整個檔案提供推理能力。可以識別大數據中有趣或典型的案例進行定性探索。反過來,科學的回報應該是洞察以前被忽視的現象,與整個社會的必要性和動態性相關。
大數據的未來與過去一樣光明和充滿希望。雖然社會學在使用大數據時通常落後,但該領域有很多機會可以利用這些挑戰和辯論來應對。此外,越來越多的數字媒介社交活動和日益數字化的社交生活意味着在可預見的未來,將大數據方法整合到社會學中的需求將隨着社會學家的相應需求而增加,這有助於我們理解日益數字化和數字化世界。