我們正處在大數(shù)據(jù)時代,大數(shù)據(jù)不僅能創(chuàng)造出大量的工作崗位,大數(shù)據(jù)也在推動著整個科技領域向前發(fā)展,包括人工智能領域的研究也需要借助于大數(shù)據(jù),大數(shù)據(jù)的應用也是多領域的,包括醫(yī)療、金融、出行、教育等等,所以大數(shù)據(jù)不等于隱私,大數(shù)據(jù)也并不是通過獲取個人隱私而牟利。
1、個人怎樣獲取大數(shù)據(jù)?
謝謝邀請!大數(shù)據(jù)的數(shù)據(jù)來源主要有三個渠道,分別是物聯(lián)網系統(tǒng)、傳統(tǒng)信息處理系統(tǒng)以及互聯(lián)網應用(Web和App),所以要想獲得大數(shù)據(jù)就要從這三個渠道來獲取。物聯(lián)網系統(tǒng)產生的數(shù)據(jù)占據(jù)著大數(shù)據(jù)中的重要比例,物聯(lián)網產生的數(shù)據(jù)多以非結構化數(shù)據(jù)為主,包括視頻、音頻、傳感數(shù)據(jù)等等,物聯(lián)網的應用領域眾多,比如工業(yè)物聯(lián)網、農業(yè)物聯(lián)網、車聯(lián)網、智慧城市等都會產生大量的數(shù)據(jù),通常情況下這些數(shù)據(jù)的采集都是有嚴格要求的,是不能開放給個人的。
如果個人要想獲得這部分數(shù)據(jù),一個比較可行的方案是跟數(shù)據(jù)采集者進行合作,比如做數(shù)據(jù)分析等業(yè)務,傳統(tǒng)信息系統(tǒng)涵蓋的領域非常廣泛,有政務系統(tǒng)、企業(yè)ERP、教育信息系統(tǒng)、醫(yī)療信息系統(tǒng)等等,傳統(tǒng)信息系統(tǒng)涵蓋的數(shù)據(jù)多以結構化數(shù)據(jù)為主,而且往往有較高的精確度和關聯(lián)關系,這部分數(shù)據(jù)的價值密度也是相對比較高的。但是傳統(tǒng)信息系統(tǒng)涵蓋的數(shù)據(jù)往往涉及到個人隱私、商業(yè)機密等內容,所以這部分內容通常是受到嚴密保護的,
隨著大數(shù)據(jù)技術的發(fā)展,業(yè)界對于政務系統(tǒng)的數(shù)據(jù)開放的呼聲越來越高,經過脫敏的數(shù)據(jù)往往并不會對個人隱私構成侵犯,所以未來某些政務系統(tǒng)的大數(shù)據(jù)會陸續(xù)開放出來?;ヂ?lián)網應用也是產生大數(shù)據(jù)的重要基礎之一,包括各種Web應用以及大量的App產品,這部分數(shù)據(jù)多以半結構化為主,數(shù)據(jù)內容也存在真假難辨的情況,但是由于這部分數(shù)據(jù)的價值密度相對還是比較高的,所以現(xiàn)在不少互聯(lián)網公司就是基于這些數(shù)據(jù)對用戶進行“畫像”,從而進行多維度的分類,
隨著這些互聯(lián)網產品采集的數(shù)據(jù)越來越多,用戶的“畫像”也會越來越清晰,大數(shù)據(jù)分析結果也會越來越準確。對于個人用戶來說,要想獲得這部分數(shù)據(jù),有三個辦法,一個是自己開發(fā)互聯(lián)網應用,另一個是對目前的互聯(lián)網數(shù)據(jù)進行爬取,最后是與互聯(lián)網公司開展合作,這樣也能拿到一部分數(shù)據(jù),雖然現(xiàn)在大數(shù)據(jù)相關技術已經開始逐漸落地,很多傳統(tǒng)信息系統(tǒng)之間也形成了互聯(lián)互通,但是數(shù)據(jù)流通依然有大量的環(huán)節(jié)需要打通,一定程度上的“數(shù)據(jù)孤島”現(xiàn)象依然存在。
2、都說現(xiàn)在是大數(shù)據(jù)時代,那么如何獲取自己想要的數(shù)據(jù)呢?
隨著大數(shù)據(jù)的不斷發(fā)展,數(shù)據(jù)的價值得到了越來越多的關注,要想充分利用大數(shù)據(jù),首先需要有數(shù)據(jù)來源,因此信息采集就成為了一個非常重要的環(huán)節(jié),通常情況下,采集信息有以下幾個渠道:第一:傳統(tǒng)信息系統(tǒng)。傳統(tǒng)信息系統(tǒng)采集的信息往往具有較高的價值,一方面原因是傳統(tǒng)信息系統(tǒng)采集的往往是結構化數(shù)據(jù),易于統(tǒng)計和分析,另一方面原因是傳統(tǒng)信息系統(tǒng)采集的數(shù)據(jù)往往是比較重要的數(shù)據(jù),對后續(xù)的數(shù)據(jù)分析有重要的參考價值,
傳統(tǒng)信息系統(tǒng)包含的內容比較廣泛,比如常見的ERP系統(tǒng)。對于企業(yè)來說,傳統(tǒng)信息系統(tǒng)的建設應該是信息化建設的第一步,第二:Web平臺。信息來源的另一個重要渠道是各種Web平臺,隨著Web應用的普及,尤其是Web2.0的普及應用之后,整個Web系統(tǒng)產生了大量的數(shù)據(jù),這些數(shù)據(jù)也是大數(shù)據(jù)系統(tǒng)的重要數(shù)據(jù)來源之一,
Web系統(tǒng)的數(shù)據(jù)具備幾個典型的特點,比如數(shù)量大、結構多樣性、真假難辨等等,這就需要通過數(shù)據(jù)分析來進一步體現(xiàn)其價值了。第三:物聯(lián)網系統(tǒng),物聯(lián)網與大數(shù)據(jù)的關系非常緊密,物聯(lián)網系統(tǒng)的普及應用是產生大數(shù)據(jù)的重要原因之一,大數(shù)據(jù)的大部分數(shù)據(jù)來源就是物聯(lián)網系統(tǒng)。通常情況下,物聯(lián)網系統(tǒng)有五層結構,分別是設備、網絡、平臺、分析處理和服務應用,設備往往是數(shù)據(jù)的來源,
與傳統(tǒng)信息系統(tǒng)和Web系統(tǒng)不同,物聯(lián)網的數(shù)據(jù)大部分都是非結構化數(shù)據(jù)和半結構化數(shù)據(jù),要想對其進行分析需要采用特定的處理方式,比較常見的處理方式包括批處理和流處理。批處理比較常見的平臺包括Hadoop和Spark,而流處理通常采用SparkStreaming、Storm等,除了以上幾個比較常見的信息采集渠道之外,通過線下活動進行信息采集也是一種獲取信息的手段和方式。