在實際業(yè)務(wù)中,從各渠道獲取的初始數(shù)據(jù)大多是“臟”數(shù)據(jù)。“臟”數(shù)據(jù)是指源系統(tǒng)中不屬于給定范圍、對實際業(yè)務(wù)無意義、格式非法、編碼不規(guī)范、業(yè)務(wù)邏輯模糊的數(shù)據(jù)。這種數(shù)據(jù)是低質(zhì)量的數(shù)據(jù),存在著一系列的問題。下面為大家介紹一些常見的數(shù)據(jù)問題。
1.數(shù)據(jù)缺失
數(shù)據(jù)缺失是指屬性值為空的一類問題。這類問題主要是由采集、傳輸與存儲設(shè)備故障,數(shù)據(jù)延遲獲取或人為因素造成的。例如,用戶在參與問卷調(diào)研時,未婚用戶未填寫配偶姓名一欄的信息,學(xué)生用戶未填寫月收入一欄的信息,介意填寫個人隱私信息的用戶未上傳照片信息等。
2.數(shù)據(jù)重復(fù)
數(shù)據(jù)重復(fù)是指同一條數(shù)據(jù)多次出現(xiàn)的一類問題。這類問題主要是由人為重復(fù)錄人或傳輸設(shè)備故障造成的。例如,某平臺系統(tǒng)中錄入了兩個ID相同的用戶。
3.數(shù)據(jù)異常
數(shù)據(jù)異常是指個別數(shù)據(jù)遠離數(shù)據(jù)集的一類問題。這類問題主要是由隨機因素或不同機制造成的,需要先經(jīng)過判定再進行相應(yīng)的處理。
4.數(shù)據(jù)冗余
數(shù)據(jù)冗余是指數(shù)據(jù)中存在一些多余的、無意義的屬性。這些屬性可以根據(jù)另一組屬性推導(dǎo)出來,或者蘊含在另一組屬性中,又或者超出業(yè)務(wù)需求。例如,一組數(shù)據(jù)中同時包含月收入和年收入,而年收入可以直接根據(jù)月收入推導(dǎo)出來。
5.數(shù)據(jù)值沖突
數(shù)據(jù)值沖突是指同一屬性存在不同值的一類問題。此類問題常見于多源數(shù)據(jù)合并的場景。例如,身高屬性在一個數(shù)據(jù)源中對應(yīng)一組以cm為單位的數(shù)值,而在另一數(shù)據(jù)源中對應(yīng)一組以m為單位的數(shù)值。
6.數(shù)據(jù)噪聲
數(shù)據(jù)噪聲是指屬性值不符合常理的一類問題。這類問題主要是由硬件故障、編程錯誤、語音或光學(xué)字符識別程序識別錯誤等造成的。例如,一份顧客數(shù)據(jù)中記錄的用戶年齡為負數(shù)。
上述問題是數(shù)據(jù)分析或數(shù)據(jù)挖掘時比較常見的一些數(shù)據(jù)問題,這些數(shù)據(jù)問題會對數(shù)據(jù)分析或數(shù)據(jù)挖掘結(jié)果產(chǎn)生一定的影響,這些數(shù)據(jù)只有被處理成“干凈”的數(shù)據(jù)之后,才可以應(yīng)用到數(shù)據(jù)分析或數(shù)據(jù)挖掘中。
除處理“臟”數(shù)據(jù)之外,初始數(shù)據(jù)的形式或內(nèi)容也需要做一些調(diào)整,以保證數(shù)據(jù)更加符合數(shù)據(jù)分析或數(shù)據(jù)挖掘的需求,為數(shù)據(jù)分析或數(shù)據(jù)挖掘做好準(zhǔn)備工作。