數據清洗預處理 您所在的位置:首頁 > 產品中心 > 谷數大數據平臺 > 數據清洗預處理 >
產品介紹
技術參數
產品資料下載
數據預處理(數據清洗)——CDPP
 CDPP(Ceresdata Data PreProcessing)
數據清洗概念
• 外部數據源數據內容存在著“臟數據”,即數據有空缺、噪音等缺陷
• “臟數據”會扭曲從數據中獲得的信息,影響數據挖掘系統的運行效果,最終影響決策管理
數據清洗內容
• 不完整的數據、錯誤的數據、重復的數據…
方法
• 缺失數據
  • 忽略記錄、使用全局常量填充(NULL)、屬性平均值填充、最有可能值填充(遞歸工具或判定樹 歸納)…
• 錯誤數據
  • 分箱、聚類方法、線性回歸、人際共同檢測…
• 重復的數據
  • 通過相關分析檢測、增加不同數據源的屬性值和語義
92福利