现实世界数据多半不完整、吵闹和前后不一
指数式生成数据数和多样数据源数增加后,异常或错误数据收集概率相当高
但只有高质量数据才能导出精确模型并归根结底精确预测因此,关键处理数据 尽可能高质量步处理数据调用数据预处理并列数据科学基本步骤机器学习人工智能
数据预处理进程原数据转换成实用易懂格式现实世界或原始数据通常格式前后不一,人为错误,也可能不完全数据预处理解决这类问题并使数据集更加完整高效地进行数据分析
关键过程可能影响数据挖掘和机器学习项目的成功加速从数据集发现知识并最终影响机器学习模型性能
换句话说,数据预处理正在将数据转换成计算机易于操作的形式使数据分析或可视化更容易提高机器学习算法的精度和速度
数据库收集数据点数据点也称观察、数据样本、事件和记录
每种样本使用不同的特征描述,又称特征显示或属性化.数据预处理对有效建模这些特征至关重要
收集资料时会产生多问题从不同数据源汇总数据可能导致数据格式不匹配,如整数浮游
提示 :使用自动化能力机器学习软件并道别那些陈词滥调
集合两个或多个独立数据集数据时,性别领域对男子可能有两种不同的值:人和人类似地,如果你汇总来自十大数据集的数据 八大数据集中的字段 其余二大中可能缺失
通过预处理数据,我们更容易解释使用这一过程消除数据前后不一或重复,否则会不利地影响模型精度数据预处理还确保不因人为错误或错误而出现错误或缺失值简言之,使用数据预处理技术使数据库更加完整和精确
机器学习算法中没有什么比质量更重要训练数据.性能或精度取决于数据的相关性、代表性和综合性
研究数据预处理前 先先研究某些因素提高数据质量
机器学习模型数据为饲料
不完整培训集可能导致偏差等意外后果,对特定群体产生不公平优劣或劣势不完全或前后不一数据也会对数据挖掘项目结果产生负面影响。解决这类问题使用数据预处理过程
数据处理分四个阶段:清理、集成、减法和变换
数据清理或净化过程净化数据集计算缺失值、清除异常值、纠正前后不一致数据点和平滑噪声数据本质上说,数据清洗背后的动机是为机器学习模型提供完整精确样本
数据清理技术与数据科学家偏好和问题相关快速浏览数据清理问题 和技巧
缺失数据值问题相当常见可能在数据收集期间发生或因某些特定数据验证规则而发生在这种情况下,你需要收集更多数据样本或查找更多数据集
缺失值问题当归并两个或两个以上数据集组成大数据集时也会产生。如果不是所有字段都存在于两个数据集中,最好先删除这些字段后合并
解析缺失数据的方法如下:
数据库中任何一个行或列缺值的50%,最好删除整行或列,除非有可能使用上述方法填充值
大量无意义数据调用噪声.更精确地说,它随机变化测量变量或数据不正确属性值噪声包括重复或半复制数据点、对特定研究过程无值数据段或免用信息字段
举例说,如果需要预测人能驱动,则有关他们的发色、高度或权值的信息无关紧要。
外端可视之为噪声,尽管有些人视之为有效数据点假设你正在训练算法检测图片中的乌龟图像数据集可能包含海龟误标签为乌龟图像可视为噪声
可有乌龟图像 更像乌龟比乌龟样本可被视为异常点,不一定噪声因为我们想教算法所有可能的检测乌龟方法, 离群至关紧要
数值图或盒图识别异常值
使用下列方法解决噪声问题:
自数据从各种源收集数据集成关键数据编译整合可能导致数个前后不一和冗余数据点,最终导致低精度模型
以下是整合数据的一些方法
名表显示数据减少用于减少数据量,从而减少数据挖掘或数据分析相关费用
提供压缩表示数据集虽然这一步会减少量值,但它保持原创数据完整性数据减值对减少数据特别重要大数据处理数据量将巨大
下图中用到数据稀释技术
相位性减低,又称维度下降,减少数据集特征或输入变量数
特征数或输入变量称数据集维度特性数越高,越麻烦的是可视化培训数据集并创建预测模型
在某些情况下,这些属性大都相关联,因此冗余维度下降算法可用于减少随机变量数并获取一组主变量
分二维化:特征选择和特征提取
内特征选择中查找原创特征集子集允许小子集使用可视化问题数据建模.反之特征提取将高维空间数据减为低维空间或换句话说空间小维
实现维度减法方法如下:
维度还原技术包括因素分析、独立组件分析以及线性辨别分析
特征子集选择过程选择子特征或属性 贡献最大或最重要
假设你试图预测 学生会通过或失败 通过查看历史数据 相似学生数据集四大特征:滚数、总分数、学习时数和课外活动
滚动数不影响学生成绩,可消除新建子集将仅有三大特征并比原创集效率更高
减少数据方法可帮助创建更快和成本效益更高的机器学习模型属性子集选择也可以在数据转换步骤中实现
数值下降进程替换原创数据执行方法有两种:参数法和非参数法
参数方法使用模型表示数据日志线性回归法用于创建模型对比中非参数方法存储减少数据表示法使用集群、直方图、数据立方集合和数据采样
数据变换进程数据从一种格式转换到另一种格式从本质上讲,它包含将数据转换为适当格式的方法,计算机可高效学习
速度单位可时速里数/秒或千米/小时数据集可存储汽车速度值并存于不同的单元中输入数据算法前 需要将数据转换成同单元
以下是数据转换策略
使用这种统计方法消除数据噪声并使用算法帮助突出数据集和预测模式中最有价值的特征还需要从数据集消除异常点,使图案更加可见性
聚合指集合多源数据并用统一格式显示数据挖掘或分析从各种源汇总数据增加数据点数至关重要,因为只有到ML模型将有足够的实例学习
分层化包括将连续数据转换成小段数组比方说,将人划分为诸如青壮年、中年或高龄类比使用连续年龄值效率更高
泛化化是指将低级数据特征转换为高级数据特征举例说,家庭地址等绝对属性可泛化为城市或州等更高层次定义
常态化指将所有数据变量转换为特定范围的过程换句话说,用它来缩放属性值, 使它属于小范围范围,例如0比1十进制缩放 最小最大规范化 和zcore规范化 算法数据规范化
特征构建需要从给定特征组构建新特征这种方法简化原创数据集并更容易分析、挖掘或可视化数据
概念层次生成允许你创建特征层次,尽管它没有具体说明举例说,如果有家庭地址数据集包含街道、城市、州和国家数据,该方法可用等级形式整理数据
机器学习算法像孩子小到完全不理解什么是优或不优仿佛小朋友开始重复从成人收集脏语言一样,不准确或前后不一的数据很容易影响ML模型关键是向它们提供高质量准确数据,而数据预处理则是一个关键步骤。
机器学习算法通常被称为硬工算法常标签懒惰称之为近邻算法并是一个极佳分类算法
永不遗漏文章
订阅保持您的手指技术脉冲