数据预处理是什么4阶梯右转

8月6日2021

数据预处理

现实世界数据多半不完整、吵闹和前后不一

指数式生成数据数和多样数据源数增加后,异常或错误数据收集概率相当高

但只有高质量数据才能导出精确模型并归根结底精确预测因此,关键处理数据 尽可能高质量步处理数据调用数据预处理并列数据科学基本步骤机器学习人工智能

数据预处理是什么

数据预处理进程原数据转换成实用易懂格式现实世界或原始数据通常格式前后不一,人为错误,也可能不完全数据预处理解决这类问题并使数据集更加完整高效地进行数据分析

关键过程可能影响数据挖掘和机器学习项目的成功加速从数据集发现知识并最终影响机器学习模型性能

45%

数据科学家时间花在数据准备任务上

源码 :数据南

换句话说,数据预处理正在将数据转换成计算机易于操作的形式使数据分析或可视化更容易提高机器学习算法的精度和速度

为何需要数据预处理

数据库收集数据点数据点也称观察、数据样本、事件和记录

每种样本使用不同的特征描述,又称特征显示属性化.数据预处理对有效建模这些特征至关重要

收集资料时会产生多问题从不同数据源汇总数据可能导致数据格式不匹配,如整数浮游

提示 :使用自动化能力机器学习软件并道别那些陈词滥调

集合两个或多个独立数据集数据时,性别领域对男子可能有两种不同的值:人和人类似地,如果你汇总来自十大数据集的数据 八大数据集中的字段 其余二大中可能缺失

通过预处理数据,我们更容易解释使用这一过程消除数据前后不一或重复,否则会不利地影响模型精度数据预处理还确保不因人为错误或错误而出现错误或缺失值简言之,使用数据预处理技术使数据库更加完整和精确

特征质量数据

机器学习算法中没有什么比质量更重要训练数据.性能或精度取决于数据的相关性、代表性和综合性

研究数据预处理前 先先研究某些因素提高数据质量

  • 精确性 :名表示精度表示信息正确过期信息、打字和冗余可影响数据集精度
  • 一致性 :数据不应自相矛盾前后不一的数据可能为同一问题提供不同的答案
  • 完整性 :数据集不应该有不完整字段或缺空字段特征允许数据科学家进行精确分析,因为他们能完全了解数据描述的情况
  • 有效性 :数据集被视为有效,如果数据样本以正确格式出现,处于规定范围内并属于右型类型无效数据集难以整理分析
  • 及时性 :数据一发生即应收集时间流逝后 每一数据集都变得不精确实用 因为它不代表当前现实因此,数据时事性相关性是数据质量关键特征

数据预处理的四个阶段

机器学习模型数据为饲料

不完整培训集可能导致偏差等意外后果,对特定群体产生不公平优劣或劣势不完全或前后不一数据也会对数据挖掘项目结果产生负面影响。解决这类问题使用数据预处理过程

数据处理分四个阶段:清理、集成、减法和变换

开工数据清理

数据清理或净化过程净化数据集计算缺失值、清除异常值、纠正前后不一致数据点和平滑噪声数据本质上说,数据清洗背后的动机是为机器学习模型提供完整精确样本

数据清理技术与数据科学家偏好和问题相关快速浏览数据清理问题 和技巧

缺失值

缺失数据值问题相当常见可能在数据收集期间发生或因某些特定数据验证规则而发生在这种情况下,你需要收集更多数据样本或查找更多数据集

缺失值问题当归并两个或两个以上数据集组成大数据集时也会产生。如果不是所有字段都存在于两个数据集中,最好先删除这些字段后合并

解析缺失数据的方法如下:

  • 手填缺失值这可能是乏味耗时方法,不推荐大型数据集使用
  • 使用标准值替换缺失数据值可使用全局常量如未知或n/A替换缺失值直截了当的处理方式 并非易防
  • 以最似然值填充缺失值预测似然值时,可使用算法等后勤回归或决策树
  • 中心趋势替换缺失值中心趋势是值聚集于平均值、模式或中值

数据库中任何一个行或列缺值的50%,最好删除整行或列,除非有可能使用上述方法填充值

噪声数据

大量无意义数据调用噪声.更精确地说,它随机变化测量变量或数据不正确属性值噪声包括重复或半复制数据点、对特定研究过程无值数据段或免用信息字段

举例说,如果需要预测人能驱动,则有关他们的发色、高度或权值的信息无关紧要。

外端可视之为噪声,尽管有些人视之为有效数据点假设你正在训练算法检测图片中的乌龟图像数据集可能包含海龟误标签为乌龟图像可视为噪声

可有乌龟图像 更像乌龟比乌龟样本可被视为异常点,不一定噪声因为我们想教算法所有可能的检测乌龟方法, 离群至关紧要

数值图或盒图识别异常值

使用下列方法解决噪声问题:

  • 回归率 :回归分析可帮助判定有撞击作用的变量这将使你能够只使用基本特征工作,而不是分析大量数据线性回归和多线性回归都可用于平滑数据
  • 宾宁:宾宁方法可用收集排序数据透视周围值平滑排序值排序值再划分为bins表示数据排序小段相同大小拆箱技术不尽相同,包括用拆箱法滑动和用拆箱中值滑动
  • 集群化 :集群算法如k-buses聚类可使用来分组数据并检测进程外端

二叉数据集成

自数据从各种源收集数据集成关键数据编译整合可能导致数个前后不一和冗余数据点,最终导致低精度模型

以下是整合数据的一些方法

  • 数据合并:数据从物理上归并并存储在一个单一地方共享所有数据提高效率和生产率步骤通常涉及使用数据仓库软件.
  • 数据虚拟化:在这种方法中,接口提供多源数据统一实时视图换句话说,数据可以从单点观察
  • 数据传播输入数据从一站复制到二站进程可同步或异步并通常是事件驱动

3级数据稀释

名表显示数据减少用于减少数据量,从而减少数据挖掘或数据分析相关费用

提供压缩表示数据集虽然这一步会减少量值,但它保持原创数据完整性数据减值对减少数据特别重要大数据处理数据量将巨大

下图中用到数据稀释技术

相位性减低

相位性减低,又称维度下降,减少数据集特征或输入变量数

特征数或输入变量称数据集维度特性数越高,越麻烦的是可视化培训数据集并创建预测模型

在某些情况下,这些属性大都相关联,因此冗余维度下降算法可用于减少随机变量数并获取一组主变量

分二维化:特征选择和特征提取

特征选择中查找原创特征集子集允许小子集使用可视化问题数据建模.反之特征提取将高维空间数据减为低维空间或换句话说空间小维

实现维度减法方法如下:

  • 主组件分析统计技术从大数组变量中提取新数组变量新提取变量称主构件方法只对数值特征有效
  • 高关联滤波技术查找高度关联特征并删除或多关联变量可提高数据集多线性
  • 缺失值比:方法删除缺值大于指定阈值属性
  • 低差分滤波器连接去除归并属性差值小于阈值,数据微小修改转换为少信息
  • 随机森林 :技术用于评估数据集中每个特征的重要性,使我们能够保留最重要的顶级特征

维度还原技术包括因素分析、独立组件分析以及线性辨别分析

特征子集选择

特征子集选择过程选择子特征或属性 贡献最大或最重要

假设你试图预测 学生会通过或失败 通过查看历史数据 相似学生数据集四大特征:滚数、总分数、学习时数和课外活动

滚动数不影响学生成绩,可消除新建子集将仅有三大特征并比原创集效率更高

减少数据方法可帮助创建更快和成本效益更高的机器学习模型属性子集选择也可以在数据转换步骤中实现

数值下降

数值下降进程替换原创数据执行方法有两种:参数法和非参数法

参数方法使用模型表示数据日志线性回归法用于创建模型对比中非参数方法存储减少数据表示法使用集群、直方图、数据立方集合和数据采样

4级数据变换

数据变换进程数据从一种格式转换到另一种格式从本质上讲,它包含将数据转换为适当格式的方法,计算机可高效学习

速度单位可时速里数/秒或千米/小时数据集可存储汽车速度值并存于不同的单元中输入数据算法前 需要将数据转换成同单元

以下是数据转换策略

平滑化

使用这种统计方法消除数据噪声并使用算法帮助突出数据集和预测模式中最有价值的特征还需要从数据集消除异常点,使图案更加可见性

聚合式

聚合指集合多源数据并用统一格式显示数据挖掘或分析从各种源汇总数据增加数据点数至关重要,因为只有到ML模型将有足够的实例学习

分解式

分层化包括将连续数据转换成小段数组比方说,将人划分为诸如青壮年、中年或高龄类比使用连续年龄值效率更高

泛化化

泛化化是指将低级数据特征转换为高级数据特征举例说,家庭地址等绝对属性可泛化为城市或州等更高层次定义

规范化

常态化指将所有数据变量转换为特定范围的过程换句话说,用它来缩放属性值, 使它属于小范围范围,例如0比1十进制缩放 最小最大规范化 和zcore规范化 算法数据规范化

特征构建

特征构建需要从给定特征组构建新特征这种方法简化原创数据集并更容易分析、挖掘或可视化数据

概念层次生成

概念层次生成允许你创建特征层次,尽管它没有具体说明举例说,如果有家庭地址数据集包含街道、城市、州和国家数据,该方法可用等级形式整理数据

精确数据 精确结果

机器学习算法像孩子小到完全不理解什么是优或不优仿佛小朋友开始重复从成人收集脏语言一样,不准确或前后不一的数据很容易影响ML模型关键是向它们提供高质量准确数据,而数据预处理则是一个关键步骤。

机器学习算法通常被称为硬工算法常标签懒惰称之为近邻算法并是一个极佳分类算法

机器学习
机器学习101

更多了解机器学习-人工智能分支-它可以不明文编程地从经验中定期学习并改进

机器学习
机器学习101

更多了解机器学习-人工智能分支-它可以不明文编程地从经验中定期学习并改进

数据预处理是什么4阶梯右转 数据预处理过程数据挖掘过程将原始数据转换成易理解和实用格式深入了解相关步骤 //www.ls371.com/hubfs/data%20preprocessing.png
阿迈约比 Amal研究分析G2研究网络安全、块链和机器学习空间他对人脑着迷 并期望解码它全 一天自由时间里 你可以发现他读书籍 沉迷于sifi电影 或抗争渴望吃一块比萨 //www.ls371.com/hubfs/_Logos/Amal%20JUpdated.jpeg https://www.linkedin.com/in/amal-joby/

永不遗漏文章

订阅保持您的手指技术脉冲

通过提交表格,你同意接收G2营销通信