机器学习模型和它们训练的数据一样好。
没有高质量的训练数据,即使是最有效的机器学习算法将无法执行。
在培训过程的早期,就开始需要高质量、准确、完整和相关的数据。只有向算法提供良好的训练数据,它才能轻松地提取特征并找到需要预测的关系。
更准确地说,质量训练数据是机器学习(和人工智能)最重要的方面。如果你将机器学习(ML)算法引入到正确的数据中,你就是在为它们的准确性和成功进行设置。
训练数据也被称为训练数据集、学习集和训练集。它是每个机器学习模型的重要组成部分,帮助他们做出准确的预测或执行所需的任务。
简单地说,训练数据建立了机器学习模型。它告诉我们预期输出是什么样子的。该模型反复分析数据集,以深入理解其特征,并调整自身以获得更好的性能。
从广义上讲,训练数据可以分为两类:标记数据和无标号数据.
带安全标签的数据时是一组带有一个或多个有意义标签的数据样本。它也被称为注释数据,它的标签标识特定的特征、属性、分类或包含的对象。
例如,水果的图像可以被标记为苹果,香蕉,或葡萄.
标记训练数据用于监督式学习. 它使ML模型能够了解与特定标签相关的特征,这些特征可用于对较新的数据点进行分类。在上面的示例中,这意味着模型可以使用带标签的图像数据来了解特定水果的特征,并使用此信息对新图像进行分组。
数据标记或注释是一个耗时的过程,因为人类需要对数据点进行标记或标记。标签数据收集具有挑战性和昂贵。与未标记的数据相比,存储有标记的数据并不容易。
正如所料,无标号数据与标记数据相反。它是原始数据或未使用任何标签标记的数据,用于标识分类、特征或属性。它被用在非监督机器学习,而ML模型必须在数据中找到模式或相似点,才能得出结论。
回到前面的例子苹果,香蕉,葡萄,在未标记的训练数据中,这些水果的图像不会被标记。模型必须通过观察图像的特征(如颜色和形状)来评估每个图像。
在分析了大量的图像后,该模型将能够将新图像(新数据)区分为水果的类型苹果,香蕉或葡萄.当然,模型不会知道这种水果叫做苹果。相反,它知道识别它所需要的特征。
有一些混合模型结合使用有监督和无监督机器学习。
与机器学习算法不同,传统编程算法遵循一组指令来接受输入数据并提供输出。他们不依赖历史数据,他们的每一个行动都是基于规则的。这也意味着它们不会随着时间的推移而改善,而机器学习则不是这样。
对于机器学习模型来说,历史数据是素材。就像人类依靠过去的经验来做出更好的决定一样,ML模型通过观察过去的观察结果来观察训练数据集来做出预测。
预测可能包括对图像进行分类,例如图像识别,或者像自然语言处理(NLP)那样理解句子的上下文。
把数据科学家想象成老师,把机器学习算法想象成学生,把训练数据集想象成所有教科书的集合。
老师的愿望是,学生必须在考试中取得好成绩,在现实世界中也是如此。在ML算法中,测试就像考试。教材(训练数据集)包含了几个考试中会问到的问题类型的例子。
提示:看看大数据分析了解大数据是如何收集、构建、清理和分析的。
当然,它不会包含所有考试中会问到的问题的例子,也不会包含所有教科书中会问到的例子。教科书可以帮助学生做好准备,教他们期待什么和如何应对。
没有一本教科书是完整的。随着时间的推移,提问的类型会发生变化,因此,教科书中包含的信息也需要改变。对于ML算法,训练集应该定期更新以包含新的信息。
简而言之,训练数据是一本教科书,帮助数据科学家给ML算法一个预期的想法。虽然训练数据集不包含所有可能的示例,但它将使算法能够进行预测。
训练数据用于模型训练,换句话说,它是用于适应模型的数据。相反,测试数据用于评估模型的性能或准确性。它是用来对训练数据的最终模型拟合进行无偏评估的数据样本。
训练数据集是初始数据集,用于指导ML模型识别所需模式或执行特定任务。测试数据集用于评估训练的有效性或模型的准确性。
一旦ML算法在特定的数据集上进行训练,并且在相同的数据集上测试它,它就更有可能具有较高的准确性,因为模型知道预期的结果。如果训练数据集包含模型将来可能遇到的所有可能值,那就再好不过了。
但事实并非如此。训练数据集永远不可能是全面的,也不可能教会模型在现实世界中可能遇到的一切。因此一个测试数据集,包含看不见的数据点,用来评估模型的准确性。
还有验证数据.这是一个用于培训阶段频繁评估的数据集。虽然模型偶尔会看到这个数据集,但它不会学习从它。验证集也称为开发集或开发集。它有助于防止模型过拟合和过拟合。
虽然验证数据与训练数据是分离的,但数据科学家可能会保留一部分训练数据用于验证。但当然,这自动意味着在训练期间验证数据被保留了。
提示:如果你只有有限的数据,一种技术叫做交叉验证可以用来估计模型的性能。该方法将训练数据随机划分为多个子集,保留一个子集进行评估。
许多人可以互换使用术语“测试数据”和“验证数据”。两者的主要区别在于,在训练过程中使用验证数据对模型进行验证,而在训练完成后使用测试集对模型进行测试。
验证数据集让模型第一次体验到不可见的数据。然而,并不是所有的数据科学家都使用验证数据进行初始检查。他们可能会跳过这一部分,直接进入测试数据。
圈内人指参与收集和准备培训数据的人员。
原始数据来自多个来源,包括物联网设备、社交媒体平台、网站和客户反馈。一旦收集完毕,参与该过程的个人将确定数据的关键属性,这些属性是您希望模型预测结果的良好指标。
通过清理数据、说明缺失值、删除异常值、标记数据点,并将其加载到适当的位置以训练ML算法来准备数据。还将进行几轮质量检查;如您所知,不正确的标签会显著影响模型的准确性。
高质量的数据转化为精确的机器学习模型。
低质量的数据会显著影响模型的准确性,从而导致严重的经济损失。这就像给学生一本包含错误信息的教科书,却期望他们在考试中取得优异的成绩。
以下是质量培训数据的四个主要特征。
数据需要与手头的任务相关。例如,如果你想训练计算机视觉对于自动驾驶车辆,您可能不需要水果和蔬菜的图像。相反,您需要一个包含道路、人行道、行人和车辆照片的培训数据集。
人工智能训练数据必须具有应用程序预测或分类的数据点或特征。当然,数据集永远不可能是绝对的,但它必须至少具有AI应用程序要识别的属性。
例如,如果模型要识别图像中的人脸,就必须向它提供包含不同种族的人脸的各种数据。这将减少人工智能偏见的问题,而且模型不会对特定的种族、性别或年龄群体产生偏见。
所有数据都应该具有相同的属性,并且必须来自相同的数据源。
假设您的机器学习项目旨在通过查看客户信息来预测流失率。为此,您将拥有一个客户信息数据库,其中包括客户名称、地址、订单数量、订单频率和其他相关信息。这是历史数据,可以用作训练数据。
数据的一部分不能包含其他信息,如年龄或性别。这将使训练数据不完整,模型不准确。简言之,一致性是高质量培训数据的一个关键方面。
同样,训练数据不可能是绝对的。但是它应该是一个代表模型的大部分用例的大型数据集。训练数据必须有足够的例子,使模型能够适当地学习。它必须包含真实世界的数据样本,因为它将帮助训练模型理解预期的内容。
如果您认为训练数据是放置在大量行和列中的值,对不起,您错了。它可以是任何数据类型,如文本、图像、音频或视频。
人类是高度社会化的生物,但有些偏见可能是我们小时候选择的,需要我们不断有意识地努力消除。这种偏见虽然不利,但可能会影响我们的创造,机器学习应用也不例外。
对于ML模型,训练数据是他们阅读的唯一书籍。他们的表现或准确性将取决于这本书的综合性、相关性和代表性。
也就是说,有三个因素会影响训练数据的质量:
人:训练模型的人员对模型的准确性或性能有重大影响。如果他们有偏见,自然会影响他们如何标记数据,并最终影响ML模型的功能。
过程:数据标记过程必须有严格的质量控制检查。这将大大提高培训数据的质量。
工具:不兼容或过时的工具会影响数据质量。使用可靠的数据标记软件可以减少与过程相关的成本和时间。
有几种方法可以获得训练数据。根据机器学习项目的规模、预算和可用时间,您可以选择不同的资源。以下是收集数据的三个主要来源。
大多数业余ML开发人员和小型企业无法负担数据收集或标记依赖于开源培训数据。这是一个简单的选择,因为它已经收集和免费。但是,您很可能必须调整或重新注释这些数据集,以适应您的训练需求。ImageNet,Kaggle,谷歌搜索数据集是一些开源数据集的例子。
大多数中型公司使用互联网和物联网设备收集数据。摄像头、传感器和其他智能设备有助于收集原始数据,这些数据将在以后进行清理和注释。与开源数据集不同,此数据收集方法将专门针对您的机器学习项目的需求进行定制。但是,清理、标准化和标记数据是一个耗时且资源密集的过程。
顾名思义,人工训练数据是利用机器学习模型人工创建的数据。它也被称为合成数据,如果您需要具有特定特征的高质量训练数据来训练算法,那么它是一个很好的选择。当然,这种方法需要大量的计算资源和充足的时间。
对于多少训练数据就是足够的训练数据,没有一个明确的答案。这取决于你正在训练的算法——它的预期结果、应用、复杂性和许多其他因素。
假设您想要训练一个文本分类器,它根据术语“猫”和“狗”以及它们的同义词“小猫”、“小猫”、“小猫”、“小狗”或“狗狗”的出现情况对句子进行分类。这可能不需要一个大的数据集,因为只需要匹配和排序几个术语。
但是,如果这是一个将图像分类为“猫”和“狗”的图像分类器,那么训练数据集中所需的数据点数量就会显著增加。简而言之,有很多因素决定了什么训练数据是足够的训练数据。
所需的数据量将根据所使用的算法而变化。
的背景下,深度学习作为机器学习的一个子集,训练人工神经网络(ANN)需要数百万个数据点。相比之下,机器学习算法只需要数千个数据点。但当然,这是一个牵强的概括,因为所需的数据量因应用程序而异。
模型训练得越多,它就越精确。因此,最好有大量的数据作为训练数据。
“无用输入,无用输出”是数据科学中最古老、使用最多的短语之一。即使数据生成的速度呈指数级增长,它仍然是正确的。
关键是向机器学习算法提供高质量、有代表性的数据。这样做可以显著提高模型的准确性。高质量的培训数据对于创建无偏见的机器学习应用程序也至关重要。
你有没有想过拥有人类智能的计算机能做什么?与人类智能相当的计算机被称为人工总体智能我们还不能断定它是有史以来最伟大的发明还是最危险的发明。
不要错过任何一个邮件。
订阅吧,让你的手指随时掌握科技脉搏。