一些专业人士将数据沿袭视为数据的GPS。
这是因为数据沿袭可以帮助用户直观地了解数据的路径和转换。它记录了如何处理、转换和传输数据,以构成企业用于运行其操作的有意义的信息。
数据沿袭帮助企业获得数据如何从源流到目的地的细粒度视图。许多组织使用数据虚拟化软件使用数据沿袭来帮助他们跟踪自己的数据,同时向用户提供实时信息。
数据沿袭是确定数据来源、记录数据如何随时间转换和移动以及可视化数据从数据源流向最终用户的过程。它帮助数据科学家获得数据动态的细粒度可见性,并使他们能够追踪错误的根源。
数据沿袭告诉工程师数据经过的转换及其原因。它帮助组织跟踪错误、执行系统迁移、使数据发现和元数据更紧密地结合在一起,并以更低的风险实现流程更改。
战略业务决策依赖于数据的准确性。如果没有良好的数据沿袭,就很难跟踪和验证数据处理。数据沿袭使用户能够可视化从源到目的地的完整信息流,从而更容易检测和修复异常。使用数据沿袭,用户可以重放数据流的特定部分或输入,以调试或生成丢失的输出。
在用户不需要关于技术沿路的详细信息的情况下,他们使用数据来源来获得数据流的高级概述。许多数据库系统利用数据来源来解决调试和验证的挑战。
数据来源是数据来自何处以及生成数据的方法的文档。
尽管数据来源和数据沿系有相似之处,但对于需要高层次概述数据来源的业务用户来说,数据来源更有用。相反,数据沿袭包括业务级和技术级的沿袭,并提供数据流的细粒度视图。
数据治理是组织用来维护和控制数据的一组规则和过程。数据沿袭是数据治理的重要组成部分,因为它告知数据如何从源流向目标。
企业根据自己的需求使用不同的数据层次。较低级别的数据沿袭提供了数据在组织中如何流动的简单可视化表示,而不包括关于数据在管道中移动时发生的转换的具体细节。最高的一层是属性级数据沿袭,它提供了如何优化数据流和改进数据平台的方法。
组织根据其治理结构、实现和监视中产生的成本、监管问题以及它对业务的影响来选择数据沿袭层。
理解数据沿袭是元数据管理的一个关键方面,因此它对数据仓库以及数据湖管理员。元数据管理允许您查看流经各种系统的数据流,从而更容易找到与特定报告或提取、转换、加载(ETL)过程相关联的所有数据。
收集数据沿程——描述数据的来源、结构和依赖关系——可以自动提高所提供的元数据的质量,并减少手工工作。
约瑟夫Viehhauser
月台领先宝马
数据沿袭不仅帮助您修复问题或执行系统迁移,它还使您能够通过跟踪更改、如何执行更改以及谁进行更改来确保数据的机密性和完整性。
通过数据沿袭,IT团队可以可视化数据从开始到结束的端到端旅程。它简化了It专业人员的工作,并为业务用户提供了做出有效决策的信心。
数据沿袭工具帮助您回答以下问题:
数据沿袭系统的需求主要由个人的角色和组织的目标决定。然而,数据沿袭可以在以下领域产生重大影响:
专业人士将数据沿袭视为dataGovOps实践,其中沿袭、测试和沙箱属于数据治理实践。
“数据沿袭是“了解”客户数据场景和理解已实现的数据转换的最重要技术之一。”
沃尔夫冈•摩根
数据顾问Cubido Business Solutions GMBH
沃尔夫冈•摩根进一步补充道:“了解组织中数据岛和系统之间的依赖关系是至关重要的。这不仅从技术角度来看是必需的;对数据在系统之间的流动了解得越多,就可以更好地作出反应,查看信息的来源,以及在到达目标系统的过程中应用的转换。在我们的一些项目中,我们已经能够找到甚至客户都没有意识到的系统依赖关系。”
数据沿袭可以通过多种方式帮助不同工作角色的个人。例如,ETL开发人员可以在ETL作业中找到bug,并检查数据字段中的任何修改,如列的删除、添加或重命名。数据管理员可以使用沿系来标识ETL作业中最没用和最有用的数据资产。对于业务用户来说,它有助于检查报告的准确性,并识别生成错误报告时所涉及的流程和作业。
数据沿袭在机器学习,用于根据新的或修改过的数据对模型进行再培训。它还有助于减少漂移模型。模型的漂移是指由于数据的变化以及输入和输出变量之间的关系而导致的模型性能的下降。
学术学者有时会以不同的方式使用粗粒度和细粒度的数据沿袭,但这个概念基本上涵盖了用户可以获得的数据沿袭级别。
粗粒度的数据沿袭描述数据管道、数据库、表以及它们如何相互连接。通常,沿袭收集系统在运行时积累粗粒度沿袭。它们捕获数据管道、数据库和表之间的互连性,而不涉及用于修改数据的转换的细节。这有助于降低捕获开销(关于数据流的详细信息)。在用户为了调试目的而想要进行取证分析的情况下,他们必须重放数据流,以收集细粒度的数据沿袭。
另一方面,细粒度的数据沿袭介绍创建或修改数据的详细应用转换。活动沿袭收集系统在运行时捕获粗粒度或细粒度的数据沿袭。它支持出色的重放和调试。但是,由于细粒度沿袭数据量很大,捕获开销很高。
数据沿袭可以帮助组织在整个生命周期中跟踪数据流,查看依赖关系,并理解转换。团队利用数据流的细粒度视图,并将其用于许多目的。
当销售数字与财务部门的记录不匹配时,就会出现混乱,而且很难准确指出实际存在错误的地方。数据沿袭为此类实例提供了合理的解释。业务智能(BI)管理人员可以使用数据沿袭来跟踪完整的数据流,并查看在处理过程中所做的任何修改。
不管是否存在错误,BI经理都可以放心地为这种情况提供合理的解释。如果出现了错误,团队可以从源头对其进行纠正,从而使不同团队之间的最终用户数据保持一致。
在升级或迁移到新系统时,必须了解哪些数据集是相关的,哪些数据集已经过时或不存在。数据沿袭可以帮助您了解用于执行业务操作的实际数据,并限制存储和管理无关数据的开销。
使用数据沿袭,您可以无缝地计划和执行系统迁移和更新。它帮助您可视化数据源、依赖项和流程,使您能够准确地知道需要迁移什么。
在实现更改之前,任何好的业务都能识别报告、数据元素和受影响的最终用户。数据沿袭软件帮助团队可视化下游数据对象并度量变更的影响。
数据沿袭允许您了解业务用户如何与数据交互,以及更改将如何影响他们。它帮助企业理解特定修改的影响,并允许他们决定是否应该遵循。
组织可以使用一些标准技术对战略数据集执行数据沿袭。这些技术确保跟踪每个数据转换或处理,使您能够在信息资产经历流程时的每个阶段映射数据元素。
数据沿袭技术在每次数据转换后收集和存储元数据,这些元数据稍后用于数据沿袭表示。
家族通过解析读取用于处理数据的逻辑的最高级沿袭形式之一。通过反向工程数据转换逻辑,您可以获得全面的端到端跟踪。
通过解析技术的沿袭部署起来相对复杂,因为它需要理解用于转换和处理数据的所有工具和编程语言。这可以包括ETL逻辑、基于结构化查询语言(SQL)的解决方案、JAVA解决方案、可扩展标记语言(XML)解决方案、遗留数据格式等等。
创建支持十几种编程语言的数据沿袭解决方案是很棘手的,而支持动态处理的各种工具增加了它的复杂性。在选择数据沿袭解决方案时,确保它考虑到输入参数、运行时信息和默认值,并解析所有这些元素以自动化端到端数据沿袭交付。
基于模式的血统使用模式提供沿袭表示,而不是读取任何代码。基于模式的沿袭利用有关表、报告和列的元数据,并对它们进行概要分析,以基于常见的相似性和模式创建沿袭。
在这种技术中,您无疑具有监视数据而不是算法的优势。您的数据沿袭解决方案不必理解用于处理数据的编程语言和工具。它可以在Oracle或MySQL等任何数据库技术中以相同的方式使用。但与此同时,这项技术并不总是能显示准确的结果。许多细节,如转换逻辑,是不可用的。
当由于代码不可访问或不可用而无法理解编程逻辑时,此方法适合于数据沿袭用例。
独立的血统在提供数据处理逻辑、主数据管理等功能的全包环境中跟踪每个数据移动和转换。跟踪数据流及其生命周期变得很容易。
尽管如此,独立的解决方案仍然只适用于一个特定的环境,而对它之外的一切视而不见。由于出现了新的需求,并且使用了新的工具来处理数据,自包含的数据沿袭解决方案可能无法交付预期的结果。
与数据标记沿袭,每个移动或转换的数据片段都会由转换引擎进行标记。然后从开始到结束读取所有标记,以生成沿袭表示。尽管它看起来是一种有效的数据沿袭技术,但它只有在有一致的转换引擎或工具来控制数据移动时才能工作。
这种技术排除了转换引擎之外的数据移动,使得它适合在封闭的数据系统上执行数据沿袭。在某些情况下,这可能不是首选的数据沿袭技术。例如,开发人员避免在数据移动的每个接触点向解决方案模型添加正式的数据列。
区块链是一个通过数据标记来解决沿袭复杂性的潜在解决方案,但是它还没有得到足够广泛的采用,不足以对组织中的数据生命周期造成重大影响。
手动血统包括与人们交谈以理解组织中的数据流并记录它。您可以采访应用程序所有者、数据集成专家、数据管理员以及其他与数据生命周期相关的人员。接下来,您可以使用电子表格和简单的映射技术定义沿袭。
有时,您可能会发现矛盾的信息或错过采访某人,导致不恰当的数据沿袭。在遍历代码时,您还必须手动检查表、比较列等等,这是一个耗时且乏味的过程。动态增长的代码量及其复杂性增加了手工数据沿袭的复杂性。
尽管存在这些挑战,但事实证明,这种方法对于理解环境中发生的事情是有益的。当代码不可用或不可访问时,手工数据沿袭也证明是有效的。
实现数据沿袭在很大程度上取决于组织的数据文化。确保您有一个已建立的数据管理框架,并与数据管理专业人员和其他利益相关者建立强有力的协作关系,以成功实现数据沿袭。
按照这七个步骤在您的组织中成功地实现数据沿袭。
天堂帮助您获得可靠和准确的数据,以支持您公司的决策过程。计划和实现是数据治理的关键元素——您需要确定数据来自哪里,它将把您带到哪里。
在组织中规划和实现数据沿袭时,有一些实践可以考虑:
数据沿程允许组织在整个生命周期中获得数据流的细粒度可见性,并帮助他们识别错误的根本原因、管理数据治理、进行影响分析,以及做出数据驱动的业务决策。
记录数据沿袭可能很棘手,但这对组织有效地理解和使用其数据是有益的。
了解更多关于如何获取实时数据以进行战略业务决策的信息数据虚拟化.
Sagar Joshi是G2印度公司的内容营销专家。他是一名对数据分析和网络安全有着浓厚兴趣的工程师。他写与他们相关的话题。你可以发现他在业余时间看书、学习一门新语言或打台球。
不要错过任何一个邮件。
订阅吧,让你的手指随时掌握科技脉搏。