Ai技术资讯 -

GenAI步步紧逼，数据治理如何进化？

By 51ITO
Mar 01, 2024 - 2 min read

作者 | Isaac Sacolick

编辑 | 言征

出品 | 51CTO技术栈(微信号：blog51cto)

数据治理涵盖数据安全、管理、质量和编程等一系列学科。这种做法需要定义使用策略、创建主数据源、分析数据集、记录字典和监督数据生命周期。组织模型通常定义促进策略的首席数据官、制定数据集政策的数据所有者和负责提高数据质量的数据管理员的角色。

Tendd首席技术官PrecislyüYogurtçu博士说:“数据治理是数据完整性的关键因素，使组织能够轻松发现、理解和利用关键数据，从而实现准确的报告和明智的决策。”“它提供了对数据意义、谱系和影响的理解，因此企业可以保持合规性，确保人工智能模型由可靠的数据驱动，从而获得可靠的结果。”

Yogurtçu表示，数据治理曾经是一项专注于合规性的技术任务。“随着人工智能的日益普及，数据已经成为最重要的企业资产，数据治理应该是整个企业的优先事项，”她说。

对很多尝试GenAI或使用大型语言模型的人来说。（LLM）对于构建应用程序的组织来说，数据治理的责任更大，员工使用人工智能工具的风险更大，非结构化数据的范围更广。我咨询了几位专家，了解如何发展数据治理，以应对生成人工智能工具和能力的固有机遇和风险。

在GenAI时代，组织获取和使用数据面临着新的风险、挑战和机遇。下面是四种处理这种情况的方法。

对GenAI工具和LLM的数据政策进行审查。

为了帮助员工访问集中式数据集，并使用它们来构建机器学习模型、仪表板和其它分析工具，数据治理部门负责监督数据目录，并传达数据使用政策。目前，这些部门正在更新政策，以确定企业数据源是否被用于LLM和开放的GenAI工具。开发者和数据科学家必须对这些政策进行审查，并与数据所有者协商使用数据集来支持GenAI实验。

Egnyte联合创始人兼首席安全官Kriss“随着生成式AI带来的数据更加复杂，组织必须有优秀的数据治理和隐私政策来管理和保护这些模型的内容，” Lahiri说。“无论是像OpenAIAI这样的OpenAIAI工具，组织都必须特别注意使用的数据。、像PaLM这样的第三方，或者公司内部可能使用的内部LLM。

审查GenAI政策中关于隐私、数据保护和可接受使用的规定。许多组织要求在使用数据集进行GenAI用例之前提交请求，并获得数据所有者的批准。GDPR必须在使用中得到满足、CCPA、PCI、在HIPAA或其它数据合规标准的数据集之前，请与风险、合规和法律部门协商。

在与第三方数据源合作时，数据政策还必须考虑数据供应链和责任。EDB首席产品工程官Jozeff de Vries表示。

对那些对GenAI机会感到兴奋的人来说，首先要了解他们组织的数据隐私、安全和合规政策。

加快数据质量的提高。

包括Attacamamama在内的许多公司提供数据质量解决方案、Collibra、Experian、IBM、Informatica、Precisely、SAP、SAS和Talend。全球数据质量工具市场规模在2022年超过40亿美元，预计年增长率将达到17.7%。如今，很多企业都在尝试使用AI工具和LLM，我预计这种增长会更高。

因为人工智能的质量只取决于它所提供的数据，所以使用人工智能所面临的许多挑战都与数据质量有关，Piwik Mateuszzz首席Pro运营官 Krempa说。数据质量差可能导致误导性或误导性观点，严重影响结果。

Krempa表示，数据质量的挑战来自于大数据的体积、速度和多样性，尤其是现在LLM使用组织的非结构化数据源。希望开发内部LLM的公司需要将数据质量倡议扩展到从文档、合作工具、代码存储库和其他存储企业知识和知识产权的工具中提取的信息。

Hakkoda数据治理负责人Karen说：“数据治理不仅在为LLM系统提供大量数据方面发生了变化，而且在智能和安全方面也做到了这一点。 Meppen说。“关键是要保证数据不仅规模庞大，而且要考虑知识产权和公平性的风险和影响，智能、准确、可理解、隐私和安全。”

根据业务目标和数据类型，可以使用不同的工具来提高数据质量。

常规数据质量工具：可删除重复项目，规范数据字段，根据业务规则验证数据，检测异常，计算质量指标。

主要数据管理工具（MDM）：有助于组织连接多个数据源，为商业实体(如客户和产品)创造真正的来源。

客户数据平台（CDP）：它是一种专门用于集中客户信息、开发营销、销售、客户服务和其它客户互动的工具。

为了提高对非结构化数据源的支持，提高对GenAI用例的数据质量能力，预计将会有升级和新的数据质量工具。

GraememememeMatillion首席信息安全官 Cantu-Park的另一个建议集中在数据血统的重要性上。为了更好地理解为AI应用程序和模型提供数据的数据管道和数据血统，人工智能将需要一种完全不同的方法来审视治理的优先级和实践。

数据血统有助于揭示数据的生命周期，回答数据何时、何地、由谁、为什么以及如何更改的问题。因为人工智能扩大了数据的范围和使用案例，所以更多的人，包括安全和其他风险管理职能，了解数据血统变得更加重要。

审查数据管理和管道系统结构

数据管理领导者除了政策和数据质量外，还必须将其影响扩展到数据管理和系统结构功能。积极的数据治理提供了一系列功能，让更多的员工可以利用数据进行分析——现在有人工智能——完成工作，做出更明智的决定。在GenAI用例中，数据的存储、访问、产品化、编目和文档化都是快速、轻松、安全地将数据扩展到GenAI用例的因素。HillaryaryaryTeradata首席产品官为了实现最令人兴奋的人工智能用例，Ashton提出了以下方法：

为了帮助组织更好地控制和灌输对数据的信任，创建可重复使用的数据产品，或者精心组织的已知好数据集。

尊重数据的重要性，使更多的人不需要在不同的环境中移动数据就能访问信息。

考虑到可扩展的人工智能试点计划，包括治理能力强的人工智能/ML数据管，还可以实现开放互联的生态系统。

确定易于使用和支持多个用例的框架和平台是数据团队的关键。Ensono总经理兼副总裁Sean “治理框架开始变得更加灵活，使团队能够更快地响应技术进步的步伐，”Mahoney说。他建议数据治理领导也要对这些工具进行审查和参与：

用来将数据管理委托给创建数据的人的数据网格。
对人工智能和LLM固有的可扩展性和复杂性的矢量数据库进行处理。
实时监控工具，可以将数据治理扩展到更多的系统。

另一个需要考虑的问题是，数据管理、管理和系统结构需要了解数据存储的全球法规。EDB的全球法规。de Vries建议，“企业应该实施全球分布式数据库，在向人工智能平台提供数据时，通过在其区域内保持高度监管的数据来提高数据治理实践，同时在全球范围内分发限制较少的数据来提高灵活性。”

4. 将数据处理扩展到GenAI工作流程

还必须考虑使用GenAI工具和LLM的使用政策以及数据治理职能部门的最佳实践。

举例来说，在这篇文章的开头，我明确引用了ChatGPT，让读者知道响应来自GenAI的来源。良好的数据治理要求教育员工提高透明度的程序，允许他们使用的工具，并最大限度地减少数据隐私问题。Deonnk首席执行官Forethink Nicholas说：“我看到的最重要的是，精确使用、共享和学习数据的方法正在兴起，同时保持隐私和真实性。”

举例来说，基于LLM的搜索引擎，比如Perplexity，总是引用它们的来源，或者像Private。像AI这样的数据编辑技术，可以在接收或向LLMS发送数据之前清除和编辑PIl。”

资料管理领导者应考虑的积极措施是创建一个即时库，员工可以在组织中记录他们的即时用例并分享。这一规定扩展了许多数据治理团队已围绕维护数据目录和数据字典进行的知识管理实践。NikolaosolaossRelationalAI研究ML副总裁 Vasiloglou说：“LLM的训练语料包括通常存储在知识图谱中的简洁和精心处理的内容，以及通常以提示库的形式存在的专家知识。尽管我们对知识图有很好的治理实践，但是怎样治理后者并不明显。”

我喜欢蜘蛛侠电影中流行的一句话，“如果你有很大的权力，你就有很大的责任。”我们看到了GenAI能力的快速发展，问题是数据治理团队是否会站在他们这边。

参考链接：https://www.infoworld.com/article/3713005/how-data-governance-must-evolve-to-meet-the-generative-ai-challenge.html