文档智能的多代理革命:Sema4.ai 的
- Rifx.Online
- Programming , Technology , Data Science
- 14 Jan, 2025
本文由 Sunil Govindan 共同撰写,他对 AI 驱动的文档处理提供了见解和专业知识。
Sema4.ai 文档智能多代理系统
自去年年底将文档智能(DI)作为 Sema4.ai 企业代理平台的一部分推出以来,我们看到企业对转变其以文档为中心的工作流程产生了极大的兴趣。从数小时到数秒。从手动工作到自主处理。从简单的文档检索到端到端的业务自动化——这是我们的客户所经历的转变。
我们的 初始发布 和 12 月的网络研讨会 展示了我们的工作管理代理系统如何通过智能人机协作的自主操作彻底改变业务处理。
然而,企业中不断出现一个更深层次的问题:他们的业务分析师如何处理传统上用于文档自动化的复杂数据工程——那些通常需要专业技术技能的复杂转换、层次关系和统一视图?
传统方法如 RAG 专注于使文档内容更易于访问,但它们并没有解决将非结构化文档转化为可操作业务数据的根本挑战。企业需要一种根本不同的解决方案——一种不仅能通过自然语言赋能业务分析师进行复杂数据工程,而且还能提供自主代理以大规模执行这些转换的解决方案。今天,我们很高兴揭开我们完整的多代理架构的面纱,并在 Sema4.ai 企业代理平台 1.1 版本中介绍强大的新功能,使这一愿景成为现实。
通过自然语言指令和直观的可视化工具,业务分析师现在可以:
- 在不编写代码的情况下进行复杂的数据转换
- 通过可视化注释而非技术配置建模复杂的文档结构
- 使用自然语言而非 ETL 管道维护数据层次和关系
- 通过业务反馈而非代码更改持续优化处理
查看下面的视频,亲身体验我们的文档理解代理如何通过直观的视觉交互转变复杂的文档自动化——使业务分析师能够在几分钟内而非几周内配置复杂的文档处理。
专业代理团队的力量
传统的文档 AI 侧重于更好的提取或更简单的基于 RAG 的检索。Sema4.ai DI 通过其原生的多代理架构代表了一项根本性的进步。每个专业代理掌握文档生命周期的关键阶段:
文档理解代理 (DUA)
在我们架构的基础上是文档理解代理 (DUA),它指导业务专家定义文档架构和优化规则。
随着 DI 1.1 的推出,这个代理获得了强大的新能力:
- 基于非结构化文档的 AI 驱动架构生成
- 直观的可视化注释界面
- 自动格式创建和验证
- 从用户反馈中持续学习
我们将在后续章节中详细讨论这些能力。
多模态提取代理
我们的提取代理在传统的OCR和基于模板的方法上代表了一个基本的进步。该系统通过结合视觉布局分析和自然语言理解,创建每个文档的综合语义模型。这使得即使在复杂布局中也能实现准确提取,具备以下功能:
- 动态表格结构识别
- 上下文字段关系映射
- 自动处理文档变体
- 保留业务逻辑和层次结构
该代理在新文档到达时自动运行,利用先进的AI将非结构化文档转换为准确、经过验证的数据。与简单的OCR或基于模板的方法不同,该代理结合了视觉和文本分析以实现全面理解,确保在复杂布局中高质量提取,通过一个复杂的管道:
该代理自动:
- 监控文档源并触发处理
- 使用训练模式对文档进行分类
- 使用业务定义规则提取数据
- 验证并转换内容以供后续使用
工作管理代理
这些代理处理关键的最后阶段——将提取的数据转化为商业成果。通过灵活的部署选项(单代理或多代理),他们管理从验证到特定领域处理的所有内容,准确知道何时需要人类专业知识。
AI-生成的文档架构:将复杂的非结构化文档转化为可操作的数据
理解文档复杂性:一个现实世界的例子
让我们通过一个100页的公用事业汇款文档的例子,来探讨文档理解代理(DUA)如何转变复杂的文档处理。该文档类型面临着显著的挑战:
- 跨越100多页
- 包含多种设施类型(温室综合体、垂直农业单元等)
- 在多个页面中包含重复的表格结构
- 特征项目和设施小计之间的层级关系
- 需要跨页数据聚合和汇总(通过我们将在下一部分讨论的虚拟列和虚拟表)
这种复杂性因企业接收这些文档的多样化而进一步加剧。单一文档类别,如汇款文档,可能会根据支付方式、源系统等以多种格式到达。例如,电汇、ACH支付和企业合并支付都包含相同的基本信息,但以不同的布局、术语和结构组织呈现。
文档格式的这种变化对传统文档自动化方法构成了重大挑战。电汇汇款可能在结构清晰的表格中列出设施详细信息,而ACH支付文档可能将相同的信息嵌入不同字段和部分的排列中。企业合并支付可能将多个设施合并为一个具有自己独特组织的文档。
传统上,处理这些文档变体需要专业的数据工程技能——编写代码以规范不同格式、维护关系并创建统一视图。 DUA通过使业务分析师能够通过自然语言和直观的可视化工具处理这些复杂性,转变了这一范式。
为了解决这一复杂性,文档理解代理采用了两个基本概念:
- 文档类型 — 作为一个标准化的模式,捕捉所有汇款文档共享的基本结构和要求,无论其来源。这包括核心字段,如客户ID和支付金额,以及用于发票详细信息和设施摘要的结构化表格。
- 文档格式 — 调整此标准模式以处理不同支付方式呈现此信息的特定方式,使得尽管布局和术语各异,仍能准确处理。
在下面的示例中,我们将创建一个名为“支付汇款”的文档类型和一个名为“电汇”的文档格式,以代表支付方式。
智能文档分析与学习
传统的文档自动化方法需要大量的技术配置,通常需要几天的专业开发工作来处理这些复杂的关系。业务分析师必须与技术团队协调,以定义架构、创建提取规则和实施复杂的数据转换。DUA通过四个精心设计的步骤,引导业务分析师完成一个复杂但直观的文档理解过程:
1. 智能文档分析与上传
业务分析师首先从他们最熟悉的内容开始——文档本身,而不是技术配置。DUA 的智能分析立即开始将文档结构映射到业务概念,为自然语言数据工程奠定基础。
2. 视觉字段模式定义
DUA 使业务分析师能够通过简单的视觉选择定义核心文档字段。当用户在首页和末页点击关键字段,如客户 ID 或支付参考号时,系统会根据内容分析建议适当的字段名称和数据类型。
这个视觉界面代表了从技术字段映射到业务驱动的数据建模的根本转变。 分析师通过直观的交互而不是复杂的配置文件来定义他们的数据需求。
3. 表结构识别
业务分析师识别对其分析重要的表格,而不是编写复杂的表格解析逻辑。DUA 处理跨页面维护关系和结构的技术复杂性。当分析师选择一个表区域时,系统会自动:
- 检测列标题及其关系
- 识别跨页面的重复模式
- 映射行项目与小计之间的层次连接
- 保留来自表头的设施类型上下文
4. AI-驱动的架构与格式生成
当业务分析师完成他们的文档注释时,DUA 的复杂 AI 引擎执行两个关键任务。
首先,它生成一个全面的文档类型架构,定义了汇款处理的标准化结构:
该架构捕获所有必要元素,包括必填字段、表结构和验证规则——建立一个一致的处理框架,无论源格式如何。
其次,DUA 自动创建一个完整的文档格式配置,将此源文档映射到标准化架构:
该格式配置包括:
- 对齐源术语与标准定义的字段和表映射
- 具有文档示例的优化提取指令
- 增强提取准确性的视觉注释
结果不仅仅是一个技术架构——它是用业务术语表达的完整数据工程管道。 生成的格式包括传统上需要大量编码的复杂数据转换,所有这些都通过自然语言和视觉注释进行配置。
数据工程与商业分析师:自然语言与虚拟数据的力量
传统的文档自动化要求数据工程师编写复杂的代码进行数据转换——提取分散的信息、维护关系并创建统一的分析视图。文档理解代理(DUA)通过使商业分析师能够使用自然语言、虚拟结构和直观注释执行复杂的数据工程任务,彻底改变了这种方法。
如何做到的?
DUA的一个更高级的功能是其创建在文档中实际上不存在的逻辑数据结构的能力。我们称这些为虚拟或派生列和表。 在付款汇款示例中,让我们看看在哪里使用这些构造:
- 虚拟列—— 系统自动在发票详情表中添加“设施类型”列,从每个表的标题部分(温室综合体、垂直农业单位等)派生值。这使得强大的分类和分析能力成为可能。
- 虚拟表—— DUA创建一个“设施小计”汇总表,将所有页面的小计信息聚合成一个统一的视图,包含设施类型和金额列。这将分散的小计条目转变为结构化、可分析的数据。
查看下面的视频,DUA代理输出带有虚拟列和虚拟设施类型小计表的发票表样本行。
在这个演示中,请注意DUA如何将复杂的100页文档转变为干净、适合分析的数据结构——所有配置都通过自然语言指令完成。传统上需要SQL转换、自定义ETL代码和技术专长的内容,现在以商业术语表达:
这些简单的指令触发了强大的数据工程结果:
- 虚拟列自动根据其商业上下文对交易进行分类
- 虚拟表将分散的信息聚合成统一的分析视图
- 维护层次关系,无需复杂的连接操作
商业分析师可以通过直观的视觉注释进一步完善这些转换,标记关键元素,如章节标题和小计条目。DUA从这些注释中学习,适应文档的变化,同时保持一致的数据结构。
查看商业分析师可以为名为“设施类型章节标题”的注释添加的额外上下文。
这种方法的革命性在于它将复杂的数据工程能力放在了最了解数据的商业用户手中。 通过自然语言指令和视觉指导,分析师可以:
- 定义复杂的数据转换而无需编写代码
- 从分散的信息中创建统一的视图
- 在数据中维护关键的商业关系
- 确保文档变体之间的一致性
这代表了文档自动化的根本转变——从技术实施转向以商业驱动的数据工程。商业分析师可以专注于定义他们需要的分析数据结构,而DUA自动处理复杂的转换逻辑。
持续学习与验证
与传统的数据工程不同,DUA 的持续学习使业务分析师能够通过自然反馈和示例来优化他们的数据转换,而无需更新代码。每次注释和修正都提升了系统的理解能力,形成一个由业务专业知识驱动的迭代改进循环,而非技术修改。
DUA 使用以下技术来实现这一目标:
- 多次学习:系统通过多个示例来细化其理解,识别模式和变化。
- 格式验证:自动化测试确保提取的准确性符合业务需求。
- 反馈整合:系统整合用户反馈,以提高映射准确性和边缘情况的处理能力。
这种直观的互动与持续学习的结合使业务用户能够快速配置复杂的文档处理,同时保持高准确率和对新变化的适应能力。
其结果是文档自动化项目的价值实现时间显著加快。以前需要几周的技术配置,现在可以由最了解其文档的业务用户在几小时内完成。
展望未来:智能文档处理的未来
Document Intelligence 1.1 不仅仅是技术的进步——它从根本上改变了谁可以推动企业中的文档自动化。通过将专业的 AI 代理与自然语言数据工程能力相结合,我们正在实现一种新的范式,其中:
- 商业分析师可以在没有编码专业知识的情况下执行复杂的数据转换
- 复杂的文档结构可以通过直观的可视化工具建模,而不是技术配置
- 数据关系和层次结构可以通过自然语言指令维护,而不是复杂的 ETL 管道
- 通过业务反馈而不是代码更新实现持续学习
这种数据工程能力的民主化尤其强大,因为它将控制权交给那些最了解业务背景的人。组织现在可以赋予分析师权力,以:
- 定义符合其分析需求的虚拟数据结构
- 从分散的文档信息中创建统一视图
- 在文档变体之间维护关键的业务关系
- 通过直观的验证规则确保数据一致性
智能文档处理的未来不仅仅是寻找信息或基本的自动化——它是关于使业务专家能够通过自然语言和可视化工具设计复杂的数据管道,而 AI 代理则处理执行的技术复杂性。这种以业务驱动的配置与自主处理的结合,为企业文档自动化创造了新的标准。
准备好体验自然语言数据工程的力量了吗?
- 注册我们的 RAD Program
- 在我们的 DI Product Page 上了解更多信息
- 在我们的 DI documentation 中探索详细功能