2025 年十大数据与人工智能趋势
- Rifx.Online
- Data Science , AI , Technology/Web
- 19 Dec, 2024
Agentic AI、小数据,以及在非结构化数据堆栈时代寻找价值
根据行业专家的说法,2024年注定是生成性AI的丰收年。运营用例正在浮现,技术正在降低准入门槛,而通用人工智能显然就在眼前。
那么……这些事情发生了吗?
嗯,有点。在2024年年底,一些预测已经热乎乎地浮现出来。其余的则需要在烤箱里多待一会儿(我在看你,通用人工智能)。
以下是领先的未来学家和投资者Tomasz Tunguz认为在2024年底数据和AI的现状——加上我自己的几个预测。
2025年数据工程趋势即将到来。
1. 我们生活在一个没有理性的世界里
在我们的人工智能反乌托邦中,短短三年,我们开始看到企业在一些我们预期的领域创造价值——但并不是全部。根据Tomasz的说法,目前人工智能的状态可以总结为三个类别。
1. 预测:可以完成句子、纠正代码错误等的AI副驾驶。
2. 搜索:利用数据语料库回答问题的工具。
3. 推理:一个多步骤的工作流程,可以完成复杂任务。
虽然AI副驾驶和搜索在企业组织中取得了适度的成功(尤其是前者),但推理模型似乎仍然滞后。根据Tomasz的说法,这背后有一个明显的原因。
模型准确性。
正如Tomasz所解释的,当前模型在有效分解任务为步骤方面存在困难,除非它们之前见过特定模式很多次。而这对于这些模型可能被要求执行的大部分工作并不是如此。
“今天……如果一个大型模型被要求生成一个FP&A图表,它可以做到。但如果存在一些重要差异——例如,我们从软件计费转向基于使用的计费——它会迷失方向。”
所以目前来看,似乎是AI副驾驶和部分准确的搜索结果占了上风。
2. 过程 > 工具
一个新工具的好坏取决于支持它的过程。
随着“现代数据堆栈”多年来不断演变,数据团队有时发现自己处于持续的试探阶段。他们过于关注平台的什么,而没有给予足够的关注于(可以说更重要的)如何。
然而,随着企业环境越来越接近于生产就绪的AI——如何将所有这些新工具实现生产化变得愈发紧迫。
让我们暂时考虑数据质量的例子。随着2024年为AI提供数据的工作进入中心舞台,数据质量也走入了聚光灯下。面对生产就绪的AI的现实可能性,企业数据领导者没有时间从数据质量菜单中抽样——这里几个dbt测试,那里几个点解决方案。他们现在必须提供价值,并且需要可以有效今天上手和部署的可信解决方案。
随着企业数据领导者应对生产就绪AI的短期可能性,他们没有时间从数据质量菜单中抽样——这里几个dbt测试,那里几个点解决方案。他们已经负有提供商业价值的责任,并且需要可以有效今天上手和部署的可信解决方案。
现实是,你可能拥有市场上最复杂的数据质量平台——最先进的自动化、最好的副驾驶、最闪亮的集成——但如果你无法快速让你的组织运转起来,你所拥有的只是预算中的一项条目和桌面上的一个新标签。
在接下来的12个月里,我预计数据团队将倾向于采用经过验证的端到端解决方案,而不是拼凑的工具包,以优先解决数据质量责任、事件管理和长期领域赋能等更关键的挑战。
能够满足这些优先事项的解决方案将是AI中胜出的解决方案。
3. AI正在推动投资回报率——但不是收入
像任何数据产品一样,GenAI的价值体现在两种形式之一:降低成本或产生收入。
在收入方面,你可能会看到像AI SDRS、增值机器或推荐系统这样的东西。根据Tomasz的说法,这些工具可以生成大量的销售管道……但这不会是一个健康的管道。因此,如果它没有产生收入,AI就需要降低成本——在这方面,这项新兴技术确实找到了立足点。
“并不是很多公司从中达成交易。主要是成本降低。Klarna裁减了三分之二的员工。微软和ServiceNow的工程生产力提高了50%到75%。”
根据Tomasz的说法,如果满足以下三个标准之一,AI用例就提供了降低成本的机会:
- 重复性工作
- 劳动力市场紧张
- 紧急招聘需求
Tomasz提到的一个有效推动新收入的组织例子是EvenUp——一家自动化需求函的交易法律公司。像EvenUp这样的组织,支持模板化但高度专业化的服务,可能在当前形式的AI中独具优势,能够看到显著的影响。
4. AI 的采用速度低于预期——但领导者在静待时机
与一年前涌现的“AI战略”浪潮相比,如今的领导者似乎在技术上一致地退后了一步。
“去年有一波热潮,人们尝试各种软件只是为了看看。董事会在询问他们的AI战略。但现在在那一早期浪潮中经历了大量的变动。”
虽然一些组织根本没有从早期实验中看到价值,但其他组织则在其基础技术的快速演变中苦苦挣扎。根据Tomasz的说法,这是投资AI公司的最大挑战之一。并不是说技术在理论上没有价值——而是组织尚未弄清楚如何在实践中有效利用它。
Tomasz认为,下一波采用将与第一波不同,因为领导者将对他们需要什么——以及在哪里找到它——有更深入的了解。
就像大型演出前的彩排,团队知道他们在寻找什么,他们已经与法律和采购方面解决了一些问题——特别是数据丢失和预防——并且他们准备在合适的机会出现时采取行动。
明天的大挑战是什么?“我如何能更快地找到和销售价值?”
5. 小数据是AI的未来
开源与托管的辩论是一个古老的话题……嗯,确实是个老话题。但在AI领域,这个问题变得更加复杂。
在企业层面,这不仅仅是控制或互操作性的问题——尽管这确实可以发挥一定作用——更是一个运营成本的问题。
虽然Tomasz相信最大的B2C公司会使用现成的模型,但他预计B2B会倾向于使用他们自己的专有和开源模型。
“在B2B中,整体上你会看到更小的模型,以及更多的开源。这是因为运行一个小的开源模型要便宜得多。”
但这并不仅仅是金钱的问题。小模型还可以提高性能。像Google一样,大模型旨在服务于各种用例。用户可以向大模型询问几乎任何事情,因此该模型需要在足够大的数据语料库上进行训练,以提供相关的响应。水球。中国历史。法式吐司。
不幸的是,模型训练的主题越多,它混淆多个概念的可能性就越大——而且随着时间的推移,输出的错误也会越多。
“你可以用8亿参数的llama 2,利用10,000个支持工单进行微调,它的表现会好得多,”Tomasz说。
更重要的是,ChatGPT和其他托管解决方案经常在法庭上受到挑战,理由是其创造者没有合法权利使用那些模型训练所用的数据。
在许多情况下,这可能并没有错。
除了成本和性能之外,这将可能对专有模型的长期采用产生影响——特别是在高度监管的行业中——但这种影响的严重性仍然不确定。
当然,专有模型也并没有袖手旁观。尤其是Sam Altman有话要说。(如果Twitter教会了我们什么,Sam Altman肯定有很多话要说。)
专有模型已经在积极降价以刺激需求。像ChatGPT这样的模型已经将价格降低了大约50%,并预计在接下来的6个月内再降低50%。这种降价可能对希望在AI军备竞赛中竞争的B2C公司来说是一个急需的好处。
6. 分析师和数据工程师的界限正在模糊
在扩展管道生产方面,数据团队通常会遇到两个挑战:缺乏足够技术经验的分析师和没有足够时间的数据工程师。
这听起来像是AI的问题。
在我们展望数据团队可能的发展时,有两个主要的发展——我相信——可能会推动工程和分析职责在2025年的整合:
- 需求增加——随着商业领袖对数据和AI产品的需求增长,数据团队将不得不在资源有限的情况下做更多的事情。为了尽量减少瓶颈,领导者将自然而然地赋予之前专业化的团队更多的责任,以承担更多的管道及其利益相关者的责任。
- 自动化的改善——新的需求总是推动新的创新。(在这种情况下,这意味着AI启用的管道。)随着技术自然变得更加自动化,工程师将被赋予在资源有限的情况下做更多的事情,而分析师将被赋予独立完成更多工作的能力。
这个论点很简单——随着需求的增加,管道自动化将自然演变以满足需求。随着管道自动化的发展,创建和管理这些管道的障碍将减少。技能差距将缩小,增加新价值的能力将增强。
向自助式AI启用的管道管理的转变意味着每个人工作中最痛苦的部分将被自动化——而他们创造和展示新价值的能力在这个过程中得以扩展。这听起来是一个美好的未来。
7. 合成数据的重要性 — 但它是有代价的
你可能见过一条蛇吞食自己的尾巴的图像。如果你仔细观察,它与当代人工智能有着惊人的相似之处。
目前互联网上大约有21到25万亿个标记(单词)。现在生产中的人工智能模型已经使用了所有这些数据。为了使数据不断进步,它需要一个无限更大的数据集进行训练。数据越多,输出可用的上下文就越多 — 输出的准确性也就越高。
那么,当人工智能研究人员耗尽训练数据时,他们会怎么做?
他们会自己制作。
随着训练数据变得越来越稀缺,像OpenAI这样的公司相信合成数据将在未来训练模型中扮演重要角色。在过去的24个月里,整个行业已经发展起来,以服务于这一愿景 — 包括像Tonic这样的公司,它们生成合成结构化数据,以及Gretel,为金融和医疗等受监管行业创建合规数据。
但合成数据是长期解决方案吗?可能不是。
合成数据通过利用模型创建反映某人可能在自然环境中找到的人工数据集(在某种替代现实中,更多数据确实存在),然后使用这些新数据来训练自己的模型。在小规模上,这实际上是非常合理的。你知道他们怎么说,太多好东西也不好……
你可以把它想象成上下文营养不良。就像食物一样,如果新鲜的有机数据源是模型训练中最有营养的数据,那么从现有数据集中提取的数据本质上比之前的数据营养价值要低。
一点人工调味料是可以的 — 但如果这种合成训练数据的饮食持续下去,而没有引入新的草饲数据,那么这个模型最终会失败(或者至少,指甲床的吸引力明显降低)。
这并不是一个“是否”的问题,而是一个“何时”的问题。
根据Tomasz的说法,我们距离模型崩溃还有很长的路要走。但随着人工智能研究不断推动模型达到其功能极限,不难想象一个人工智能达到其功能平台的世界 — 也许比我们想象的要早。
8. 非结构化数据堆栈将会出现
利用生产中的非结构化数据的想法绝不是新鲜事——但在人工智能时代,非结构化数据承担了全新的角色。
根据IDC的一份报告,目前只有大约一半的组织非结构化数据正在被分析。
这一切即将改变。
在生成式人工智能方面,企业的成功在很大程度上依赖于用于训练、微调和增强的各种非结构化数据。随着越来越多的组织希望将人工智能应用于企业用例,对非结构化数据的热情——以及蓬勃发展的“非结构化数据堆栈”——也将持续增长。
一些团队甚至在探索如何使用额外的LLMs为非结构化数据添加结构,以扩大其在额外训练和分析用例中的实用性。
识别您组织内部存在的非结构化第一方数据——以及您如何可能为利益相关者激活这些数据——对于希望展示其数据平台商业价值的数据领导者来说,是一个全新的机会(并希望在此过程中为优先项目争取一些额外预算)。
如果2024年是探索非结构化数据潜力的一年——那么2025年将全力实现其价值。问题是……哪些工具将浮出水面?
9. Agentic AI 适合对话 — 但不适合部署
如果你最近在风险投资的领域游荡,你可能会经常听到几个术语被提及:“copilot”,这是一个用于完成单一步骤的 AI 的花哨术语(“纠正我糟糕的代码”),以及“agents”,这是一个多步骤工作流程,可以收集信息并利用这些信息执行任务(“写一篇关于我糟糕代码的博客并发布到我的 WordPress”)。
毫无疑问,我们在 2024 年见证了很多关于 AI copilots 的成功(只需问问 Github、Snowflake、微软的回形针等),但 AI agents 呢?
虽然“agentic AI”在客户支持团队中造成了一些混乱,但看起来在短期内它注定只能如此。虽然这些早期的 AI agents 是向前迈出的重要一步,但这些工作流程的准确性仍然很差。
作为背景,75%-90% 的准确率是 AI 的前沿水平。大多数 AI 相当于一名高中生。但如果你有三个步骤的准确率为 75–90%,那么你的最终准确率大约在 50% 左右。
我们已经训练大象以更好的准确性进行绘画。
远非为组织带来收入驱动,大多数 AI agents 如果以当前性能投入生产将会造成积极的伤害。根据 Tomasz 的说法,我们需要首先解决这个问题。
能够讨论它们很重要,但在演示之外没有人取得任何成功。因为无论硅谷的人们多么喜欢谈论 AI agents,这种谈话并不会转化为性能。
10. 管道正在扩展——但质量覆盖却没有
“在一次与一群人工智能负责人共进晚餐时,我问有多少人对输出的质量感到满意,没有人举手。获得一致输出的确存在真正的质量挑战。”
管道正在扩展,需要对其进行监控。他在谈论一个端到端的人工智能解决方案。每个人都希望在工作流程中使用人工智能,因此管道将会急剧增加。这些数据的质量至关重要。管道正在大规模扩展,您需要进行监控,否则您将做出错误的决策。数据量将会越来越庞大。
每年,Monte Carlo 调查 真实的数据专业人士关于他们数据质量状态的看法。今年,我们将目光转向人工智能的阴影,信息很明确。
数据质量风险正在演变——但数据质量管理却没有。
“我们看到团队在大规模构建向量数据库或嵌入模型。大规模的SQLLite。所有这些1亿个小数据库。它们开始在CDN层进行架构,以运行所有这些小模型。Iphone将具有机器学习模型。我们将看到管道总数的爆炸性增长,但数据量会小得多。”
微调的模式将导致组织内数据管道数量的爆炸性增长。但管道扩展越多,数据质量就会变得越困难。
数据质量与管道的数量和复杂性成正比。管道越多(且越复杂),出现故障的机会就越多——并且您及时发现它们的可能性就越小。