
哪些是关键卖点?
本地化、提示和一只可爱的小鲸鱼。
几周前,我写了关于生成式人工智能工具——Perplexity、聊天生成预训练变换器和克劳德——比较它们的用户界面、用户体验和魔法时刻所需时间。
我犯了一个大错误:我没有提到这个黑马。
深度探索 🐳
它最近频繁上新闻。如果你还不太了解,可以观看这个精彩的3分钟视频,它解释了发生了什么。
简而言之,中国AI聊天机器人深度探索表明,高质量的输出并不一定要花费巨额资金。它在**大约55天**内完成训练,成本为600万美元,这大约是其他工具的10分之一。
而且,它是免费的。
因此,美国股市受到冲击,而AI泡沫也因这个问题而受到震动:如果我们不需要花费这么多就能用AI生产优质内容,那会怎么样?
我好奇的是,这个黑马是否能在用户体验方面与更大的竞争者相匹敌。
它在某些输出的质量和开发/运行成本上已经证明了这一点,现在我想知道:
- 用户界面如何比较?
- 使用起来是否一样简单?
- 有什么地方做得更好/更差?为什么?
因此,我们将对主页、搜索界面和结果用户界面进行评估,并与我在1月早些时候的生成式人工智能分析进行比较。
首先是主页。
深度探索在这里设定了一些_低_期望..
1998年的登陆页面
聊天生成预训练变换器描述深度探索的登陆页面为:
如果明天是1998年,那就是明天的界面。
哎呀 😂
爪子露出来了。
2025年1月的深度探索登陆页面,上方区域
乍一看,是的,确实缺少很多东西。
具体来说:
- 没有实际的行动号召按钮
- 除了“进入未知”和技术规格外没有真正的信息传达
- 没有顶部或侧边导航
- 页面非常短
总体而言,基于所有媒体的热议,令人惊讶的是如此糟糕。
然而, 我可能在这里忽视了对不同文化用户界面的欣赏。
这里可能发生的是 缺乏本地化。
深度探索一直专注于他们的模型,以至于用于用户界面改进的时间可能很少。
根据内容和用户体验负责人,Ben Davies-Romano 的说法:
我们必须记住,用户界面往往受其他语言的书写和阅读方式驱动;如果你考虑汉字,它们需要更大,并且传统上是从上到下、从右到左阅读的。我们看到这如何在这个登陆页面上转化为英语。
我看到页面右上角有一个小按钮,我可以通过点击将页面翻译成中文。
更重要的是,信息丰富的布局在中国被视为高效和有价值,而我们在欧洲和北美的用户界面通常更加简约(根据 OttPay)。
这或许解释了深度探索的登陆页面下方仅仅是一个能力表格,除此之外没有其他内容。
除了信息密集的页面和针对汉字量身定制的间距,中文用户界面的目的可能也有所不同:
在数十年的独立互联网演变中,中国在用户体验设计方面的偏好已经分化出一种独特的美学和功能哲学——数字创意
这个登陆页面的功能性毋庸置疑。明显缺乏市场营销信息,而是围绕工具的功能和技术方面的信息过载。
是否有时间进行本地化还有待观察。
有趣的是,这些低期望在后续的聊天体验中被彻底击碎。
UX to chat — 魔法时刻所需时间比其他稍长
两周前,我们看到 Perplexity 和 ChatGPT 拥有最快的魔法时刻所需时间,而更注重安全/隐私的克劳德则稍快一些(分别为 1 次点击、2 次点击和 9 次点击)。
深度探索的用户体验更像克劳德,包含:
- 创建帐户(通过 Google 验证需几次点击)
- 安全验证(检查我是否为人类)
- 聊天机器人用户界面
然而,在早期旅程中略有更多摩擦,一个显著的区别是完全没有货币化。深度探索在早期有更多摩擦,但后期则显著减少。
在 总摩擦 和 最佳输出所需时间 方面,深度探索获胜。您从一开始就可以免费访问他们的最佳输出。而 ChatGPT 则需要每月 $20 或 $200。
Homepage chatbot UI — an exact match to 聊天生成预训练变换器 (almost)
从一个本地化不佳的登陆页面到一个出色的聊天用户界面。
我不禁多看了一眼。
这与登陆页面的差异_如此有趣_,我想知道发生了什么?
不同的团队?不同的优先事项?
然后当你查看 聊天生成预训练变换器 时,这就有意义了:深度探索是一个模仿者。
相似的模块形状、颜色、间距。所有的一切。
然而,仔细观察,还是有一些小的不同之处。
深度探索有:
- 一只鲸鱼的欢迎语“🐳 嗨,我是深度探索”
- 侧边导航
- 警告文本“AI生成,仅供参考”在下方
然而在 聊天生成预训练变换器 中,有默认的搜索标签显示工具的可能性。
聊天生成预训练变换器 默认设置
我喜欢这样(因为它有助于避免人们不知道搜索什么),我认为这是深度探索的用户界面中唯一真正缺失的东西。
提示与思考 — 本周的食谱 🥘
我从基于角色的任务开始,称为 角色扮演提示:
你是一名营养师。我正在寻找一个为期7天的晚餐计划,无麸质,并且只需30分钟烹饪,没有复杂的食材清单。你有什么建议?
前往聊天生成预训练变换器 4o mini(免费的),有趣的是,我得到了第一天的_完全相同_食谱,以及非常相似的答案格式。
聊天生成预训练变换器第6天和第7天
简单的任务,简单的答案。
我对深度探索的答案有_轻微_的偏好,因为答案更简洁,并且每一天之间有行分隔,句子更短。
更严格的提示 - 内容创建与计算
接下来,我将上周的文章以PDF格式上传到深度探索。文件上传很简单,我再次使用角色扮演。
深度探索内容创建提示
第一篇帖子还可以,但没有编辑的话我不会发布。它_几乎_可以。
我喜欢第二篇帖子,我会发布它(也许我会)。
深度探索内容创建提示结果 2
但第三篇是YES。我喜欢它。
深度探索内容创建提示结果 3
我前往聊天生成预训练变换器4o(每月20美元的版本),我必须说草稿在相同(非常简单)的提示下更好。
聊天生成预训练变换器结果 1
我会发布1、2和3,并做一些小修改。
聊天生成预训练变换器结果 2
第三个_如此_相似,以至于我可能在写作上真的很可预测,或者他们(咳咳)训练在相同的数据上。
深度探索与聊天生成预训练变换器的比较
然后我要求深度探索提供三项改进,并注意到一个我之前没有看到的小UI细节:‘思考’药丸。
思考用户界面 — 真有趣。
在提示我的配方时,我没有看到这个。
然而,对于我要求深度探索反思改进LinkedIn帖子提示,我看到了答案背后的_整个_思维过程。
我再次测试,这次使用一次性提示(即懒惰、低上下文提示 🥴),询问中本地化用户界面和欧洲用户界面之间的差异。
我看到旋转的加载圆圈旋转,灰色的“思考”文本像意识流一样逐字输出。一个个单词以不均匀的方式出现。
这很酷,因为这些词感觉像是一场对话。像这样的短语:
- 好的,那么…
- 我记得那个
- 所以也许…
让人感觉像是在面试中问了一个实习生问题,并要求他们与我分享他们的思维过程。
我尝试了一个不同的问题:关于逻辑和计算的内容。
我怎么也找不到关于训练深度探索花了多长时间的来源。我在维基百科上找到了引用55天的长PDF报告,当我在文件中搜索“55”时什么也没显示。
所以,我问了深度探索。
再次使用对话式语言:
- …让我试着弄清楚
- 所以,…
- 让我们做那个计算
再一次,就像你作为毕业生参加的贝恩或BCG的案例研究面试。
结果很有帮助,解释得很清楚,我最终感觉自己不再像面试官,更像是被面试者。
回到上面,我看到“思考”气泡已经改变。
这是一种劳动幻觉 🧠,当人们看到产品正在被使用时,他们会更高估其价值。为什么?他们认为在产品/服务的创造或交付中投入了更多的努力。
裁决?非常有趣 🕺
出于某种原因(也许是可爱的鲸鱼,也许是这个工具在人工智能领域引起了不少波澜),我非常享受这次深度探索。
我们看到了三个明显的部分:
- 一个奇怪的着陆页: 初看之下,我认为它与竞争对手相去甚远。再看一遍,或许是缺乏本地化,这个项目更注重产品质量而非营销。
- 一个几乎抄袭的聊天用户界面: 与聊天生成预训练变换器的聊天机器人用户界面非常相似,搞笑得令人难以置信。但为了辩护,聊天用户界面能有多不同呢?当你的竞争优势不是可用性本身,而是它是免费的,何必重新发明轮子呢。
- 一种更好的建立结果信任的方法: 在我看来,“思考”用户界面非常出色,它使工具更具人性化,感觉更像是一场对话。
更大的问题:用户界面重要吗?
在我看来,实际上并不重要。在这种情况下。
有两个原因:
- 热度: 新闻中有很多事情发生,工具的访问量达到了历史新高。一些用户界面的瑕疵?没问题。媒体热度所产生的好奇心意味着人们更有可能克服任何小摩擦。
- 成本: 这是免费的。用最简单的话来说,作为公司有两种获胜方式:降低价格或提供更好的产品。 深度探索试图两者兼顾,并且做得相当不错。
你可以争辩说,由于竞争,小幅度的利润很重要。出色的用户界面可能是成败的关键。
但在这种情况下,我并不这么认为。成本、速度和质量是用户体验的关键因素。
我会使用深度探索吗?
对于我的工作,我希望快速和高效地获得出色的回应。在这个小测试中,聊天生成预训练变换器在LinkedIn内容的语气上对我来说胜出。这在我看来值每月20美元。
我的提示可以做得更好(欢迎建议 😂),但使用相同的内容提示,我将倾向于聊天生成预训练变换器 4o。