
利用 Claude AI Sonnet 3.7 最大化您的书籍创作:整合文本与图像以增强参与感
我最近 讨论了 Anthropic 的一次重大更新,输出上下文长度增加到了 128k。 这一改进通过允许更大的提示和输出,有助于消除现实世界应用的主要障碍之一。
在最初的帖子中,我们展示了一个用单个提示创建整本书的例子。 您可以在此处阅读原始帖子。
更进一步
在这篇博文中,我们将更进一步地推动这个想法,让 Claude 不仅生成文本,还生成附带的图像来阐释概念,并使这本书更具视觉吸引力。
您可能已经知道,Claude 目前没有任何内置的图像生成功能。 但是,还有许多其他模型,例如 Flux、DALL-E 等,可以生成图像。 Claude 可以使用这些图像生成器实时创建图像,并将它们嵌入到博文中,而无需任何详细的描述(当然,除非您想要更具体的提示)。
这是如何实现的?
连接外部系统和 API 对于在现实世界中应用 AI 至关重要——大型语言模型很少独立存在。 由于 LLM 无法单独完成所有事情,因此它们可以使用称为 MCP 的标准协议与外部服务交互。 您可以在此处阅读更多相关信息:
[## 介绍模型上下文协议
模型上下文协议 (MCP) 是一个开放标准,用于将 AI 助手连接到数据所在系统…
www.anthropic.com](https://www.anthropic.com/news/model-context-protocol)
模型上下文协议 (MCP) 是一种开放源代码标准,旨在通过将 AI 助手连接到不同的数据源来增强其相关性。 它旨在通过提供一个用于平滑连接的单一协议来解决数据孤岛问题以及集成各种信息系统的复杂性。 MCP 包括规范、SDK、Claude Desktop 应用程序的本地服务器支持以及一个开放源代码的服务器存储库。 开发者可以在数据源和 AI 应用程序之间构建安全的双向连接,早期用户(如 Block 和 Apollo)已经在使用 MCP 来获得更好的上下文理解。 用户可以使用 Claude for Work 开始对 MCP 服务器进行本地测试,并计划在未来进行远程部署。 通过 Claude Desktop 应用程序中提供的预建服务器和快速入门指南,构建 MCP 连接器变得更加简单。 该项目鼓励社区协作,邀请开发者和公司塑造具有上下文感知能力的 AI 技术的未来。
我们将使用此协议让 Claude 使用 OpenAI 的 DALL-E 生成图像。 我选择 DALL-E 有两个原因:许多人以某种方式使用 ChatGPT 或 OpenAI API,并且 DALL-E 会将生成的图像暂时存储在 OpenAI 云中。
这意味着我们可以将其嵌入到我们的博客中,而无需将其本地存储。 请注意,图像可能会在几个小时后被删除,因此如果您想保留它们更长时间,则应导出书籍/博客或下载图像。
为简单起见,我将示例书限制为大约 5000 字,以降低图像生成的成本。 随意创建更多内容和图像。
配料
对于本教程,我们不需要太多:
- Anthropic 应用程序
- 与 OpenAI(DALL-E 模型)通信的 MCP 服务器
- OpenAI 密钥
逐步
步骤 1:下载 MCP 服务器
[## GitHub - prasanthmj/primitive-go-mcp-server: Go 实现 MCP(模型上下文协议)…
Go 实现 MCP(模型上下文协议)服务器工具 - GitHub - prasanthmj/primitive-go-mcp-server: Go…
github.com](https://github.com/prasanthmj/primitive-go-mcp-server)
编辑文件 main.go
以返回 imageURL
。 默认情况下,它返回本地路径。 使用公共 URL,您可以将其粘贴到任何地方,并且图像应该可见。
response = JSONRPCResponse{
JSONRPC: "2.0",
ID: request.ID,
Result: CallToolResult{
Content: []ToolContent{
{
Type: "text",
Text: fmt.Sprintf("Image generated and saved to: %s\nOriginal URL: %s", imageURL, imageURL),
},
},
},
}
使用这些更改重新构建服务器:
go build -o ./bin/imagegen-go ./main
请注意,您不必运行任何类似
npm run dev
或类似的东西。 服务器由 Claude 按需调用。
步骤 2:在 Claude 中集成它
打开 Claude 开发者设置并添加一个新服务器。 确保根据您在上一步中下载存储库的位置更新命令路径。
这样,我们几乎完成了。
步骤 3:生成书籍/博客
现在最后一步是生成您喜欢的任何主题的书籍或博客。 您可以选择长度和主题。 只要记住,使用 DALL-E 生成图像可能会产生费用,尽管现在的价格非常实惠。 您可以在此处了解有关 OpenAI 定价的更多信息。
对于本次演示,我使用了非常便宜的 DALL-E 2 模型,最低分辨率为 256,每张图像大约 1.6 美分。
这是我使用的提示:
写一篇关于间歇性禁食的 2000 字的博文,并创建图像以嵌入到博文中。
不要使用过于复杂的图形。
嵌入 URL,而不是路径。
不生成图像或编造 URL 或图像或未正确地将它们嵌入到 markdown 中将被视为欺诈。
然后我让它运行。
正如您所看到的,Claude 开始生成文本,并交替调用图像生成,几乎每个新部分都是如此——这很常见。 然后将返回的 URL 嵌入到文本中。
总结
在这篇博文中,我们为一本书或博客创建了长篇内容,包括图像。Claude能够独立地提示图像生成器创建出,在我看来,令人印象深刻的结果。您甚至可以通过链接其他API或媒体来丰富您想要生成的任何内容。
生成愉快!