glm-4-flash
- 125K Context
- 0.01/M Input Tokens
- 0.01/M Output Tokens
- ChatGLM
- Text 2 text
- 15 Nov, 2024
GLM-4-Flash 模型介绍
关键能力和主要使用案例
- 处理多轮对话、网络搜索和工具调用。
- 支持长文本推理,上下文长度可达 128K,输出长度可达 4K。
- 支持 26 种语言的多语言功能,包括中文、英语、日语、韩语和德语。
最重要的特性和改进
- 通过自适应权重量化、并行处理、批处理和推测采样优化速度。
- 提供微调功能,以适应各种应用场景。
- 高级功能包括网页浏览、代码执行和自定义工具调用。
重要技术规格
- 在 10TB 的高质量多语言数据上进行预训练。
- 支持多种语言和长文本推理。
- 模型大小和参数各异,但经过优化以实现高性能。
显著的性能特征
- 实现每秒 72.14 个标记的推理速度,显著快于类似模型。
- 在语义、数学、推理、代码和知识任务中表现优越,超越了 Llama-3-8B 等模型。