glm-4-plus
- 125K Context
- 7/M Input Tokens
- 7/M Output Tokens
- ChatGLM
- Text 2 text
- 15 Nov, 2024
GLM-4-Plus 模型介绍
关键能力和主要使用案例
- 语言理解:在语言理解、指令执行和长文本处理方面具有先进能力。
- 多模态支持:包括文本到图像生成模型(CogView-3-Plus)、图像/视频理解模型(GLM-4V-Plus)和视频生成模型(CogVideoX)。
- 跨模态交互:支持文本、音频和视频模态,如在青眼 APP 视频通话服务中所见。
最重要的特性和改进
- 全面改进:语言理解、指令执行和长文本处理能力增强,堪比 GPT-4[1][5]。
- 新架构:CogView-3-Plus 使用 Transformer 架构,GLM-4V-Plus 是中国首个通用视频理解模型 API[1][4]。
- 多模态能力:GLM-4V-9B 支持中文和英文对话,并具备高分辨率图像理解能力[3]。
重要技术规格
- 上下文长度:支持最多 128K 令牌(相当于约 300 页文本)[5]。
- 多语言支持:支持 26 种语言,包括日语、韩语和德语[3]。
- 模型变体:包括 GLM-4-9B、GLM-4-9B-Chat 和 GLM-4V-9B 模型,具有不同的能力[3]。
显著性能特征
- 性能平衡:在自然语言处理基准测试中与 GPT-4 可比,在中文处理上表现更优[1][5]。
- 加速推理:推理速度更快,支持更高的并发量[5]。
- 优越的多模态评估:在多模态任务中优于 GPT-4-turbo 和 Gemini 1.0 Pro 等模型[3].