glm-4v-plus
- 31.25K Context
- 1.4/M Input Tokens
- 1.4/M Output Tokens
- ChatGLM
- Text 2 text
- 15 Nov, 2024
GLM-4V-Plus 模型介绍
关键能力和主要应用场景
- 多模态理解:在图像和视频理解方面表现出色,包括时间序列分析和视觉问答[2][3]。
- 文本到图像生成:与行业顶尖模型如 MJ-V6 和 FLUX 的表现相当[2]。
- 多模态对话 AI:支持文本、音频和视频模态,实现流畅的对话和实时推理[2]。
最重要的特性和改进
- 先进的视觉智能:GLM-4V-Plus 提供卓越的图像和视频理解能力,包括时间意识[2]。
- 长文本处理:通过精确的短文本和长文本数据策略组合,增强长文本推理能力[2]。
- 集成工具:包括网页浏览、代码执行和自定义工具调用等功能,类似于 GLM-4 All Tools[4][5]。
重要技术规格
- 参数:属于 GLM-4 系列,像 GLM-4-9B 的模型拥有 90 亿个参数[4][5]。
- 语言:支持多种语言,包括中文、英文、日文、韩文和德文[5]。
- 上下文长度:支持最长 128K 的上下文长度,并在某些变体中扩展到 1M 的上下文长度[5]。
显著的性能特征
- 基准性能:在 MMLU、GSM8K、MATH 和 HumanEval 等多个基准测试中与 GPT-4 竞争或超越[4][5]。
- 多模态基准:在 MMBench-EN-Test、MMBench-CN-Test 和 SEEDBench_IMG 任务中取得高分[3]。
- 实时推理:能够在视频通话功能中实现实时推理和反应[2]。