Captioning

多模态多语言视觉描述技术：基于Llama 3.2与NLLB-200的图像视频分析方法

多模态多语言视觉描述技术：基于Llama 3.2与NLLB-200的图像视频分析方法

Rifx.Online
Natural Language Processing , Computer Vision , Generative AI
26 Dec, 2024

使用Meta的Llama 3.2 11B Vision Instruct、Facebook的600M NLLB-200和LLaVA-Next-Video 7B模型生成多语言图像和视频标题、描述标签以及情感分析。视频：可口可乐公司，1971年，“Hilltop”广告， featuri