Type something to search...

Captioning

多模态多语言视觉描述技术:基于Llama 3.2与NLLB-200的图像视频分析方法

多模态多语言视觉描述技术:基于Llama 3.2与NLLB-200的图像视频分析方法

使用Meta的Llama 3.2 11B Vision Instruct、Facebook的600M NLLB-200和LLaVA-Next-Video 7B模型生成多语言图像和视频标题、描述标签以及情感分析。 视频: 可口可乐公司,1971年,“Hilltop”广告, featuri

阅读更多