Vision

如何使用 Streamlit 和 Llama 3.2-Vision 构建自己的 OCR 助手

Rifx.Online
Programming , Technology , Computer Vision
27 Dec, 2024

通过示例学习 OCR（光学字符识别）是一种帮助自动化将图像转换为文本的工具。你一定在手机上使用过它，因为现在它非常普遍。从数字化文档到自动化业务工作流程，OCR 是许多现代解决方案的核心。在本指南中，我们将引导您使用 Streamlit、Llama 3.2-Vision 和 Ollama 创建一个简单但强大的 OCR 助手，因为为什么不参与机器学习模型的竞争呢。有趣的是，不

多模态多语言视觉描述技术：基于Llama 3.2与NLLB-200的图像视频分析方法

Rifx.Online
Natural Language Processing , Computer Vision , Generative AI
26 Dec, 2024

使用Meta的Llama 3.2 11B Vision Instruct、Facebook的600M NLLB-200和LLaVA-Next-Video 7B模型生成多语言图像和视频标题、描述标签以及情感分析。视频：可口可乐公司，1971年，“Hilltop”广告， featuri

Qwen2-VL：本地运行的视觉语言模型

Rifx.Online
Natural Language Processing , Computer Vision , Technology/Web
15 Dec, 2024

这是对「Qwen2-VL」的介绍，这是一种可以与 ailia SDK 一起使用的机器学习模型。您可以轻松使用此模型创建 AI 应用程序，利用 ailia SDK 以及许多其他现成的 ailia MODELS.

使用 GPT Vision 和 Langchain 从图像生成结构化数据

Rifx.Online
Programming , Computer Vision , Natural Language Processing
24 Oct, 2024

在当今这个视觉数据丰富的世界中，从图像中提取有意义信息的能力变得越来越重要。Langchain是一个强大的框架，用于构建大型语言模型（LLMs）应用程序，提供了一套多功能的工具来应对这一挑战。在本文中，我们将探讨如何使用Langchain从图像中提取结构化信息，例如计算人数和列出主要物体。在深入代码之前，让我们先了解一下任务的背景。想象一下你有一张场景的图像，比如城市街道。你的目标是