Computer vision

多模态人工智能助手：结合本地模型和云模型

Rifx.Online
Natural Language Processing , Computer Vision , Generative AI
14 Jan, 2025

使用 LangGraph、mlx 和 Florence2 构建一个能够回答复杂图像问题的智能体，支持本地运行。 *在本文中，我们将结合 LangGraph 和多个专业模型，构建一个基础的智能体，能够回答有关图像的复杂问题，包括图像描述、边界框和 OCR。最初的想法是仅使用本地模型构建，但经过一些迭代后，我决定添加对基于云的模型（即 GPT4o-mini）的连接，以获得更可靠的

揭秘Google Video Analyzer：如何用AI技术实现视频内容的高效分析！

Rifx.Online
Programming , Technology , Computer Vision
05 Jan, 2025

人工智能工具的进步正以惊人的速度发展，而Google AI Studio的Video Analyzer正是这一创新的证明。如果你对视频分析感兴趣，这个工具及其基础框架是探索人工智能在处理和理解视频内容方面能力的绝佳方式。我在我之前的[文章](https://readmedium.com/googles-new-model-gemini-2-0-gemini-2-0-beats-claude-

如何使用 Streamlit 和 Llama 3.2-Vision 构建自己的 OCR 助手

Rifx.Online
Programming , Technology , Computer Vision
27 Dec, 2024

通过示例学习 OCR（光学字符识别）是一种帮助自动化将图像转换为文本的工具。你一定在手机上使用过它，因为现在它非常普遍。从数字化文档到自动化业务工作流程，OCR 是许多现代解决方案的核心。在本指南中，我们将引导您使用 Streamlit、Llama 3.2-Vision 和 Ollama 创建一个简单但强大的 OCR 助手，因为为什么不参与机器学习模型的竞争呢。有趣的是，不

通过多模态 LLM 模型进行图像推理

Rifx.Online
Natural Language Processing , Computer Vision , Generative AI
27 Dec, 2024

多模态人工智能 | LLM | OPENAI | GEMINI | 视觉本博客探讨了多模态模型在图像推断中的能力，强调它们整合视觉和文本信息以改善分析的能力多模态人工智能的出现显著改变了数据处理的格局。在过去，我们在光学字符识别（OCR）等任务中严重依赖文本提取库，如 PyTesseract。然而，视觉变换器和其他多模态模型的进步彻底改变了我们处理和解释数

多模态多语言视觉描述技术：基于Llama 3.2与NLLB-200的图像视频分析方法

Rifx.Online
Natural Language Processing , Computer Vision , Generative AI
26 Dec, 2024

使用Meta的Llama 3.2 11B Vision Instruct、Facebook的600M NLLB-200和LLaVA-Next-Video 7B模型生成多语言图像和视频标题、描述标签以及情感分析。视频：可口可乐公司，1971年，“Hilltop”广告， featuri

DeepSeek-VL2：利用专家视觉语言混合模型促进多模态理解

Rifx.Online
Natural Language Processing , Computer Vision , Data Science
19 Dec, 2024

DeepSeek-VL2 在视觉语言模型领域代表了一个重要的飞跃，提供了先进的多模态理解能力。这一创新系列的大型混合专家（MoE）视觉语言模型在其前身 DeepSeek-VL 的基础上，提供了在广泛任务中的卓越性能。让我们深入探讨 DeepSeek-VL2 的关键方面，探索其架构、能力和潜在应用。在开始之前，如果您正在寻找一个一体化的 AI 平台，可以在一个地方管理您所有的 A

Qwen2-VL：本地运行的视觉语言模型

Rifx.Online
Natural Language Processing , Computer Vision , Technology/Web
15 Dec, 2024

这是对「Qwen2-VL」的介绍，这是一种可以与 ailia SDK 一起使用的机器学习模型。您可以轻松使用此模型创建 AI 应用程序，利用 ailia SDK 以及许多其他现成的 ailia MODELS.

OpenAI o1 模型全面发布：用于科学、编码和写作的增强型多模态人工智能

Rifx.Online
Technology , Machine Learning , Computer Vision
07 Dec, 2024

发现 OpenAI 的新 o1 模型：更快、更智能、支持多模态。凭借先进的推理、编码精度和图像分析，o1 设定了新的 AI 标准。 OpenAI的o1模型现已全面发布：有什么新功能和改进？ OpenAI正式发布了o1模型的完整版本，超越了其预览版本的能力。以下是o1作为一款尖端AI模型所带来的增强和功能的详细分析。 Full o1 版本的关键增强功能

本周末您可以构建的 5 个人工智能项目（使用 Node.js）

Rifx.Online
Programming/Scripting , Natural Language Processing , Computer Vision
16 Nov, 2024

5 个适合在周末用 Node.js 构建的令人兴奋的 AI 项目（非常适合初学者）你是否对构建 AI 项目感兴趣，但时间不够？只需 Node.js 和一个周末，你就可以投入到动手实践的 AI 项目中，这些项目将提升你的编码技能，并让你了解人工智能的实际应用。这些适合初学者的项目将指导你设置聊天机器人、图像识别、情感分析等。所以，拿起你的笔记本电脑，准备好用这五个令人兴奋的 A

使用 Gemini Pro 和 LangChain 的多模式 RAG

Rifx.Online
Programming , Machine Learning , Computer Vision
08 Nov, 2024

介绍在本教程中，我们将探索将 Gemini Pro 和 Gemini Pro Vision 与 LangChain 框架集成，以实现多模态（在这种情况下为图像）检索增强生成（RAG）。

采用 Phi-3-Vision-128K 的人工智能 OCR：文档处理的未来

Rifx.Online
Natural Language Processing , Computer Vision , Data Science
08 Nov, 2024

在快速发展的人工智能领域，多模态模型正在为视觉和文本数据的整合设定新标准。最新的突破之一是 Phi-3-Vision-128K-Instruct，这是一个最先进的开放多模态模型，推动了AI在处理图像和文本方面的能力边界。该模型专注于文档提取、光学字符识别（OCR）和一般图像理解，能够彻底改变我们处理PDF、图表、表格以及其他结构化或半结构化文档的信息方式。让我们深入探

LLaVA 简介：一种多模式 AI 模型

Rifx.Online
Natural Language Processing , Computer Vision , Generative AI
29 Oct, 2024

LLaVA是一个端到端训练的大型多模态模型，旨在理解和生成基于视觉输入（图像）和文本指令的内容。它结合了视觉编码器和语言模型的能力，以处理和响应多模态输入。 ![](https://images.weserv.nl/?url=https://cdn-images-1.readmedium.com/v2/resize:fit:800/1*mjzqL0BHzdPoN-Jjruh52A.pn

使用 GPT Vision 和 Langchain 从图像生成结构化数据

Rifx.Online
Programming , Computer Vision , Natural Language Processing
24 Oct, 2024

在当今这个视觉数据丰富的世界中，从图像中提取有意义信息的能力变得越来越重要。Langchain是一个强大的框架，用于构建大型语言模型（LLMs）应用程序，提供了一套多功能的工具来应对这一挑战。在本文中，我们将探讨如何使用Langchain从图像中提取结构化信息，例如计算人数和列出主要物体。在深入代码之前，让我们先了解一下任务的背景。想象一下你有一张场景的图像，比如城市街道。你的目标是