Type something to search...

Computer vision

多模态人工智能助手:结合本地模型和云模型

多模态人工智能助手:结合本地模型和云模型

使用 LangGraph、mlx 和 Florence2 构建一个能够回答复杂图像问题的智能体,支持本地运行。 *在本文中,我们将结合 LangGraph 和多个专业模型,构建一个基础的智能体,能够回答有关图像的复杂问题,包括图像描述、边界框和 OCR。最初的想法是仅使用本地模型构建,但经过一些迭代后,我决定添加对基于云的模型(即 GPT4o-mini)的连接,以获得更可靠的

阅读更多
揭秘Google Video Analyzer:如何用AI技术实现视频内容的高效分析!

揭秘Google Video Analyzer:如何用AI技术实现视频内容的高效分析!

人工智能工具的进步正以惊人的速度发展,而Google AI Studio的Video Analyzer正是这一创新的证明。如果你对视频分析感兴趣,这个工具及其基础框架是探索人工智能在处理和理解视频内容方面能力的绝佳方式。我在我之前的[文章](https://readmedium.com/googles-new-model-gemini-2-0-gemini-2-0-beats-claude-

阅读更多
如何使用 Streamlit 和 Llama 3.2-Vision 构建自己的 OCR 助手

如何使用 Streamlit 和 Llama 3.2-Vision 构建自己的 OCR 助手

通过示例学习 OCR(光学字符识别)是一种帮助自动化将图像转换为文本的工具。你一定在手机上使用过它,因为现在它非常普遍。从数字化文档到自动化业务工作流程,OCR 是许多现代解决方案的核心。在本指南中,我们将引导您使用 Streamlit、Llama 3.2-Vision 和 Ollama 创建一个简单但强大的 OCR 助手,因为为什么不参与机器学习模型的竞争呢。有趣的是,不

阅读更多
通过多模态 LLM 模型进行图像推理

通过多模态 LLM 模型进行图像推理

多模态人工智能 | LLM | OPENAI | GEMINI | 视觉 本博客探讨了多模态模型在图像推断中的能力,强调它们整合视觉和文本信息以改善分析的能力 多模态人工智能的出现显著改变了数据处理的格局。在过去,我们在光学字符识别(OCR)等任务中严重依赖文本提取库,如 PyTesseract。然而,视觉变换器和其他多模态模型的进步彻底改变了我们处理和解释数

阅读更多
多模态多语言视觉描述技术:基于Llama 3.2与NLLB-200的图像视频分析方法

多模态多语言视觉描述技术:基于Llama 3.2与NLLB-200的图像视频分析方法

使用Meta的Llama 3.2 11B Vision Instruct、Facebook的600M NLLB-200和LLaVA-Next-Video 7B模型生成多语言图像和视频标题、描述标签以及情感分析。 视频: 可口可乐公司,1971年,“Hilltop”广告, featuri

阅读更多
DeepSeek-VL2:利用专家视觉语言混合模型促进多模态理解

DeepSeek-VL2:利用专家视觉语言混合模型促进多模态理解

DeepSeek-VL2 在视觉语言模型领域代表了一个重要的飞跃,提供了先进的多模态理解能力。这一创新系列的大型混合专家(MoE)视觉语言模型在其前身 DeepSeek-VL 的基础上,提供了在广泛任务中的卓越性能。让我们深入探讨 DeepSeek-VL2 的关键方面,探索其架构、能力和潜在应用。在开始之前,如果您正在寻找一个一体化的 AI 平台,可以在一个地方管理您所有的 A

阅读更多
Qwen2-VL:本地运行的视觉语言模型

Qwen2-VL:本地运行的视觉语言模型

这是对「Qwen2-VL」的介绍,这是一种可以与 ailia SDK 一起使用的机器学习模型。您可以轻松使用此模型创建 AI 应用程序,利用 ailia SDK 以及许多其他现成的 ailia MODELS.

阅读更多
OpenAI o1 模型全面发布:用于科学、编码和写作的增强型多模态人工智能

OpenAI o1 模型全面发布:用于科学、编码和写作的增强型多模态人工智能

发现 OpenAI 的新 o1 模型:更快、更智能、支持多模态。凭借先进的推理、编码精度和图像分析,o1 设定了新的 AI 标准。 OpenAI的o1模型现已全面发布:有什么新功能和改进? OpenAI正式发布了o1模型的完整版本,超越了其预览版本的能力。以下是o1作为一款尖端AI模型所带来的增强和功能的详细分析。 Full o1 版本的关键增强功能

阅读更多
本周末您可以构建的 5 个人工智能项目(使用 Node.js)

本周末您可以构建的 5 个人工智能项目(使用 Node.js)

5 个适合在周末用 Node.js 构建的令人兴奋的 AI 项目(非常适合初学者) 你是否对构建 AI 项目感兴趣,但时间不够? 只需 Node.js 和一个周末,你就可以投入到动手实践的 AI 项目中,这些项目将提升你的编码技能,并让你了解人工智能的实际应用。 这些适合初学者的项目将指导你设置聊天机器人、图像识别、情感分析等。 所以,拿起你的笔记本电脑,准备好用这五个令人兴奋的 A

阅读更多
使用 Gemini Pro 和 LangChain 的多模式 RAG

使用 Gemini Pro 和 LangChain 的多模式 RAG

介绍 在本教程中,我们将探索将 Gemini Pro 和 Gemini Pro Vision 与 LangChain 框架集成,以实现多模态(在这种情况下为图像)检索增强生成(RAG)。

阅读更多
采用 Phi-3-Vision-128K 的人工智能 OCR:文档处理的未来

采用 Phi-3-Vision-128K 的人工智能 OCR:文档处理的未来

在快速发展的人工智能领域,多模态模型正在为视觉和文本数据的整合设定新标准。最新的突破之一是 Phi-3-Vision-128K-Instruct,这是一个最先进的开放多模态模型,推动了AI在处理图像和文本方面的能力边界。该模型专注于文档提取、光学字符识别(OCR)和一般图像理解,能够彻底改变我们处理PDF、图表、表格以及其他结构化或半结构化文档的信息方式。 让我们深入探

阅读更多
LLaVA 简介:一种多模式 AI 模型

LLaVA 简介:一种多模式 AI 模型

LLaVA是一个端到端训练的大型多模态模型,旨在理解和生成基于视觉输入(图像)和文本指令的内容。它结合了视觉编码器和语言模型的能力,以处理和响应多模态输入。 ![](https://images.weserv.nl/?url=https://cdn-images-1.readmedium.com/v2/resize:fit:800/1*mjzqL0BHzdPoN-Jjruh52A.pn

阅读更多
使用 GPT Vision 和 Langchain 从图像生成结构化数据

使用 GPT Vision 和 Langchain 从图像生成结构化数据

在当今这个视觉数据丰富的世界中,从图像中提取有意义信息的能力变得越来越重要。Langchain是一个强大的框架,用于构建大型语言模型(LLMs)应用程序,提供了一套多功能的工具来应对这一挑战。在本文中,我们将探讨如何使用Langchain从图像中提取结构化信息,例如计算人数和列出主要物体。 在深入代码之前,让我们先了解一下任务的背景。想象一下你有一张场景的图像,比如城市街道。你的目标是

阅读更多