Encoder

采用 Phi-3-Vision-128K 的人工智能 OCR：文档处理的未来

Rifx.Online
Natural Language Processing , Computer Vision , Data Science
08 Nov, 2024

在快速发展的人工智能领域，多模态模型正在为视觉和文本数据的整合设定新标准。最新的突破之一是 Phi-3-Vision-128K-Instruct，这是一个最先进的开放多模态模型，推动了AI在处理图像和文本方面的能力边界。该模型专注于文档提取、光学字符识别（OCR）和一般图像理解，能够彻底改变我们处理PDF、图表、表格以及其他结构化或半结构化文档的信息方式。让我们深入探

LLaVA 简介：一种多模式 AI 模型

Rifx.Online
Natural Language Processing , Computer Vision , Generative AI
29 Oct, 2024

LLaVA是一个端到端训练的大型多模态模型，旨在理解和生成基于视觉输入（图像）和文本指令的内容。它结合了视觉编码器和语言模型的能力，以处理和响应多模态输入。 ![](https://images.weserv.nl/?url=https://cdn-images-1.readmedium.com/v2/resize:fit:800/1*mjzqL0BHzdPoN-Jjruh52A.pn