Ocr

惊艳来袭！Mini MiniCPM-o 2.6：超越GPT-4o的8B参数多模态LLM！

Rifx.Online
Natural Language Processing , Machine Learning , Technology/Web
20 Jan, 2025

在一项突破性的进展中，Mini CPM-o 在多模态大型语言模型 (LLM) 的世界中引起了轰动。凭借其 8 亿参数架构，它不仅在多个基准测试中超越了 GPT-4o，还在视觉、音频和其他多模态功能上与其相媲美。让我们深入探讨这一激动人心的发布、它的能力、安装过程和使用案例。 MiniCPM-o 2.6: 是什么？ MiniCPM-o 2.6: 是一种先进的多模态 L

微软开放源代码 MarkItDown：改变游戏规则的文件到文本转换库 🌐📊📚

Rifx.Online
Technology , Programming , Machine Learning
30 Dec, 2024

一个强大的开源工具，简化文件处理并自动提取PDF、Word文档、图像、音频等中的内容。 📏🎓📦专业人士在从PDF、Word文档、图像或音频文件中提取有意义的内容时常常面临挑战。在多个格式中管理分散的内容可能耗时且具有干扰性。MarkItDown通过自动化文件到文本的转换来解决这一挑战，节省了数小时的工作时间，并提供干净、结构化的输出。 🗑️📅📊 这个

使用 Gemini 2.0 提取任何文档 | 使用 ExtractThinker 提取文档智能

在本文中，我们将探讨 Google 的 Gemini 2.0 模型如何与 [ExtractThinker](https://github.com/enoch3712/ExtractThinker

如何使用 Streamlit 和 Llama 3.2-Vision 构建自己的 OCR 助手

Rifx.Online
Programming , Technology , Computer Vision
27 Dec, 2024

通过示例学习 OCR（光学字符识别）是一种帮助自动化将图像转换为文本的工具。你一定在手机上使用过它，因为现在它非常普遍。从数字化文档到自动化业务工作流程，OCR 是许多现代解决方案的核心。在本指南中，我们将引导您使用 Streamlit、Llama 3.2-Vision 和 Ollama 创建一个简单但强大的 OCR 助手，因为为什么不参与机器学习模型的竞争呢。有趣的是，不

从处方到语音：帮助服务老年人和视障人士的 Python 解决方案...

学习如何构建一个结合OCR、计算机视觉和谷歌文本转语音的Fast API后端解决方案，以读取处方标签在正常情况下，阅读处方药物上的标签不应该是一个具有挑战性的任务。通常，最重要的指示——剂量，通常会以粗体字打印，如：“每天需要时服用1.5片，分3次服用”另一方面，考虑到视觉障碍和/或老年患者的异常情况。他无法在没有帮助的情况下阅读他的处方标签。作为

使用 Magentic-One 多代理人工智能系统阅读文档和编码功能

Rifx.Online
Programming , Technology , Machine Learning
26 Nov, 2024

Magentic-One 旨在通过利用多个具有专业能力的 AI 代理来简化复杂任务。我之前的一篇文章也介绍了 Magentic-One。最近，我开始开发一个移动应用程序（名为“MotionLab”），

采用 Phi-3-Vision-128K 的人工智能 OCR：文档处理的未来

Rifx.Online
Natural Language Processing , Computer Vision , Data Science
08 Nov, 2024

在快速发展的人工智能领域，多模态模型正在为视觉和文本数据的整合设定新标准。最新的突破之一是 Phi-3-Vision-128K-Instruct，这是一个最先进的开放多模态模型，推动了AI在处理图像和文本方面的能力边界。该模型专注于文档提取、光学字符识别（OCR）和一般图像理解，能够彻底改变我们处理PDF、图表、表格以及其他结构化或半结构化文档的信息方式。让我们深入探