揭秘Google Video Analyzer：如何用AI技术实现视频内容的高效分析！

Rifx.Online
Programming , Technology , Computer Vision
05 Jan, 2025

人工智能工具的进步正以惊人的速度发展，而Google AI Studio的Video Analyzer正是这一创新的证明。如果你对视频分析感兴趣，这个工具及其基础框架是探索人工智能在处理和理解视频内容方面能力的绝佳方式。我在我之前的文章中深入介绍了Gemini 2.0模型以及Google AI Studio。

在本文中，我们将探讨AI Studio上的Video Analyzer应用，逐步了解其关键特性，并演示如何在Google Colab中使用Python代码复制其功能。无论你是开发者还是人工智能爱好者，这本全面的指南将帮助你利用这一突破性技术。

Google AI Studio 的视频分析器是什么？

Google AI Studio 的视频分析器是一个强大的应用程序，旨在高效分析视频内容。通过利用先进的 AI 技术，它提供：

基于场景的字幕：自动为每个场景生成字幕，包括视觉描述和口语文本。
关键时刻提取：识别视频中的关键时刻，并简洁地总结它们。
对象和计数分析：检测场景中的对象、人物或其他数值实体。
创意输出：根据视频内容生成创意输出，如俳句。

该应用程序结合强大的提示与功能调用，动态处理和分析视频。

演示流程：在 AI Studio 上探索视频分析器

以下是您可以逐步使用该应用程序的方法：

1. 上传视频

首先将您的视频上传到 AI Studio。

2. 生成 A/V 字幕 & 段落

3. 总结关键时刻

应用程序突出重要场景，创建简洁的时间线。例如：
00:18: Gemini 的介绍。
02:00: Gemini 特性的总结。

4. 创建表格数据

表格输出允许您可视化：

时间。
场景描述。
与场景相关的附加对象或表情符号。

5. 图表 & 自定义

计算每个场景中物体的数量，如人、手机或树木。

在 Google Colab 中使用 Python 进行视频分析

本分步指南演示了如何使用 Python 与 API 交互，上传视频，并生成带时间码的准确场景字幕。

前提条件

在开始之前，请确保以下内容：

Google API 密钥：从 Google 开发者控制台获取 API 密钥。
Google Gemini 2.0 SDK：使用 pip 安装该库。
视频文件：准备好您想要处理的视频文件。

步骤 1：安装所需库

通过在您的环境中运行以下命令来安装 Google Gemini SDK：

!pip install -U -q google-genai

步骤 2：使用 Google API 进行身份验证

Google API 密钥是验证请求所必需的。在此示例中，我们使用 Google Colab 的 userdata 进行安全存储。

import os
from google.colab import userdata
from google import genai
from google.genai import types
## Fetch the API key securely
GOOGLE_API_KEY = userdata.get('GOOGLE_API_KEY')
## Initialize the client
client = genai.Client(api_key=GOOGLE_API_KEY)

第3步：定义模型并上传视频

我们使用 gemini-2.0-flash-exp 模型进行内容生成。首先，准备并上传您的视频文件。

import pathlib
## Path to your video file
img_path = pathlib.Path('/content/Introducing Gemini 2.0 烈 Our most capable AI model yet.mp4')
## Upload the video file
file_upload = client.files.upload(path=img_path)
## Monitor upload state
import time
while file_upload.state == "PROCESSING":
    print('Waiting for video to be processed...')
    time.sleep(10)
    file_upload = client.files.get(name=file_upload.name)
if file_upload.state == "FAILED":
    raise ValueError("Video processing failed")
print(f'Video processing complete: {file_upload.uri}')

第4步：定义提示

定义系统提示和用户提示以指示模型生成字幕。

SYSTEM_PROMPT = "When given a video and a query, call the relevant function only once with the appropriate timecodes and text for the video"

USER_PROMPT = """For each scene in this video, generate captions that describe the scene along with any spoken text placed in quotation marks. 
    Place each caption into an object sent to set_timecodes with the timecode of the caption in the video."""

第5步：使用模型生成内容

将上传的视频和提示发送给Gemini 2.0模型进行处理。

response = client.models.generate_content(
    model="gemini-2.0-flash-exp",
    contents=[
        types.Content(
            role="user",
            parts=[
                types.Part.from_uri(
                    file_uri=file_upload.uri,
                    mime_type=file_upload.mime_type
                )
            ]
        ),
        USER_PROMPT,
    ],
    config=types.GenerateContentConfig(
        system_instruction=SYSTEM_PROMPT,
        temperature=0.0,
    ),
)

第6步：显示结果

API的响应包含带有时间码的字幕。使用Markdown库整齐地显示结果。

from IPython.display import Markdown
## Render the captions as markdown
Markdown(response.text)

视频分析仪的应用

内容创作：自动生成视频摘要用于博客或报告。
可及性：生成字幕以提高可及性。
事件分析：突出体育或演讲中的关键时刻。
创意输出：利用创意解读，如诗歌，用于市场营销。

结论

Google AI Studio 的视频分析器是一个出色的视频分析工具，通过字幕、摘要和物体检测提供洞察。通过理解其基本原理并使用 Python 重新创建它，您可以有效地利用 AI 的力量来分析和解读视频内容。无论您是构建无障碍功能、总结内容，还是探索创意可能性，视频分析器都为创新提供了坚实的基础。