我对 ChatGPT 的新 o1 和 o1 专业模式的真实看法(附测试)
- Rifx.Online
- Chatbots , Programming , Data Science
- 12 Dec, 2024
注意:在本文中,我将尽量涵盖与事件相关的所有要点以及我的个人看法。
几天前,OpenAI 开始了他们的“12 Days of OpenAI”活动,带来了令人兴奋的消息:发布了一个新的 ChatGPT 模型,称为 o1,以及一个包括强大 o1 Pro 模式的高级订阅计划 ChatGPT Pro。
这一公告展示了 AI 在思考、解决问题、处理图像以及帮助完成编码和数学等复杂任务方面的重大改进。
OpenAI 正在为所有人打造工具——从普通用户到需要高级帮助的研究人员和工程师。
让我们来剖析一下新的功能,为什么它令人兴奋,以及每月 200 美元的 Pro 计划是否值得。
o1 的新功能?
o1 的早期版本虽然有潜力,但速度较慢,有时在处理复杂问题时会遇到困难。基本上,即使是小型查询也会花费太长时间。
但如前所述,更新后的 o1 模型 解决了这些问题并添加了新功能。
让我们来看看。
o1 的主要改进
更快更智能:
O1 能更快地回答简单问题,并且更努力地解决难题。
此外,它在回答简单查询时不再尴尬地停顿。
在解决复杂的谜题或数学问题时,它会花必要的时间来确保正确。
更准确的思考:
此外,o1 在编程挑战和高级数学任务中的表现也更好。例如,在复杂的数学问题上,其准确率从 50% 提高到 78%,而在 o1 Pro 模式下,准确率更是达到了 80% 以上。
以下是不同模型在 AIME 2024(数学测试)和博士水平问题上的性能比较指标。
理解文本和图像:
还发现 o1 能够查看图片并进行分析。例如,在视频中展示了它可以分析手绘的数据中心设计图,并计算冷却需求或尺寸。
这对于与视觉材料打交道的工程师和设计师来说非常有用。
现在 o1 Pro 模式是什么?
o1 Pro 模式就像是加强版的 o1。
它会花费更多时间来解决最困难的问题。
为什么我们使用 O1 Pro 模式?
首先,Pro 模式响应时间较长,但在处理复杂任务(如化学问题、棘手的编程难题或分析大数据集)时能提供更好的答案。
此外,即使在准确性上的小改进,在解决复杂挑战时也能产生很大的影响。
因此,如果你正在从事前沿研究、测试新想法或解决复杂问题,O1 Pro 模式可以帮助你避免错误并找到更好的解决方案。
ChatGPT Pro 每月提供什么服务,收费 200 美元?
哇哦!这太贵了。
OpenAI 的 ChatGPT Pro 计划每月收费 200 美元,这比每月 20 美元的 Plus 计划贵得多。
以下是您将获得的服务:
他们声称 ChatGPT Pro 具有以下功能:
- 无限制使用 O1: 没有每日限制或消息上限。您可以随意使用 O1。
- 高级语音工具: 适合喜欢说话而不是打字的用户,如顾问或经理。
- 访问 o1 Pro 模式: 用 Pro 的额外计算能力解决最困难的问题。
- 未来更新: OpenAI 承诺很快将推出更多工具,如浏览互联网、上传文件和处理更大项目。也许开发者甚至可以使用这些功能创建应用程序。
所以在我看来,对于普通用户来说,每月 200 美元可能感觉太贵了。
但对于每天使用 AI 解决复杂任务的专业人士来说,节省的时间和更好的结果可能使这个价格值得。但最好根据任务的复杂性和整体效果来决定。
我在 o1 模型上的样本测试
由于我有一个 20 美元的计划,所以我用我的问题进行了测试。
数学测试
我问了一个来自 IIT-JEE 考试(印度最难的考试之一)中的一道最难的问题。
许多学生都认同这道题的难度,所以值得一试。
这是题目:
图片可能看起来像是拍摄的(不太清晰),并且没有额外的上下文,比如正确答案有几个选项。
我不会提供答案给模型(我会裁剪掉那部分)。
稍后,我们将评估它的表现。
我非常感兴趣的是看到它的思考时间、所采取的步骤,以及最重要的,答案。
哇,答对了
我真的很 impressed,它只用了 22 秒就解决了这个问题,并且给出了所有步骤和正确答案。
处理没有上下文的图像
让我们测试一下模型处理和理解图像的能力!
我随机选择了一张复杂算法的图像,看看模型能如何解释它。我想评估以下几点:
- 这张图像是关于什么的?
- 它是否与某个特定的概念或算法相关?
- 它能否提供 Python 代码来创建类似的图表?
让我们看看它的表现!
我知道这要求有点高,但让我们试试看
这是模型的回应
What is this image all about?
This image appears to be a network graph (often called a social network graph) depicting relationships between characters, likely from a fictional universe such as Game of Thrones / A Song of Ice and Fire. In such a graph:
Nodes (circles) represent characters.
Edges (lines) between nodes indicate some form of relationship, such as co-occurrence in scenes, alliances, or conversations between characters.
Colors of the nodes and their groupings often represent detected communities or clusters of closely connected characters. This grouping might be based on shared storylines, familial ties, or factional alliances.
Is this related to some concept or algorithm?
Yes, the visualization and grouping of nodes into clusters is closely related to concepts in graph theory and network analysis. Some relevant concepts and algorithms include:
Community Detection: Algorithms like Louvain, Girvan-Newman, or modularity optimization methods to detect clusters (i.e., groups of nodes that are more connected to each other than to the rest of the network).
Force-Directed Graph Drawing: Algorithms such as Fruchterman-Reingold or ForceAtlas2 which position the nodes so that edges appear at reasonable lengths and clusters become visually distinct.
Centrality Measures: Metrics like degree centrality, betweenness centrality, and eigenvector centrality could be used to size nodes by importance or influence.
Optionally, python-louvain for community detection (Louvain algorithm).
天啊,我之前没有注意到这与《权力的游戏》角色有关,但模型在 2 秒内就识别出来了!
它不仅识别了角色,还正确地识别了算法。
此外,它还提供了 Python 代码。
太令人印象深刻了!
import networkx as nx
import matplotlib.pyplot as plt
from itertools import count
## Optional: community detection via Louvain algorithm (pip install python-louvain)
try:
from community import community_louvain
community_available = True
except ImportError:
community_available = False
## 1. Create a sample graph
G = nx.karate_club_graph() # Zachary's Karate Club is a classic example graph
## You could also build your own graph from data:
## G = nx.Graph()
## G.add_node("Eddard")
## G.add_node("Catelyn")
## G.add_edge("Eddard", "Catelyn")
## ... and so forth
## 2. Detect communities (if python-louvain is installed)
if community_available:
# partition is a dict node -> community_id
partition = community_louvain.best_partition(G)
else:
# Without Louvain, we can do a trivial community assignment
# or use a built-in algorithm like greedy_modularity_communities:
from networkx.algorithms import community
communities = community.greedy_modularity_communities(G)
# communities is a list of sets of nodes; map them to an integer label
partition = {}
for i, comm in enumerate(communities):
for node in comm:
partition[node] = i
## 3. Assign colors to each community
## Get unique community ids
community_ids = set(partition.values())
## Create a color map from the community IDs
color_map = {}
palette = plt.cm.get_cmap('viridis', len(community_ids))
for cid, c_color in zip(community_ids, palette.colors):
color_map[cid] = c_color
## 4. Extract node colors based on communities
node_colors = [color_map[partition[node]] for node in G.nodes()]
## 5. Draw the graph with a force-directed layout
pos = nx.spring_layout(G, seed=42) # seed for reproducibility
plt.figure(figsize=(10, 8))
nx.draw_networkx_nodes(G, pos, node_color=node_colors, node_size=300, alpha=0.9)
nx.draw_networkx_edges(G, pos, alpha=0.5)
nx.draw_networkx_labels(G, pos, font_size=8)
plt.title("Network Graph with Community Detection")
plt.axis('off')
plt.tight_layout()
plt.show()
总的来说,从我测试随机内容的经验来看,我认为这个模型显然更好。
但我不确定它是否能胜过 Claude 3.5,因为我还没有在 Claude 上尝试过这些问题。
但确实值得关注。
但最大的问题是:ChatGPT Pro 是否值得每月 200 美元?
我认为对于任务不太复杂的用户,应该坚持使用免费或 Plus 计划。o1 的改进已经包含在这些层级中,因此您可以在不额外付费的情况下获得更快和更智能的 AI。
但对于专业人士来说,如果您是一名分析师、研究员、程序员或工程师,每天使用 AI,Pro 计划可能值得。
节省几小时的工作时间和获得更好的结果可能会轻松覆盖成本。
尽管 AI 正在不断进步,但仍然需要仔细检查其答案。Pro 模式需要一定的技能来有效使用,并且您应该始终验证重要任务的结果。
接下来是什么?
这只是 OpenAI “12 Days of OpenAI” 活动的开始。
未来可能的新更新,如文件上传、浏览和其他工具,可能会使 Pro 计划更具吸引力。
期待下一天。
再见。