一文看尽OpenAI的12天直播发布，平心静气也能掀翻桌子（5000字详细介绍）

此外，这种更新暗藏玄机，表面是简化协作流程，实则是 OpenAI 的用户习惯培养策略，让用户不知不觉依赖 AI 工具，同时用户的每次互动也为 AI 模型提供训练数据。这为开发者提供了更强大的工具和平台，激励创新应用开发和分享，有潜力形成更具活力的生态系统，降低了 AI 应用开发门槛，加速专业领域 AI 解决方案落地，促进了 AI 技术商业化应用。，用户将 PDF 文件拖拽到 Siri 界面，可详细

凡人的AI工具箱

1324人浏览 · 2025-01-04 23:38:19

凡人的AI工具箱 · 2025-01-04 23:38:19 发布

大家好，我是凡人。

从2024年12月5日开始，OpenAI这12天发布会堪称史上最简约的发布会，一张桌子，几个OpenAI Logo黑色杯子，一台macbook，一台Iphone，三四个大佬，就像唠嗑一样就把足够撼动整个AI界的产品，轻描淡写的发布出来，让无数网友感叹，这才是一家科技公司该有的样子。

这次OpenAI每天发布一项或多项重大更新，涵盖了AI模型、视频生成、语音交互、生产力工具、开发者支持等多个领域，下面咱们一起将12天的重要内容一文看完！

DAY 1

Day1：满血版o1重磅发布，同步推出200美元/月的GPT豪华VIP

1、相比之前的模型，处理复杂问题时错误率下降34%，特别是在编程和数学方面表现优异。

2、在国际数学奥林匹克资格考试中，满血版的o1解决问题的能力高达 83% 的问题，相比上一版本 GPT-4o 仅能解决 13%。

3、o1满血版的响应速度提升60%，用户在与模型交互时几乎感受不到延迟。

4、新增多模态能力，支持图像输入，用户可以通过图像输入与o1交流，增强了大模型的图像分析能力。

OpenAI推出了“ChatGPT Pro”的豪华VIP版本，200美元/月，给AI大模型开启了三六九等！

DAY 2

Day2：针对企业和开发者推出强化微调技术（Reinforcement Fine-Tuning）

1、全球3亿罕见病患者的春天可能要来了。全新发布的强化微调功能可以让原来只具有高中水平的o1模型直接起飞，达到专家PHD水平。

2、强化微调（RFT）是一种通过奖励驱动训练循环来提炼大型语言模型知识的技术。与传统微调不同，RFT着重培养模型在特定领域的推理能力，类似于向AI提供棋谱让其学习下棋。理论上，只要你有合适的数据集和评估器，你就能将 o1 训练成你的专业 AI 助手。

目前OpenAI只提供强化微调的 Alpha 测试申请，预计明年上线。

DAY 3

Day3：AI界等了10个月，Sora终于震撼发布

全世界的AI用户等了10个月，终于等到了Sora，不过在发烧友们试用过后效果却差强人意，这次Sora这次不光带来了文生视频、图生视频、视频生视频等进阶玩法，还打造了一个创作者视频共享社区。

本次Sora更新，与2月份的预告片不一样的是只能输出20秒，1080P高清视频。

本次Sora有四个重磅功能：

1、场景切换神器：Sora提供了简单的视频编辑工具，只需要在时间轴上对需要编辑的视频，增加帧，帧中增加文字描述或图片，Sora就能根据描述完美衔接不同场景，比传统首尾帧处理高明太多了！

2、元素随心换：Sora可以将已生成视频中的元素进行描述调整，例如把视频里的猛犸换成机器人？转场也相当流畅！

3、智能循环：Sora可以在视频编辑工具中，可以复刻视频任意位置，同时加入2-6秒的循环片段，轻松简单的实现！

4、终极混剪：Sora可以将两段风格迥异的视频，进行融合，分分钟实现天马行空的创意！

DAY 4

Day4：ChatGPT将Canvas功能完美整合

程序员又要有福利了，本次 ChatGPT Canvas 发布了三大核心功能：

1、代码实时执行：Canvas 的 Python 执行环境为程序员提供了诸多便利，如实时运行与反馈，能立即看到代码运行结果；智能报错提醒，帮助找出 bug；代码建议超智能，如同经验丰富的高级工程师指导。它不仅能运行代码，还可绘制漂亮图表。

2、智能团队协作：通过在右侧面板集成评论系统，让文档编辑和代码审查更高效，将 AI 引入团队协作核心环节。其交互方式简单直观，用户通过简单提示可让 AI 完成修改并添加专业评论。核心功能包括评论系统设计顺滑，使团队互动自然高效；版本对比功能清晰直观，修改痕迹一目了然；多人协作体验流畅，消除传统协作工具痛点。此外，这种更新暗藏玄机，表面是简化协作流程，实则是 OpenAI 的用户习惯培养策略，让用户不知不觉依赖 AI 工具，同时用户的每次互动也为 AI 模型提供训练数据。

3、与自定义 GPT 的深度整合：OpenAI 推出 Canvas 与自定义 GPT 的深度集成方案，新创建的自定义 GPT 默认启用 Canvas 功能，已有自定义 GPT 需简单手动设置启用。这为开发者提供了更强大的工具和平台，激励创新应用开发和分享，有潜力形成更具活力的生态系统，降低了 AI 应用开发门槛，加速专业领域 AI 解决方案落地，促进了 AI 技术商业化应用。开发者可在 GPT 中自由添加定制化 Canvas 指令，扩展了应用场景和创作空间。

DAY 5

Day5：Apple全家桶全系接入ChatGPT产品

注意这次的更新国内果粉暂时无法使用，而且未公布可使用日期。

跨设备的无缝体验：

用户可直接从 iPhone、iPad 和 Mac 等 Apple 设备调用 ChatGPT，消除了以往繁琐步骤，提升便利性，能快速获取信息。它成为 Apple 生态的一部分，学生可用于完成作业等，专业人士可分析文档等。

与 Siri 和 Apple Intelligence 的配合：

Siri 升级与 ChatGPT 辅助：ChatGPT 成为 Siri 的重要扩展，用户可语音调用并在 Siri 界面直接对话，获取初步答案，也可点击图标进入深入对话模式，为 Siri 注入新生命力，或成其重新崛起契机。
Apple Intelligence 与 ChatGPT 融合：ChatGPT 集成到 Apple Intelligence 内部，如在 iPhone 16 视觉智能功能中可分析图片并生成描述，还能上下文生成图像，用户可在 Mac 上创建图像并通过 Apple 设备分享或编辑，这提升了设备实用性，未来或能生成复杂视频片段，对影视创作和营销领域有颠覆性影响。
文档分析功能提升：ChatGPT 赋予 Mac 上的 Siri 文档分析能力，用户将 PDF 文件拖拽到 Siri 界面，可详细解析文档，快速获得摘要、关键词等，还能保存分析结果作为后续工作参考，对处理大量文档的专业人士尤为重要。

视觉智能与多任务协作：

上下文生成图像：与 Apple 深度集成后，ChatGPT 赋予视觉智能新能力，用户描述需求即可生成符合要求的图像并实时调整设计，提供极大自由度。
多设备协作无缝体验：用户可在 iPhone 上提问，在 Mac 上深入分析，在 iPad 上保存或编辑结果，体现了双方在用户体验设计上的功力，多设备协作不仅是便利，更是重塑用户习惯，推动行业进步。

DAY 6

Day6：OpenAI给GPT-4o装上了“眼睛”和“耳朵”，上线最新视觉和听觉功能。

OpenAI在第六天，推出了更贴近 “本心” 的 ChatGPT 高级语音模式，包括实时视频通话、屏幕共享和图像上传功能。CEO Altman 希望开发出类似电影《Her》中能快速响应的虚拟助手。此次直播由首席产品官 Kevin Weil、产品经理 Jackie Shannon、负责多模态的技术团队成员 Michelle Qin 和 Rowan Zellers 介绍更新功能。

实时视频通话功能真的很出彩，ChatGPT 能记住与其视频打招呼的人员，如用圣诞老人限定语音准确回答带着驯鹿角的同事名字，展现 “记忆” 能力。团队还演示了它教人操作手冲咖啡设备，声音自然亲切，能调整语气甚至大笑。

屏幕共享功能通过点击右下角高级语音模式图标，下拉菜单中选择分享屏幕实现，让 ChatGPT 能 “看” 屏幕并提供针对性帮助，如浏览短信并给出回复建议，展现 “高情商” 一面。

高级语音模式支持超 50 种语言和 9 种逼真输出语音选项，每种语音有独特语气和特征。其背后的 GPT-4o 可将语音转文本，还能理解和标记音频的其他功能。

这些功能在 ChatGPT 移动应用中推出，将向所有团队用户以及大多数 Plus 和 Pro 用户开放。支持多种语言的 ChatGPT 能实时理解现实世界场景，提升作为 AI 陪伴工具的体验感，也为 AI 教育工具作出示范。

DAY 7

Day7：OpenAI上线项目管理工具

OpenAI 在第七天发布 “Projects In ChatGPT” 新功能，将 ChatGPT 多种功能整合，便于用户创建和管理项目，支持 Canvas 界面及接入互联网资源。

发布会上，相关人员参与介绍：启动项目时可上传文件、设个性化指令，灵活运用 ChatGPT 功能；“项目” 可分组聊天与数据，在集中界面设定相关内容，聊天记录可保存，新聊天可访问共享数据，还能整合类似聊天；演示了组织活动、家庭维护项目、创建个人网站等应用场景，用户可为项目设特定指令，且个人聊天中可让 “项目” 处理数据。

DAY 8

Day8：OpenAI免费开放全新SearchGPT

OpenAI下场布局AI搜索，同时放出大招SearchGPT，主要有三个内容：

搜索功能免费开放：OpenAI 宣布将其搜索功能向所有用户免费开放，提高了用户的访问权限和使用体验。
实时搜索与高级语音集成：新搜索功能支持实时信息检索，用户通过自然语言提问，ChatGPT 能迅速提供股票、新闻等多种实时内容，且结合高级语音模式，允许以对话形式进行多轮搜索，提升了交互的流畅性和自然度。
增强的视觉效果：搜索结果不仅有文本信息，还可展示地图、图片和视频，提供更丰富的视觉体验。例如，ChatGPT 能流利回答特定活动信息并展示相关内容。

DAY 9

Day9：ChatGPT满血版o1 API放出，费用降低60%

OpenAI向第三方开发者开放最强模型 o1 的 API，其中 o1 支持函数调用、开发者消息、结构化输出和视觉功能，且在开发语音类 App 的 API 中集成了更先进的 GPT-4o 版本，成本直降 60%。

o1 模型正式版相比预览版，在准确性、效率和灵活性方面有显著提升，可用于处理复杂多步骤推理任务，新增结构化输出、函数调用、视觉推理能力等特性，还推出 reasoning_effort 参数控制思考时间，其使用的推理令牌减少 60%。

实时 API 支持 WebRTC 集成，简化基于语音的应用程序构建，GPT-4o 音频成本降低 60%，推出 GPT-4o mini，价格更亲民，还新增并发带外响应、自定义输入上下文等功能，会话最长时长延长至 30 分钟。

推出偏好微调技术，通过比较成对响应进行模型定制，适用于主观任务，已在 GPT-4o-2024-08-06 和 GPT-4o-mini-2024-07-18 模型中可用，并将扩展至更多新模型。

发布 Go 和 Java 版本的测试版 SDK，与现有 Python、Node.js 和.NET 库互补，方便不同编程环境与 OpenAI 模型交互。

目前 o1 模型仅向 API 使用 5 级开发者开放，未来将扩展使用级别；OpenAI 还公布了周活跃用户数突破 3 亿、每日用户向 ChatGPT 发送信息量超 10 亿条等用户数据。

DAY 10

Day10：可以打电话给ChatGPT了

OpenAI公布美国用户可以通过电话打给ChatGPT，直接沟通，类似于 “高级语音模式”功能。

WhatsApp 联系人：全球任何用户均可通过 WhatsApp 向该号码发送消息（目前只限文字信息）。

DAY 11

Day11：ChatGPT炒冷饭深度集成Mac应用

ChatGPT 与 Mac 应用深度集成，带来编程和写作方面的更新，首席产品官强调其从会话助手向更强大的代理工具转变，能代表用户执行更多任务，带来便捷体验。当然国内肯定用不成。

DAY 12

Day12：OpenAI最后放出超越博士的o3模型，程序员的噩梦终于来了

OpenAI在最后一天重磅发布ChatGPT o3模型，它是o1模型的下一代，在多个测试中的得分都较o1能力都有大幅度提高。

o3 模型的特点和优势如下：

编码能力：在 Codeforces 竞技编程中得分为 2727 分，位列第 175 名，超过了 OpenAI 的首席科学家；在 SWE-bench Verified 测试中得分达到 71.7%，能成功解决大部分问题并生成正确代码补丁，远超 o1 的表现。

数学能力：在 AIME 2024 考试中取得 96.7% 的成绩，仅缺席一道题；在 FrontierMath 基准测试中解决了 25% 以上的问题，而其他模型准确率均不超 2%；在 GPQA Diamond 考试中取得 87.7% 的成绩，远远超过人类专家的表现，甚至能解开史上最难的数学题目。

ARC-AGI 方面：在高计算量模式下获得了 87.5% 的分数，低计算量模式下性能是 o1 的三倍。

最关键的来了！o3的成本十分高昂，一个问题需 3440 美金。但随着技术演变，成本可能会逐渐降低。当熟知的 AI 编程工具接入 o3 模型或更高端模型后，程序员这个职业可能真的就危险了！

最后提一嘴，发布会为啥那么寒酸？正应了那句话：“智障”才需要过度包装，而“智能”往往朴实无华。

怎么样今天的内容还满意吗？再次感谢朋友们的观看，关注GZH：凡人的AI工具箱，回复666，送您价值199的AI大礼包。最后，祝您早日实现财务自由，还请给个赞，谢谢！

ZA技术社区

科技之力与好奇之心，共建有温度的智能世界

更多推荐

网络诊断dns服务器未响应,网络诊断提示DNS服务器未响应解决方法

DNS服务器未响应是什么意思DNS服务器是计算机域名系统(DomainNameService)的缩写，它是由域名解析器和域名服务器组成的。域名服务器是指保存有该网络中所有主机的域名和对应IP地址，并具有将域名转换为IP地址功能的服务器。其中域名必须对应一个IP地址，而IP地址不一定有域名。域名系统采用类似目录树的等级结构。域名服务器为客户机/服务器模式中的服务器方，它主要有两种形式：主服务器和转发