大家好,我是凡人。

从2024年12月5日开始,OpenAI这12天发布会堪称史上最简约的发布会,一张桌子,几个OpenAI Logo黑色杯子,一台macbook,一台Iphone,三四个大佬,就像唠嗑一样就把足够撼动整个AI界的产品,轻描淡写的发布出来,让无数网友感叹,这才是一家科技公司该有的样子

图片

这次OpenAI每天发布一项或多项重大更新,涵盖了AI模型、视频生成、语音交互、生产力工具、开发者支持等多个领域,下面咱们一起将12天的重要内容一文看完

图片

DAY 1

图片

Day1:满血版o1重磅发布,同步推出200美元/月的GPT豪华VIP

1、相比之前的模型,处理复杂问题时错误率下降34%,特别是在编程和数学方面表现优异。

2、在国际数学奥林匹克资格考试中,满血版的o1解决问题的能力高达 83% 的问题,相比上一版本 GPT-4o 仅能解决 13%。

3、o1满血版的响应速度提升60%,用户在与模型交互时几乎感受不到延迟。

4、新增多模态能力,支持图像输入,用户可以通过图像输入与o1交流,增强了大模型的图像分析能力

图片

OpenAI推出了“ChatGPT Pro”的豪华VIP版本,200美元/月,给AI大模型开启了三六九等!

图片

DAY 2

图片

Day2:针对企业和开发者推出强化微调技术(Reinforcement Fine-Tuning)

1、全球3亿罕见病患者的春天可能要来了。全新发布的强化微调功能可以让原来只具有高中水平的o1模型直接起飞,达到专家PHD水平

2、强化微调(RFT)是一种通过奖励驱动训练循环来提炼大型语言模型知识的技术。与传统微调不同,RFT着重培养模型在特定领域的推理能力,类似于向AI提供棋谱让其学习下棋。理论上,只要你有合适的数据集和评估器,你就能将 o1 训练成你的专业 AI 助手。

目前OpenAI只提供强化微调的 Alpha 测试申请,预计明年上线。

DAY 3

图片

Day3:AI界等了10个月,Sora终于震撼发布

全世界的AI用户等了10个月,终于等到了Sora,不过在发烧友们试用过后效果却差强人意,这次Sora这次不光带来了文生视频、图生视频、视频生视频等进阶玩法,还打造了一个创作者视频共享社区

本次Sora更新,与2月份的预告片不一样的是只能输出20秒,1080P高清视频

图片

本次Sora有四个重磅功能

1、场景切换神器Sora提供了简单的视频编辑工具,只需要在时间轴上对需要编辑的视频,增加帧,帧中增加文字描述或图片,Sora就能根据描述完美衔接不同场景,比传统首尾帧处理高明太多了

2、元素随心换Sora可以将已生成视频中的元素进行描述调整,例如把视频里的猛犸换成机器人?转场也相当流畅!

3、智能循环:Sora可以在视频编辑工具中,可以复刻视频任意位置,同时加入2-6秒的循环片段,轻松简单的实现!

4、终极混剪Sora可以将两段风格迥异的视频,进行融合,分分钟实现天马行空的创意!

DAY 4

图片

Day4:ChatGPT将Canvas功能完美整合

程序员又要有福利了,本次 ChatGPT Canvas 发布了三大核心功能

1、代码实时执行:Canvas 的 Python 执行环境为程序员提供了诸多便利,如实时运行与反馈,能立即看到代码运行结果;智能报错提醒,帮助找出 bug;代码建议超智能,如同经验丰富的高级工程师指导。它不仅能运行代码,还可绘制漂亮图表

图片

2、智能团队协作:通过在右侧面板集成评论系统,让文档编辑和代码审查更高效,将 AI 引入团队协作核心环节。其交互方式简单直观,用户通过简单提示可让 AI 完成修改并添加专业评论。核心功能包括评论系统设计顺滑,使团队互动自然高效;版本对比功能清晰直观,修改痕迹一目了然;多人协作体验流畅,消除传统协作工具痛点。此外,这种更新暗藏玄机,表面是简化协作流程,实则是 OpenAI 的用户习惯培养策略,让用户不知不觉依赖 AI 工具,同时用户的每次互动也为 AI 模型提供训练数据。

3、与自定义 GPT 的深度整合:OpenAI 推出 Canvas 与自定义 GPT 的深度集成方案,新创建的自定义 GPT 默认启用 Canvas 功能,已有自定义 GPT 需简单手动设置启用。这为开发者提供了更强大的工具和平台,激励创新应用开发和分享,有潜力形成更具活力的生态系统,降低了 AI 应用开发门槛,加速专业领域 AI 解决方案落地,促进了 AI 技术商业化应用。开发者可在 GPT 中自由添加定制化 Canvas 指令,扩展了应用场景和创作空间。

DAY 5

图片

Day5:Apple全家桶全系接入ChatGPT产品

注意这次的更新国内果粉暂时无法使用,而且未公布可使用日期。

跨设备的无缝体验:

用户可直接从 iPhone、iPad 和 Mac 等 Apple 设备调用 ChatGPT,消除了以往繁琐步骤,提升便利性,能快速获取信息。它成为 Apple 生态的一部分,学生可用于完成作业等,专业人士可分析文档等。

与 Siri 和 Apple Intelligence 的配合:

  • Siri 升级与 ChatGPT 辅助:ChatGPT 成为 Siri 的重要扩展,用户可语音调用并在 Siri 界面直接对话,获取初步答案,也可点击图标进入深入对话模式,为 Siri 注入新生命力,或成其重新崛起契机。

  • Apple Intelligence 与 ChatGPT 融合:ChatGPT 集成到 Apple Intelligence 内部,如在 iPhone 16 视觉智能功能中可分析图片并生成描述,还能上下文生成图像,用户可在 Mac 上创建图像并通过 Apple 设备分享或编辑,这提升了设备实用性,未来或能生成复杂视频片段,对影视创作和营销领域有颠覆性影响。

  • 文档分析功能提升:ChatGPT 赋予 Mac 上的 Siri 文档分析能力,用户将 PDF 文件拖拽到 Siri 界面,可详细解析文档,快速获得摘要、关键词等,还能保存分析结果作为后续工作参考,对处理大量文档的专业人士尤为重要。

视觉智能与多任务协作:

  • 上下文生成图像:与 Apple 深度集成后,ChatGPT 赋予视觉智能新能力,用户描述需求即可生成符合要求的图像并实时调整设计,提供极大自由度。

  • 多设备协作无缝体验:用户可在 iPhone 上提问,在 Mac 上深入分析,在 iPad 上保存或编辑结果,体现了双方在用户体验设计上的功力,多设备协作不仅是便利,更是重塑用户习惯,推动行业进步。

DAY 6

图片

Day6:OpenAI给GPT-4o装上了“眼睛”和“耳朵”,上线最新视觉和听觉功能。

OpenAI在第六天,推出了更贴近 “本心” 的 ChatGPT 高级语音模式,包括实时视频通话、屏幕共享和图像上传功能。CEO Altman 希望开发出类似电影《Her》中能快速响应的虚拟助手。此次直播由首席产品官 Kevin Weil、产品经理 Jackie Shannon、负责多模态的技术团队成员 Michelle Qin 和 Rowan Zellers 介绍更新功能。

实时视频通话功能真的很出彩,ChatGPT 能记住与其视频打招呼的人员,如用圣诞老人限定语音准确回答带着驯鹿角的同事名字,展现 “记忆” 能力。团队还演示了它教人操作手冲咖啡设备,声音自然亲切,能调整语气甚至大笑。

屏幕共享功能通过点击右下角高级语音模式图标,下拉菜单中选择分享屏幕实现,让 ChatGPT 能 “看” 屏幕并提供针对性帮助,如浏览短信并给出回复建议,展现 “高情商” 一面。

高级语音模式支持超 50 种语言和 9 种逼真输出语音选项,每种语音有独特语气和特征。其背后的 GPT-4o 可将语音转文本,还能理解和标记音频的其他功能。

这些功能在 ChatGPT 移动应用中推出,将向所有团队用户以及大多数 Plus 和 Pro 用户开放。支持多种语言的 ChatGPT 能实时理解现实世界场景,提升作为 AI 陪伴工具的体验感,也为 AI 教育工具作出示范。

DAY 7

图片

Day7:OpenAI上线项目管理工具

OpenAI 在第七天发布 “Projects In ChatGPT” 新功能,将 ChatGPT 多种功能整合,便于用户创建和管理项目,支持 Canvas 界面及接入互联网资源

发布会上,相关人员参与介绍:启动项目时可上传文件、设个性化指令,灵活运用 ChatGPT 功能;“项目” 可分组聊天与数据,在集中界面设定相关内容,聊天记录可保存,新聊天可访问共享数据,还能整合类似聊天;演示了组织活动、家庭维护项目、创建个人网站等应用场景,用户可为项目设特定指令,且个人聊天中可让 “项目” 处理数据。

DAY 8

图片

Day8:OpenAI免费开放全新SearchGPT

OpenAI下场布局AI搜索,同时放出大招SearchGPT,主要有三个内容:

  • 搜索功能免费开放:OpenAI 宣布将其搜索功能向所有用户免费开放,提高了用户的访问权限和使用体验。

  • 实时搜索与高级语音集成:新搜索功能支持实时信息检索,用户通过自然语言提问,ChatGPT 能迅速提供股票、新闻等多种实时内容,且结合高级语音模式,允许以对话形式进行多轮搜索,提升了交互的流畅性和自然度。

  • 增强的视觉效果:搜索结果不仅有文本信息,还可展示地图、图片和视频,提供更丰富的视觉体验。例如,ChatGPT 能流利回答特定活动信息并展示相关内容。

图片

DAY 9

图片

Day9:ChatGPT满血版o1 API放出,费用降低60%

OpenAI向第三方开发者开放最强模型 o1 的 API,其中 o1 支持函数调用、开发者消息、结构化输出和视觉功能,且在开发语音类 App 的 API 中集成了更先进的 GPT-4o 版本,成本直降 60%

o1 模型正式版相比预览版,在准确性、效率和灵活性方面有显著提升,可用于处理复杂多步骤推理任务,新增结构化输出、函数调用、视觉推理能力等特性,还推出 reasoning_effort 参数控制思考时间,其使用的推理令牌减少 60%

实时 API 支持 WebRTC 集成,简化基于语音的应用程序构建,GPT-4o 音频成本降低 60%,推出 GPT-4o mini,价格更亲民,还新增并发带外响应、自定义输入上下文等功能,会话最长时长延长至 30 分钟

推出偏好微调技术,通过比较成对响应进行模型定制,适用于主观任务,已在 GPT-4o-2024-08-06 和 GPT-4o-mini-2024-07-18 模型中可用,并将扩展至更多新模型。

图片

发布 Go 和 Java 版本的测试版 SDK,与现有 Python、Node.js 和.NET 库互补,方便不同编程环境与 OpenAI 模型交互。

目前 o1 模型仅向 API 使用 5 级开发者开放,未来将扩展使用级别;OpenAI 还公布了周活跃用户数突破 3 亿、每日用户向 ChatGPT 发送信息量超 10 亿条等用户数据。

DAY 10

图片

Day10:可以打电话给ChatGPT了

OpenAI公布美国用户可以通过电话打给ChatGPT,直接沟通,类似于 “高级语音模式”功能。

WhatsApp 联系人:全球任何用户均可通过 WhatsApp 向该号码发送消息(目前只限文字信息)。

DAY 11

图片

Day11:ChatGPT炒冷饭深度集成Mac应用

ChatGPT 与 Mac 应用深度集成,带来编程和写作方面的更新,首席产品官强调其从会话助手向更强大的代理工具转变,能代表用户执行更多任务,带来便捷体验。当然国内肯定用不成

DAY 12

图片

Day12:OpenAI最后放出超越博士的o3模型,程序员的噩梦终于来了

OpenAI在最后一天重磅发布ChatGPT o3模型,它是o1模型的下一代,在多个测试中的得分都较o1能力都有大幅度提高。

o3 模型的特点和优势如下:

编码能力:在 Codeforces 竞技编程中得分为 2727 分,位列第 175 名,超过了 OpenAI 的首席科学家在 SWE-bench Verified 测试中得分达到 71.7%,能成功解决大部分问题并生成正确代码补丁,远超 o1 的表现。

图片

数学能力:在 AIME 2024 考试中取得 96.7% 的成绩,仅缺席一道题;在 FrontierMath 基准测试中解决了 25% 以上的问题,而其他模型准确率均不超 2%;在 GPQA Diamond 考试中取得 87.7% 的成绩,远远超过人类专家的表现,甚至能解开史上最难的数学题目。

图片

ARC-AGI 方面:在高计算量模式下获得了 87.5% 的分数,低计算量模式下性能是 o1 的三倍

图片

最关键的来了!o3的成本十分高昂,一个问题需 3440 美金。但随着技术演变,成本可能会逐渐降低。当熟知的 AI 编程工具接入 o3 模型或更高端模型后,程序员这个职业可能真的就危险了!

最后提一嘴,发布会为啥那么寒酸?正应了那句话:智障才需要过度包装,智能往往朴实无华


怎么样今天的内容还满意吗?再次感谢朋友们的观看,关注GZH:凡人的AI工具箱,回复666,送您价值199的AI大礼包。最后,祝您早日实现财务自由,还请给个赞,谢谢!

Logo

科技之力与好奇之心,共建有温度的智能世界

更多推荐