一文看尽OpenAI的12天直播发布,平心静气也能掀翻桌子(5000字详细介绍)
此外,这种更新暗藏玄机,表面是简化协作流程,实则是 OpenAI 的用户习惯培养策略,让用户不知不觉依赖 AI 工具,同时用户的每次互动也为 AI 模型提供训练数据。这为开发者提供了更强大的工具和平台,激励创新应用开发和分享,有潜力形成更具活力的生态系统,降低了 AI 应用开发门槛,加速专业领域 AI 解决方案落地,促进了 AI 技术商业化应用。,用户将 PDF 文件拖拽到 Siri 界面,可详细
大家好,我是凡人。
从2024年12月5日开始,OpenAI这12天发布会堪称史上最简约的发布会,一张桌子,几个OpenAI Logo黑色杯子,一台macbook,一台Iphone,三四个大佬,就像唠嗑一样就把足够撼动整个AI界的产品,轻描淡写的发布出来,让无数网友感叹,这才是一家科技公司该有的样子。
这次OpenAI每天发布一项或多项重大更新,涵盖了AI模型、视频生成、语音交互、生产力工具、开发者支持等多个领域,下面咱们一起将12天的重要内容一文看完!
DAY 1
Day1:满血版o1重磅发布,同步推出200美元/月的GPT豪华VIP
1、相比之前的模型,处理复杂问题时错误率下降34%,特别是在编程和数学方面表现优异。
2、在国际数学奥林匹克资格考试中,满血版的o1解决问题的能力高达 83% 的问题,相比上一版本 GPT-4o 仅能解决 13%。
3、o1满血版的响应速度提升60%,用户在与模型交互时几乎感受不到延迟。
4、新增多模态能力,支持图像输入,用户可以通过图像输入与o1交流,增强了大模型的图像分析能力。
OpenAI推出了“ChatGPT Pro”的豪华VIP版本,200美元/月,给AI大模型开启了三六九等!
DAY 2
Day2:针对企业和开发者推出强化微调技术(Reinforcement Fine-Tuning)
1、全球3亿罕见病患者的春天可能要来了。全新发布的强化微调功能可以让原来只具有高中水平的o1模型直接起飞,达到专家PHD水平。
2、强化微调(RFT)是一种通过奖励驱动训练循环来提炼大型语言模型知识的技术。与传统微调不同,RFT着重培养模型在特定领域的推理能力,类似于向AI提供棋谱让其学习下棋。理论上,只要你有合适的数据集和评估器,你就能将 o1 训练成你的专业 AI 助手。
目前OpenAI只提供强化微调的 Alpha 测试申请,预计明年上线。
DAY 3
Day3:AI界等了10个月,Sora终于震撼发布
全世界的AI用户等了10个月,终于等到了Sora,不过在发烧友们试用过后效果却差强人意,这次Sora这次不光带来了文生视频、图生视频、视频生视频等进阶玩法,还打造了一个创作者视频共享社区。
本次Sora更新,与2月份的预告片不一样的是只能输出20秒,1080P高清视频。
本次Sora有四个重磅功能:
1、场景切换神器:Sora提供了简单的视频编辑工具,只需要在时间轴上对需要编辑的视频,增加帧,帧中增加文字描述或图片,Sora就能根据描述完美衔接不同场景,比传统首尾帧处理高明太多了!
2、元素随心换:Sora可以将已生成视频中的元素进行描述调整,例如把视频里的猛犸换成机器人?转场也相当流畅!
3、智能循环:Sora可以在视频编辑工具中,可以复刻视频任意位置,同时加入2-6秒的循环片段,轻松简单的实现!
4、终极混剪:Sora可以将两段风格迥异的视频,进行融合,分分钟实现天马行空的创意!
DAY 4
Day4:ChatGPT将Canvas功能完美整合
程序员又要有福利了,本次 ChatGPT Canvas 发布了三大核心功能:
1、代码实时执行:Canvas 的 Python 执行环境为程序员提供了诸多便利,如实时运行与反馈,能立即看到代码运行结果;智能报错提醒,帮助找出 bug;代码建议超智能,如同经验丰富的高级工程师指导。它不仅能运行代码,还可绘制漂亮图表。
2、智能团队协作:通过在右侧面板集成评论系统,让文档编辑和代码审查更高效,将 AI 引入团队协作核心环节。其交互方式简单直观,用户通过简单提示可让 AI 完成修改并添加专业评论。核心功能包括评论系统设计顺滑,使团队互动自然高效;版本对比功能清晰直观,修改痕迹一目了然;多人协作体验流畅,消除传统协作工具痛点。此外,这种更新暗藏玄机,表面是简化协作流程,实则是 OpenAI 的用户习惯培养策略,让用户不知不觉依赖 AI 工具,同时用户的每次互动也为 AI 模型提供训练数据。
3、与自定义 GPT 的深度整合:OpenAI 推出 Canvas 与自定义 GPT 的深度集成方案,新创建的自定义 GPT 默认启用 Canvas 功能,已有自定义 GPT 需简单手动设置启用。这为开发者提供了更强大的工具和平台,激励创新应用开发和分享,有潜力形成更具活力的生态系统,降低了 AI 应用开发门槛,加速专业领域 AI 解决方案落地,促进了 AI 技术商业化应用。开发者可在 GPT 中自由添加定制化 Canvas 指令,扩展了应用场景和创作空间。
DAY 5
Day5:Apple全家桶全系接入ChatGPT产品
注意这次的更新国内果粉暂时无法使用,而且未公布可使用日期。
跨设备的无缝体验:
用户可直接从 iPhone、iPad 和 Mac 等 Apple 设备调用 ChatGPT,消除了以往繁琐步骤,提升便利性,能快速获取信息。它成为 Apple 生态的一部分,学生可用于完成作业等,专业人士可分析文档等。
与 Siri 和 Apple Intelligence 的配合:
-
Siri 升级与 ChatGPT 辅助:ChatGPT 成为 Siri 的重要扩展,用户可语音调用并在 Siri 界面直接对话,获取初步答案,也可点击图标进入深入对话模式,为 Siri 注入新生命力,或成其重新崛起契机。
-
Apple Intelligence 与 ChatGPT 融合:ChatGPT 集成到 Apple Intelligence 内部,如在 iPhone 16 视觉智能功能中可分析图片并生成描述,还能上下文生成图像,用户可在 Mac 上创建图像并通过 Apple 设备分享或编辑,这提升了设备实用性,未来或能生成复杂视频片段,对影视创作和营销领域有颠覆性影响。
-
文档分析功能提升:ChatGPT 赋予 Mac 上的 Siri 文档分析能力,用户将 PDF 文件拖拽到 Siri 界面,可详细解析文档,快速获得摘要、关键词等,还能保存分析结果作为后续工作参考,对处理大量文档的专业人士尤为重要。
视觉智能与多任务协作:
-
上下文生成图像:与 Apple 深度集成后,ChatGPT 赋予视觉智能新能力,用户描述需求即可生成符合要求的图像并实时调整设计,提供极大自由度。
-
多设备协作无缝体验:用户可在 iPhone 上提问,在 Mac 上深入分析,在 iPad 上保存或编辑结果,体现了双方在用户体验设计上的功力,多设备协作不仅是便利,更是重塑用户习惯,推动行业进步。
DAY 6
Day6:OpenAI给GPT-4o装上了“眼睛”和“耳朵”,上线最新视觉和听觉功能。
OpenAI在第六天,推出了更贴近 “本心” 的 ChatGPT 高级语音模式,包括实时视频通话、屏幕共享和图像上传功能。CEO Altman 希望开发出类似电影《Her》中能快速响应的虚拟助手。此次直播由首席产品官 Kevin Weil、产品经理 Jackie Shannon、负责多模态的技术团队成员 Michelle Qin 和 Rowan Zellers 介绍更新功能。
实时视频通话功能真的很出彩,ChatGPT 能记住与其视频打招呼的人员,如用圣诞老人限定语音准确回答带着驯鹿角的同事名字,展现 “记忆” 能力。团队还演示了它教人操作手冲咖啡设备,声音自然亲切,能调整语气甚至大笑。
屏幕共享功能通过点击右下角高级语音模式图标,下拉菜单中选择分享屏幕实现,让 ChatGPT 能 “看” 屏幕并提供针对性帮助,如浏览短信并给出回复建议,展现 “高情商” 一面。
高级语音模式支持超 50 种语言和 9 种逼真输出语音选项,每种语音有独特语气和特征。其背后的 GPT-4o 可将语音转文本,还能理解和标记音频的其他功能。
这些功能在 ChatGPT 移动应用中推出,将向所有团队用户以及大多数 Plus 和 Pro 用户开放。支持多种语言的 ChatGPT 能实时理解现实世界场景,提升作为 AI 陪伴工具的体验感,也为 AI 教育工具作出示范。
DAY 7
Day7:OpenAI上线项目管理工具
OpenAI 在第七天发布 “Projects In ChatGPT” 新功能,将 ChatGPT 多种功能整合,便于用户创建和管理项目,支持 Canvas 界面及接入互联网资源。
发布会上,相关人员参与介绍:启动项目时可上传文件、设个性化指令,灵活运用 ChatGPT 功能;“项目” 可分组聊天与数据,在集中界面设定相关内容,聊天记录可保存,新聊天可访问共享数据,还能整合类似聊天;演示了组织活动、家庭维护项目、创建个人网站等应用场景,用户可为项目设特定指令,且个人聊天中可让 “项目” 处理数据。
DAY 8
Day8:OpenAI免费开放全新SearchGPT
OpenAI下场布局AI搜索,同时放出大招SearchGPT,主要有三个内容:
-
搜索功能免费开放:OpenAI 宣布将其搜索功能向所有用户免费开放,提高了用户的访问权限和使用体验。
-
实时搜索与高级语音集成:新搜索功能支持实时信息检索,用户通过自然语言提问,ChatGPT 能迅速提供股票、新闻等多种实时内容,且结合高级语音模式,允许以对话形式进行多轮搜索,提升了交互的流畅性和自然度。
-
增强的视觉效果:搜索结果不仅有文本信息,还可展示地图、图片和视频,提供更丰富的视觉体验。例如,ChatGPT 能流利回答特定活动信息并展示相关内容。
DAY 9
Day9:ChatGPT满血版o1 API放出,费用降低60%
OpenAI向第三方开发者开放最强模型 o1 的 API,其中 o1 支持函数调用、开发者消息、结构化输出和视觉功能,且在开发语音类 App 的 API 中集成了更先进的 GPT-4o 版本,成本直降 60%。
o1 模型正式版相比预览版,在准确性、效率和灵活性方面有显著提升,可用于处理复杂多步骤推理任务,新增结构化输出、函数调用、视觉推理能力等特性,还推出 reasoning_effort 参数控制思考时间,其使用的推理令牌减少 60%。
实时 API 支持 WebRTC 集成,简化基于语音的应用程序构建,GPT-4o 音频成本降低 60%,推出 GPT-4o mini,价格更亲民,还新增并发带外响应、自定义输入上下文等功能,会话最长时长延长至 30 分钟。
推出偏好微调技术,通过比较成对响应进行模型定制,适用于主观任务,已在 GPT-4o-2024-08-06 和 GPT-4o-mini-2024-07-18 模型中可用,并将扩展至更多新模型。
发布 Go 和 Java 版本的测试版 SDK,与现有 Python、Node.js 和.NET 库互补,方便不同编程环境与 OpenAI 模型交互。
目前 o1 模型仅向 API 使用 5 级开发者开放,未来将扩展使用级别;OpenAI 还公布了周活跃用户数突破 3 亿、每日用户向 ChatGPT 发送信息量超 10 亿条等用户数据。
DAY 10
Day10:可以打电话给ChatGPT了
OpenAI公布美国用户可以通过电话打给ChatGPT,直接沟通,类似于 “高级语音模式”功能。
WhatsApp 联系人:全球任何用户均可通过 WhatsApp 向该号码发送消息(目前只限文字信息)。
DAY 11
Day11:ChatGPT炒冷饭深度集成Mac应用
ChatGPT 与 Mac 应用深度集成,带来编程和写作方面的更新,首席产品官强调其从会话助手向更强大的代理工具转变,能代表用户执行更多任务,带来便捷体验。当然国内肯定用不成。
DAY 12
Day12:OpenAI最后放出超越博士的o3模型,程序员的噩梦终于来了
OpenAI在最后一天重磅发布ChatGPT o3模型,它是o1模型的下一代,在多个测试中的得分都较o1能力都有大幅度提高。
o3 模型的特点和优势如下:
编码能力:在 Codeforces 竞技编程中得分为 2727 分,位列第 175 名,超过了 OpenAI 的首席科学家;在 SWE-bench Verified 测试中得分达到 71.7%,能成功解决大部分问题并生成正确代码补丁,远超 o1 的表现。
数学能力:在 AIME 2024 考试中取得 96.7% 的成绩,仅缺席一道题;在 FrontierMath 基准测试中解决了 25% 以上的问题,而其他模型准确率均不超 2%;在 GPQA Diamond 考试中取得 87.7% 的成绩,远远超过人类专家的表现,甚至能解开史上最难的数学题目。
ARC-AGI 方面:在高计算量模式下获得了 87.5% 的分数,低计算量模式下性能是 o1 的三倍。
最关键的来了!o3的成本十分高昂,一个问题需 3440 美金。但随着技术演变,成本可能会逐渐降低。当熟知的 AI 编程工具接入 o3 模型或更高端模型后,程序员这个职业可能真的就危险了!
最后提一嘴,发布会为啥那么寒酸?正应了那句话:“智障”才需要过度包装,而“智能”往往朴实无华。
怎么样今天的内容还满意吗?再次感谢朋友们的观看,关注GZH:凡人的AI工具箱,回复666,送您价值199的AI大礼包。最后,祝您早日实现财务自由,还请给个赞,谢谢!
更多推荐
所有评论(0)