• 我的订阅
  • 科技

谷歌Gemini数学反超o1预览版!成本仅1/10、无需额外思考时间

类别:科技 发布时间:2024-09-26 10:01:00 来源:量子位

数学击败o1-preview,成本仅为十分之一,并且几乎没有思考延迟!

OpenAI《Her》全量开放同一天,谷歌Gemini 1.5迎来重大升级。

谷歌Gemini数学反超o1预览版!成本仅1/10、无需额外思考时间

除此之外,价格也是原来的一半,速度限制提升2-3倍;输出速度提升2倍、延迟降为原来三分之一。

开发者可以通过 Google AI Studio 和 Gemini API免费访问。聊天版本还得再等等。

不过也有网友发现了华点,虽然数学能力很强,但还是没有打败o1-mini以及o1完整版(94.8)。

谷歌Gemini数学反超o1预览版!成本仅1/10、无需额外思考时间

谷歌Gemini数学反超o1预览版!成本仅1/10、无需额外思考时间

谷歌Gemini 1.5大升级

此次更新的有两个型号:Gemini-1.5-Pro-002和Gemini-1.5-Flash-002。

总结来说,主要有这些更新:

对于1.5pro(输入和输出都小于128K),降价幅度大于50%。 速率限制提升2-3倍; 输出速度提高2倍,延迟降低3倍; 更新了默认过滤器设置。

首先,提升了整体性能,尤其在数学、长文本以及多模态方面。

在MMLU-Pro上性能提高约7%;而在 MATH 和 HiddenMath(内部保留的竞赛数学问题集)基准测试中,两种模型有约 20% 的显著改进,其中Pro版本以86.5%的成绩超过了o1-preview(85.5%)。

除此之外,在视觉理解和代码代码生成的评估中也有2%-7%的提升。

根据开发人员的反馈,这两个模型现在都采用了更简洁的风格,目的是使这些模型更易于使用并降低成本。

对于摘要、问题解答和提取等用例,更新后模型的默认输出长度比以前的模型短 5-20%。

价格方面,1.5pro输入token降价64%,输出token降价52%,对增量缓存token降价64%,10月1日开始生效。

谷歌Gemini数学反超o1预览版!成本仅1/10、无需额外思考时间

速率限制也有所提升,1.5 Flash的付费速率限制从1000RPM提高到2000RPM;1.5 Pro速率限制从360RPM到1000RPM。

另外,输出速度提高2倍,延迟减少为原来的三分之一。

对于新模型,过滤器已切换成可选,默认情况下不会应用过滤器。

最后的最后,还有Gemini 1.5 Flash-8B实验版本更新,在文本和多模态能力方面都有显著的提升。

网友水灵灵地测试上了

有网友就这么水灵灵地测试上了。

他测试了Gemini 1.5 Flash的音频转录功能。后者能在50-60秒内转录13分钟音频。

多个音频文件测试结果中,转录准确率接近99%。如果音频清晰,准确率能达到100%。

有网友测试了它的视觉理解能力,结果顺利通过,之前难倒了一众视觉模型。

谷歌Gemini数学反超o1预览版!成本仅1/10、无需额外思考时间

不过讨论最多的还是它数学能力的提升。

谷歌Gemini数学反超o1预览版!成本仅1/10、无需额外思考时间

不过倒也有网友表示,数学基准也没啥用。它已经饱和,而且污染了大多数模型的训练数据。在现实世界的数学难题里,这些还是没办法跟o1系列相提并论。

谷歌Gemini数学反超o1预览版!成本仅1/10、无需额外思考时间

虽然但是,谷歌升级模型还有一个用处。

那就是push一下OpenAI,赶紧发布新模型,以此来“夺回王冠”。

什么时候赶紧把o1完整版发了。(Doge)

谷歌Gemini数学反超o1预览版!成本仅1/10、无需额外思考时间

参考链接:[1]https://developers.googleblog.com/en/updated-production-ready-gemini-models-reduced-15-pro-pricing-increased-rate-limits-and-more/[2]https://www.reddit.com/r/singularity/comments/1fohi2z/gemini_15_002_beats_o1preview_on_math_and_it_does/

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-09-26 14:45:12

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

OpenAI o1模型到博士水平了?复旦教授:没有真正推理能力,学到的还是概率相关性
...enAI表示,o1模型会提供由模型生成的思维链摘要。预览版成本比GPT-4o贵三四倍,9.11和9.8谁大仍翻车“发布o1-preview的一个动机是为了观察哪些使用场景会变得流行
2024-09-13 16:44:00
NeurIPS 2024 | 数学推理场景下,首个分布外检测研究成果来了
本文将介绍数学推理场景下的首个分布外检测研究成果。该篇论文已被 NeurIPS 2024 接收,第一作者王一鸣是上海交通大学计算机系的二年级博士生,研究方向为语言模型生成、推理,
2024-12-03 13:33:00
成本不到150元!26分钟训出个推理模型 媲美o1和R1
成本不到150元,训练出一个媲美DeepSeek-R1和OpenAI o1的推理模型?!这不是洋葱新闻,而是AI教母李飞飞
2025-02-07 15:14:00
科学家推出大模型数据集,涵盖奥赛数学题,有望让AI辅导数学课程
...间,他曾和同事在一项研究中成功提高了大模型解决复杂数学问题的能力。通过此,他们不仅提高了算法推理速度,还提高了算法搜索中间结果的质量。所新推出的数据集 TriMaster10
2024-03-13 10:26:00
人工智能已经可以解决复杂的数学问题了,还有哪些工作无法被取代
...源和存储空间,以及大量的训练数据。这使得训练和部署成本非常高。环境依赖性:LLMs的性能取决于输入的上下文和环境。如果输入的数据与训练数据不同,它们可能会产生错误的输出。基于
2023-02-24 18:22:00
Nature重磅:击败人类数学家,AI首次攻破经典数学难题
人工智能(AI)大模型,击败了人类数学家。今天,在 Nature 上发表的一篇论文中,Google DeepMind 的研究团队介绍了一种搜索数学和计算机科学新解决方案的方法——FunSearch
2023-12-15 14:38:00
谷歌deepmind公布ai模型训练法
...包含“上限级问题”、“装箱问题”在内的一系列“涉及数学、计算机科学领域的复杂问题”。▲图源谷歌DeepMind(下同)据悉
2023-12-16 02:20:00
ChatGPT o1满血版上线!实测中它竟然败给了国产AI?
...算困难的数学计算题:假设一个公司生产某种商品,生产成本与产量的关系为C(x)=3x^2-2x+5(单位:万元),其中x是产量(单位
2024-12-11 20:12:00
OpenAI CEO罕见认错:DeepSeek是非常好的模型 将考虑跟进开源!
...式发布了o3-mini模型,这也是OpenAI推理系列中最新、最具成本效益的模型,并且已在ChatGPT和API中开放使用
2025-02-03 14:40:00
更多关于科技的资讯:
“GAI进化论”马来西亚站正式开售 大麦国际(MAISEAT)拿下票务总代理
3月13日,知名说唱歌手GAI(周延)的“GAI进化论”2026世界巡回演唱会马来西亚站门票正式开售,大麦国际(MAISEAT)作为本场演出的联合主办方和票务总代理
2026-03-13 14:09:00
AWE海尔智家发布10项标准,推动产业智能化和高品质化
3月12日,AWE2026正式启幕,纵观整个展会,从AI家电到智慧家庭再到全场景智慧生活,智慧体验愈发普遍,“无人家务”也近在眼前
2026-03-13 11:48:00
今年AWE艾普兰奖花落谁家?海信全家筒•棉花糖U7S四筒洗衣机实力获奖,重塑全场景洗护格局
实至名归,荣耀加冕!2026年3月12日,AWE2026中国家电及消费电子博览会在上海盛大启幕,行业权威奖项艾普兰奖同期揭晓
2026-03-13 11:47:00
铅山河红茶跨界融合再提速 传统名茶牵手现代饮品启新篇
.wordContentCss_17733677414731{ font-family:宋体; font-size:14pt
2026-03-13 11:05:00
厦门网讯(厦门日报记者 林露虹)抢抓具身智能产业发展机遇,厦门企业“握指成拳”。昨日,厦门具身智能产业联盟正式成立,联盟由九识智能
2026-03-13 08:29:00
一场汇聚全球好物的消费活动即将登陆杭州。3月15日至17日,“共享大市场·出口中国”之“浙里买全球·消费启杭”活动将在杭州国际博览中心(二期)举行
2026-03-13 09:04:00
山东联通发布OpenClaw安全服务一站式解决方案
鲁网3月13日讯近期,新一代AI智能体OpenClaw凭借全流程自动化任务处理能力迅速走红,成为推动数智化普惠应用的重要载体
2026-03-13 10:02:00
猫砂怎么选?五年累计销量榜首的耐威克绿茶猫砂给出答案
对于养猫家庭来说,挑选一款合适的猫砂是日常照顾中最重要的决策之一。面对市场上琳琅满目的商品,许多铲屎官都会在选购时产生疑问
2026-03-13 10:35:00
翟周近日,汾酒集团生产一线技术工人招聘拟录用名单引发热议,19名硕士研究生出现在酿酒工、成装工的拟录用名单中。“用铁锹摊晾
2026-03-13 10:49:00
清朗金融守权益 康养服务筑安心在"315金融消费者权益保护日"来临之际,中宏保险积极响应"清朗金融网络,守护安心消费"主题的号召
2026-03-13 10:49:00
以抹茶为突破口,武义有机茶销售掀起新热潮。去年,全县有机茶产业产值同比增长近30%,且全年的产量与产值双双位居浙江省各县第一
2026-03-13 08:34:00
龙岩武平新型显示产业全产业链营收突破百亿元大关
东南网龙岩3月12日讯(通讯员 陈荣香 谢思棋 兰秀连 黄玉兰 本网记者 马伊骅)一块小小显示屏,承载着县域产业转型的大梦想
2026-03-13 08:08:00
当国家级资本的“活水”遇上浙江数字贸易的“良田”,一场关于未来的激烈角逐正式启幕。3月12日,国家服务贸易创新发展引导基金二期(以下简称“服贸基金二期”)杭州项目路演会举行
2026-03-13 07:03:00
3月12日举行的国家服务贸易创新发展引导基金二期杭州项目路演会上,杭州融梦智能科技有限公司创始人钟张翼戴着自家研发的Dreamworld AI智能眼镜登场
2026-03-13 07:33:00
万典 南昌县银河学校摘要:计算能力是小学数学核心素养的重要组成部分。小学三、四年级是学生从简单加减向多位数乘除、小数和分数过渡的关键期
2026-03-13 07:34:00