我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

谷歌终于赢了OpenAI一回：实验版本Gemini 1.5 Pro超越GPT-4o

类别：科技发布时间：2024-08-05 09:36:00 来源：机器之心Pro

这么强的模型，谷歌给大家免费试用。

近两日，谷歌在不断发布最新研究。继昨日放出最强端侧 Gemma 2 2B 小模型后，刚刚，Gemini 1.5 Pro 实验版本 (0801) 已经推出。

用户可以通过 Google AI Studio 和 Gemini API 进行测试和反馈。

既然免费，那我们帮大家测试一下最近比较火的比大小问题。当我们问 Gemini 1.5 Pro (0801) 9.9 和 9.11 哪个数大时，模型一次就能回答正确，并给出了理由。

谷歌终于赢了OpenAI一回：实验版本Gemini 1.5 Pro超越GPT-4o

当我们继续追问「Strawberry 单词里面有多少个 r」时，然而 Gemini 1.5 Pro (0801) 却翻车了。在提示语中施加「咒语」一步一步来，模型分析到第四步就出错了。

Google AI Studio 测试地址：https://aistudio.google.com/app/prompts/new_chat

不过，从官方评测来看，Gemini 1.5 Pro (0801) 各项指标还是很能打的。新模型迅速夺得著名的 LMSYS Chatbot Arena 排行榜榜首，并拥有令人印象深刻的 ELO 分数，得分为 1300。

这一成就使 Gemini 1.5 Pro (0801) 领先于 OpenAI 的 GPT-4o（ELO：1286）和 Anthropic 的 Claude-3.5 Sonnet（ELO：1271）等强大竞争对手，这或许预示着人工智能格局的转变。

Gemini 团队关键成员 Simon Tokumine 称 Gemini 1.5 Pro (0801) 是谷歌迄今为止制造的最强大、最智能的 Gemini （模型）。

除了拿到 Chatbot Arena 榜首，Gemini 1.5 Pro (0801) 在多语言任务、数学、Hard Prompt 和编码等领域也表现相当出色。

具体而言，Gemini 1.5 Pro (0801) 在中文、日语、德语、俄语方面均表现第一。

但在编码、Hard Prompt 领域，Claude 3.5 Sonnet、GPT-4o、Llama 405B 仍然处于领先地位。

在 win-rate 热图上：Gemini 1.5 Pro (0801) 对阵 GPT-4o 的胜率为 54%，对阵 Claude-3.5-Sonnet 的胜率为 59%。

Gemini 1.5 Pro (0801) 在 Vision 排行榜上也第一！

网友纷纷表示，谷歌这次真是出乎所有人的预料，没有提前官宣就突然开放测试最强模型，这次压力给到了 OpenAI。

虽然 Gemini 1.5 Pro (0801) 取得了很高的成绩，但它仍处于实验阶段。这意味着该模型在广泛使用之前可能会进行进一步的修改。

网友评测

有网友对 Gemini 1.5 Pro (0801) 的内容提取能力、代码生成能力、推理能力等进行了测试，我们来看下他的测试结果。

来源：https://x.com/omarsar0/status/1819162249593840110

首先，Gemini 1.5 Pro (0801) 的图像信息提取功能很强，例如输入一张发票图像，将发票细节用 JSON 格式编写出来：

再来看下 Gemini 1.5 Pro (0801) 的 PDF 文档内容提取功能，以经典论文《Attention Is All You Need》为例，提取论文章节目录：

让 Gemini 1.5 Pro (0801) 生成一个帮助学习大型语言模型（LLM）知识的 Python 游戏，该模型直接生成了一整段代码：

值得一提的是，Gemini 1.5 Pro (0801) 还给出了详细的代码解释，包括代码中函数的作用、该 Python 游戏的玩法等等。

这段程序可以直接在 Google AI Studio 中运行，并且可以试玩，例如做道关于 Tokenization 定义的选择题：

如果觉得选择题太简单无聊，可以进一步让 Gemini 1.5 Pro (0801) 生成一个更复杂的游戏：

得到一个 LLM 专业知识句子填空游戏：

为了测试 Gemini 1.5 Pro (0801) 的推理能力，网友提问了一个「吹蜡烛」问题，但模型回答错误：

尽管有一些瑕疵，但 Gemini 1.5 Pro (0801) 的确表现出接近 GPT-4o 的视觉能力，以及接近 Claude 3.5 Sonnet 的代码生成和 PDF 理解、推理能力，值得期待。

https://www.youtube.com/watch?v=lUA9elNdpoY

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2024-08-05 11:45:08

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于版本,实验,模型,测试,能力,生成的资讯：

多模态模型免微调接入互联网，即插即用新框架，效果超闭源方案

...据的时效性。目前已有UDK-VQA-240401-30、UDK-VQA-240816-20两个版本的数据集，涉及到的时间跨度分别是2024年4月1日-2024年4月31日和2024年8月16日-2024年9月5日

2024-11-11 13:34:00

ai实验室阿里通义将推出创新视频生成大模型

...次。回顾今年5月，在阿里云AI智领者峰会上，通义千问2.5版本正式发布，同时，其1100亿参数的开源模型在多个基准测试中表现优异。会上还宣布了原通义千问APP更名为“通义AP

2024-09-15 02:18:00

开源大模型新的里程碑！Llama 3.1 模型准时发布

...Meta官方正式发布了Llama3.1模型。本次Llama3.1模型共有三个版本，分别是8B、70B和405B。从基准测试结果来看

2024-07-24 12:13:00

这才是真开源模型！公开后训练一切，性能超越Llama 3.1

...来自艾伦人工智能研究所（Ai2），目前包含 8B 和 70B 两个版本（未来还会有 405B 版本），并且其性能超过了 Llama 3

2024-11-26 09:44:00

复旦MOSS大模型开源了！Github和Hugging Fa

...程，也能生成图片据了解，这次MOSS开源的是第三轮迭代版本，名叫MOSS 003。当然，MOSS 003也并非开源了全部模型

2023-04-23 16:48:00

OpenAI 超强 o1 智商超 120 遥遥领先于其他模型

...完成了。他称，在大约 6 次提示后，o1 便创建了一个运行版本的 Python 代码，描述出研究论文「方法」部分的内容

2024-09-18 09:49:00

LLM仍然不能规划，刷屏的OpenAI o1远未达到饱和

...的结果，测试领域包括 Blocksworld 和 Mystery Blocksworld（混淆版本），其中前者是在 600 个 3 到 5 个 blockBlocksworld问题静态测试集上运行的结果

2024-09-25 09:48:00

MediaTek携手阿里云在天玑移动平台完成通义千问大模型端

...，双方在天玑9300移动平台上完成通义千问大模型小尺寸版本的端侧部署，该部署可适配天玑8300移动平台，可实现离线状态下即时且精准的多轮人机对话问答。未来，双方将携手打造面向

2024-03-28 15:35:00

将偏好学习引入模型训练，北大李戈团队提出代码生成优化新框架

...的生成准确率和效率，都获得了一定提升。★代码准确性实验研究团队在HumanEval（+），MBPP（+）和DS-1000三个数据集上进行了广泛实验

2024-11-28 09:57:00

更多关于科技的资讯：

建设银行聊城分行：“小微快贷”信用产品矩阵，精准匹配企业需求

建设银行聊城分行始终践行国家普惠金融政策，坚守服务实体经济的初心、将支持小微企业发展放在优先位置，精准聚焦企业“短、频

2025-10-18 19:58:00

建设银行泰安新泰支行：2025年“数据要素×”大赛山东分赛泰

通讯员程瑶近日，在泰安市大数据局、泰安市财政局、国家金融监督管理总局泰安监管分局、泰安市直多部门举办的2025年“数据要素×”大赛山东分赛泰安市选拔赛中

2025-10-18 19:58:00

建设银行泰安肥城支行：AI助手为柜员注入智能动能

通讯员王靓婧随着AI技术与柜台业务深度融合，建行的AI助手正以“智能搭档”的角色，为柜员减负、提效、赋能，重新定义线下金融服务的专业与温度

2025-10-18 19:23:00

探访南昌红谷滩商业新活力：首店经济亮眼，TOD模式引潮

大皖新闻讯 2025世界VR产业大会召开在即，南昌市红谷滩区委宣传部以“活力红谷滩智启新未来”为主题组织媒体行活动。媒体团深入辖区标杆商业体

2025-10-18 19:18:00

Kiwa为“腾越电子”颁发MID认证证书，叩响欧盟市场新篇章

国际权威检测、检验及认证（TIC）服务商Kiwa，于不久前正式向连云港腾越电子科技有限公司（全文简称为“腾越电子”）颁发欧盟CE认证MID证书

2025-10-18 18:44:00

全球首款L4级能效智能体项目在宁签约

南报网讯（通讯员胡晓靓记者夏思宇）走进南京绿叶制药有限公司制冷站，冷水机组、冷冻水泵、冷却水泵、冷却塔等设备稳定运转，维持药品生产GMP车间的恒温恒湿环境

2025-10-17 08:13:00

聚焦2025中国国际数字经济博览会•现场｜打卡数字展馆体验

10月16日，2025中国国际数字经济博览会展区工作人员在调试机器人。河北日报记者史晟全摄借助VR设备沉浸在古城往事中

2025-10-17 08:23:00

青年说｜肯奋斗，才会拥有无限可能

我从事科技研发工作，出生在一个三代从商的家庭。我的祖父是一名民营企业家，在枣强县这片土地上开启了玻璃钢产业创业之路；我的父亲骑着一辆摩托车闯荡天津

2025-10-17 09:11:00

世说新语｜年轻人“假期地图”缘何文化味十足

博物馆“抢票”成第一关，中轴线打卡、汉服妆造让历史游玩出沉浸新花样……音乐节、演唱会与国际顶级体育赛事一票难求，“为一场演出赴一座城”成为常态

2025-10-17 09:15:00

新闻纵深·县域特色产业新力量｜借力京津，机器人产业双链融合

阅读提示唐山市高新技术产业开发区在机器人新赛道上频频发力，已形成以工业机器人为引领、特种机器人为亮点、服务机器人为特色

2025-10-17 09:19:00

旭客民宿出租车广告上线，金华房东的“生意牌面”正在刷新

旭客民宿出租车广告上线，金华房东的“生意牌面”正在刷新最近在金华街头，不少人注意到一组频繁穿梭的出租车广告：“住旭客民宿

2025-10-17 09:25:00

AI EMPOWERS ALL丨神州泰岳亮相中国移动全球合作

碳硅共生，合创AI+时代——第13届中国移动全球合作伙伴大会于今日在广州保利世贸博览馆盛大启幕。神州泰岳作为中国移动长期重要合作伙伴

2025-10-17 09:25:00

内容觉醒·生态共创 | 2025瑞派短视频大赛职人组培训圆满

金秋时节，硕果盈枝。由瑞派股份市场营销中心倾力打造的“2025年度瑞派短视频大赛职人专属赛道培训”在热烈氛围中圆满收官

2025-10-17 09:55:00

“三个维度”激活卷烟消费新动能

市场销售疲软，高档卷烟销售增速放缓，中低档卷烟却因消费需求旺盛出现供应紧张的问题，这是当前卷烟销售工作面临的瓶颈。受计划经济体制影响

2025-10-17 10:02:00

浪潮科技三款平台产品或升级认可

近日，山东省工业和信息化厅公布了拟入选第九批山东省首版次高端软件产品公示名单。浪潮科技研发的“焱宇行业大模型服务平台 V1

2025-10-17 10:03:00

头条订阅服务

谷歌终于赢了OpenAI一回：实验版本Gemini 1.5 Pro超越GPT-4o