• 我的订阅
  • 科技

谷歌终于赢了OpenAI一回:实验版本Gemini 1.5 Pro超越GPT-4o

类别:科技 发布时间:2024-08-05 09:36:00 来源:机器之心Pro

这么强的模型,谷歌给大家免费试用。

近两日,谷歌在不断发布最新研究。继昨日放出最强端侧 Gemma 2 2B 小模型后,刚刚,Gemini 1.5 Pro 实验版本 (0801) 已经推出。

用户可以通过 Google AI Studio 和 Gemini API 进行测试和反馈。

既然免费,那我们帮大家测试一下最近比较火的比大小问题。当我们问 Gemini 1.5 Pro (0801) 9.9 和 9.11 哪个数大时,模型一次就能回答正确,并给出了理由。

谷歌终于赢了OpenAI一回:实验版本Gemini 1.5 Pro超越GPT-4o

当我们继续追问「Strawberry 单词里面有多少个 r」时,然而 Gemini 1.5 Pro (0801) 却翻车了。在提示语中施加「咒语」一步一步来,模型分析到第四步就出错了。

谷歌终于赢了OpenAI一回:实验版本Gemini 1.5 Pro超越GPT-4o

Google AI Studio 测试地址:https://aistudio.google.com/app/prompts/new_chat

不过,从官方评测来看,Gemini 1.5 Pro (0801) 各项指标还是很能打的。新模型迅速夺得著名的 LMSYS Chatbot Arena 排行榜榜首,并拥有令人印象深刻的 ELO 分数,得分为 1300。

这一成就使 Gemini 1.5 Pro (0801) 领先于 OpenAI 的 GPT-4o(ELO:1286)和 Anthropic 的 Claude-3.5 Sonnet(ELO:1271)等强大竞争对手,这或许预示着人工智能格局的转变。

谷歌终于赢了OpenAI一回:实验版本Gemini 1.5 Pro超越GPT-4o

Gemini 团队关键成员 Simon Tokumine 称 Gemini 1.5 Pro (0801) 是谷歌迄今为止制造的最强大、最智能的 Gemini (模型)。

除了拿到 Chatbot Arena 榜首,Gemini 1.5 Pro (0801) 在多语言任务、数学、Hard Prompt 和编码等领域也表现相当出色。

具体而言,Gemini 1.5 Pro (0801) 在中文、日语、德语、俄语方面均表现第一。

谷歌终于赢了OpenAI一回:实验版本Gemini 1.5 Pro超越GPT-4o

谷歌终于赢了OpenAI一回:实验版本Gemini 1.5 Pro超越GPT-4o

但在编码、Hard Prompt 领域,Claude 3.5 Sonnet、GPT-4o、Llama 405B 仍然处于领先地位。

谷歌终于赢了OpenAI一回:实验版本Gemini 1.5 Pro超越GPT-4o

谷歌终于赢了OpenAI一回:实验版本Gemini 1.5 Pro超越GPT-4o

在 win-rate 热图上:Gemini 1.5 Pro (0801) 对阵 GPT-4o 的胜率为 54%,对阵 Claude-3.5-Sonnet 的胜率为 59%。

谷歌终于赢了OpenAI一回:实验版本Gemini 1.5 Pro超越GPT-4o

Gemini 1.5 Pro (0801) 在 Vision 排行榜上也第一!

谷歌终于赢了OpenAI一回:实验版本Gemini 1.5 Pro超越GPT-4o

谷歌终于赢了OpenAI一回:实验版本Gemini 1.5 Pro超越GPT-4o

网友纷纷表示,谷歌这次真是出乎所有人的预料,没有提前官宣就突然开放测试最强模型,这次压力给到了 OpenAI。

谷歌终于赢了OpenAI一回:实验版本Gemini 1.5 Pro超越GPT-4o

虽然 Gemini 1.5 Pro (0801) 取得了很高的成绩,但它仍处于实验阶段。这意味着该模型在广泛使用之前可能会进行进一步的修改。

网友评测

有网友对 Gemini 1.5 Pro (0801) 的内容提取能力、代码生成能力、推理能力等进行了测试,我们来看下他的测试结果。

谷歌终于赢了OpenAI一回:实验版本Gemini 1.5 Pro超越GPT-4o

来源:https://x.com/omarsar0/status/1819162249593840110

首先,Gemini 1.5 Pro (0801) 的图像信息提取功能很强,例如输入一张发票图像,将发票细节用 JSON 格式编写出来:

再来看下 Gemini 1.5 Pro (0801) 的 PDF 文档内容提取功能,以经典论文《Attention Is All You Need》为例,提取论文章节目录:

让 Gemini 1.5 Pro (0801) 生成一个帮助学习大型语言模型(LLM)知识的 Python 游戏,该模型直接生成了一整段代码:

值得一提的是,Gemini 1.5 Pro (0801) 还给出了详细的代码解释,包括代码中函数的作用、该 Python 游戏的玩法等等。

这段程序可以直接在 Google AI Studio 中运行,并且可以试玩,例如做道关于 Tokenization 定义的选择题:

如果觉得选择题太简单无聊,可以进一步让 Gemini 1.5 Pro (0801) 生成一个更复杂的游戏:

得到一个 LLM 专业知识句子填空游戏:

为了测试 Gemini 1.5 Pro (0801) 的推理能力,网友提问了一个「吹蜡烛」问题,但模型回答错误:

尽管有一些瑕疵,但 Gemini 1.5 Pro (0801) 的确表现出接近 GPT-4o 的视觉能力,以及接近 Claude 3.5 Sonnet 的代码生成和 PDF 理解、推理能力,值得期待。

https://www.youtube.com/watch?v=lUA9elNdpoY

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-08-05 11:45:08

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

多模态模型免微调接入互联网,即插即用新框架,效果超闭源方案
...据的时效性。目前已有UDK-VQA-240401-30、UDK-VQA-240816-20两个版本的数据集,涉及到的时间跨度分别是2024年4月1日-2024年4月31日和2024年8月16日-2024年9月5日
2024-11-11 13:34:00
ai实验室阿里通义将推出创新视频生成大模型
...次。回顾今年5月,在阿里云AI智领者峰会上,通义千问2.5版本正式发布,同时,其1100亿参数的开源模型在多个基准测试中表现优异。会上还宣布了原通义千问APP更名为“通义AP
2024-09-15 02:18:00
这才是真开源模型!公开后训练一切,性能超越Llama 3.1 Instruct
...来自艾伦人工智能研究所(Ai2),目前包含 8B 和 70B 两个版本(未来还会有 405B 版本),并且其性能超过了 Llama 3
2024-11-26 09:44:00
开源大模型新的里程碑!Llama 3.1 模型准时发布
...Meta官方正式发布了Llama3.1模型。本次Llama3.1模型共有三个版本,分别是8B、70B和405B。从基准测试结果来看
2024-07-24 12:13:00
复旦MOSS大模型开源了!Github和Hugging Face同时上线
...程,也能生成图片据了解,这次MOSS开源的是第三轮迭代版本,名叫MOSS 003。当然,MOSS 003也并非开源了全部模型
2023-04-23 16:48:00
OpenAI 超强 o1 智商超 120 遥遥领先于其他模型:1 小时写出 NASA 博士 1 年代码,最新编程赛超越 99.8% 选手
...完成了。他称,在大约 6 次提示后,o1 便创建了一个运行版本的 Python 代码,描述出研究论文「方法」部分的内容
2024-09-18 09:49:00
LLM仍然不能规划,刷屏的OpenAI o1远未达到饱和
...的结果,测试领域包括 Blocksworld 和 Mystery Blocksworld(混淆版本),其中前者是在 600 个 3 到 5 个 blockBlocksworld问题静态测试集上运行的结果
2024-09-25 09:48:00
MediaTek携手阿里云在天玑移动平台完成通义千问大模型端侧部署
...,双方在天玑9300移动平台上完成通义千问大模型小尺寸版本的端侧部署,该部署可适配天玑8300移动平台,可实现离线状态下即时且精准的多轮人机对话问答。未来,双方将携手打造面向
2024-03-28 15:35:00
将偏好学习引入模型训练,北大李戈团队提出代码生成优化新框架
...的生成准确率和效率,都获得了一定提升。★代码准确性实验研究团队在HumanEval(+),MBPP(+)和DS-1000三个数据集上进行了广泛实验
2024-11-28 09:57:00
更多关于科技的资讯: