基准,北大,生成,模型,文本,评估头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

ChatGPT爆火到休克，问它北大好还是清华好，它还挺圆滑

...都基本说到点了，还挺谦逊，也足够圆滑，比如我问他“北大好还是清华好？”他说这是一个相当有争议的问题，因为没有明确的答案。看来给ChatGPT打工的北大清华学子数目相当。不过ChatGPT要达到电影《她》里那个电话机器人...……更多

2023-02-10 11:40:00清华,北大,还是,机器,音节,机器人

这才是真开源模型！公开后训练一切，性能超越Llama 3.1

...lu 3 系列模型明显优于同等规模的其它模型。8B 模型在各基准上的表现70B 模型在各基准上的表现 Tülu 3 是如何炼成的？Ai2 在预训练语言模型的基础上，通过四个阶段的后训练方法生成 Tülu 3 模型（见图 1）。这套训练流程结合...……更多

2024-11-26 09:44:00模型,性能,训练,模型,训练,数据

生成式AI创新游戏体验-亚马逊云科技助力沐瞳科技高效游戏运营

...模型在短短一年时间内就取得了令人瞩目的进展,在多个基准测试中展现出了优于GPT-4的能力,尤其是在代码开发、科学推理等场景中的卓越表现。更重要的是,Claude在安全性方面表现出色,能有效防止大模型”越狱”(突破安全限制...……更多

2024-04-16 18:17:00亚马,亚马逊,科技,生成,运营,体验

英伟达开源NVLM 1.0屠榜多模态！纯文本性能不降反升

...本性能甚至超过了LLM骨干模型，特别是在文本数学和编码基准测试中，平均准确率提高了4.3个百分点。文本大模型经过多年的发展，逐渐发展成了统一的纯解码器Transformer架构。反观现有的多模态大模型架构仍然处于混乱状态，...……更多

2024-09-24 13:36:00英伟,模态,文本,性能,模态,模型

谷歌版Sora升级4K高清！一句话控制镜头运动，跑分叫板可灵

...评估中，Veo 2 的表现优于其他领先的视频生成模型在Meta基准数据集 MovieGenBench上，人类参与者观看了1003个提示和响应的视频。结果显示，跟市面上的主流视频生成模型相比，Veo2.0在整体偏好、Prompt指令准确遵循方面都表现最佳...……更多

2024-12-17 09:12:00海螺,高清,一句话,镜头,升级,控制

古汉语大语言模型的构建及应用研究

...标相结合的方法，全面评估模型的性能，确保其在理解和生成古汉语文本方面的有效性。二、古汉语大语言模型的应用古汉语大语言模型的应用前景广阔，涵盖文化传播、教育培训、学术研究等多个领域。在文化传播方面，古...……更多

2024-12-27 10:08:00古汉,模型,语言,应用,研究,古汉

MSRA：视觉生成六大技术问题

文生图、文生视频，视觉生成赛道火热，但仍存在亟需解决的问题。微软亚洲研究院研究员古纾旸对此进行了梳理，他认为视觉信号拆分是最本质的问题。生成模型的目标是拟合目标数据分布，然而，目标数据分布过于复杂，...……更多

2024-07-15 09:34:00生成,视觉,问题,技术,模型,图像

谷歌Gemini数学反超o1预览版！成本仅1/10、无需额外

...7%；而在 MATH 和 HiddenMath（内部保留的竞赛数学问题集）基准测试中，两种模型有约 20% 的显著改进，其中Pro版本以86.5%的成绩超过了o1-preview（85.5%）。除此之外，在视觉理解和代码代码生成的评估中也有2%-7%的提升。根据开发人...……更多

2024-09-26 10:01:00成本,数学,时间,模型,数学,输出

「世界开源新王」跌落神坛？重测跑分暴跌实锤造假，2人团队光速

...性消息——结果没多久，Reflection 70B就被打假了：公布的基准测试结果和他们的独立测试之间存在显著差异。无论是AI研究者，还是第三方评估者，都无法复现Matt Shumer所声称的结果。根据Artificial Analysis的数据，Reflection 70B在基准...……更多

2024-10-08 09:47:00神坛,光速,团队,世界,模型,基准

语音克隆达到人类水平，微软全新VALL-E 2模型让Deep

...AR和NAR模型的结合。以文本序列和代码提示<′,0为条件生成目标代码≥′,0的第一代码序列，再用自回归的方式生成每组的目标代码。给定≥′,0序列后，就可以使用文本条件和声学条件<′推断NAR模型，以生成剩余的目标代...……更多

2024-07-25 09:34:00堪比,微软,配音,语音,模型,人类

Meta 公司发布 Imagine Yourself AI

...家 8 月 23 日消息，从社交媒体到虚拟现实，个性化图像生成因其在各种应用中的潜力而日益受到关注。传统方法通常需要针对每位用户进行大量调整，从而限制了效率和可扩展性，为此 Meta 公司创新提出了“Imagine Yourself” AI 模...……更多

2024-08-24 09:44:00模型,公司,模型,生成,图像,身份

腾讯大模型混元Turbo：御气升昺云，梓桐金鼎开

... 100%，推理成本降低 50%，解码速度提升 20%，效果在多个基准测试上对标GPT-4o。最新第三方测评在国内位居第一。腾讯混云大模型已经落地腾讯700+个业务场景，这次大模型的升级进一步提升各个产品的AI能力及AI含量，实现更高的...……更多

2024-09-14 14:04:00金鼎,腾讯,模型,腾讯,模型,推理

英伟达最新技术分享：手把手教你用Llama 3.1合成数据改

...好利用这个强大的开源模型，为领域模型或RAG系统的微调生成合成数据。Epoch AI上个月刚刚发文，结果。真实数据稀缺可能不再是问题了，Nemotron 9T token的预训练预料中，98%都是合成数据。也许你还对合成数据存在顾虑，或者不...……更多

2024-07-30 09:38:00手把,英伟,最新技术,模型,代码,数据

从未见过现实世界数据，MIT在虚拟环境中训练出机器狗，能跑酷

...拟创建的真实世界场景中评估学习到的控制器性能。这些基准环境的示例如下图 9 所示。此外，研究者进行了以下基线比较：需要特权地形数据（障碍）的专家策略；使用相同 pipeline 训练的深度学生策略；使用纹理上经典域随...……更多

2024-11-19 09:50:00从未,现实,机器,训练,环境,数据

AI重磅！“它太危险了，不能公开发布”

...越了之前的零样本TTS系统。它是同类产品中第一个在这些基准上达到与人类相当水平的系统。” 微软研究人员在一篇博客文章中写道：“VALL-E 2纯粹是一个研究项目。目前，我们还没有将VALL-E 2纳入产品或向公众开放的计划。在...……更多

2024-07-15 09:37:00重磅,危险,语音,研究人员,人工智能,微软

零一万物Yi-1.5来了，国产开源大模型排行榜再次刷新

...步提升了编码、数学、推理和指令遵循能力。从下方多个基准测试结果可以看出，Yi-1.5 34B 型号的一些指标超过了 Qwen 的 72B，几乎与 Meta Llama 3 的 70B 相当。6B 和 9B 型号也成功超越了 Mistral 的 7B v0.2 版和 Gemma 的 7B 型号。……更多

2024-05-14 09:56:00万物,模型,国产,再次,排行榜,模型

CMU&清华：让LLM自己合成数据来学习，特定任务性能同样大

...评估 SELF-GUIDE 的有效性，研究者从 Super-NaturalInstructions V2 基准中选择了 14 个分类任务和 8 个生成任务。研究者随机选择了一半任务用于超参数搜索，剩余的一半用于评估。在模型方面，研究者选择了 Vicuna-7b-1.5 作为输入生成、...……更多

2024-08-02 09:40:00清华,性能,任务,数据,学习,生成

Llama 4训练已开启！Meta科学家最新采访，揭秘Lla

...型参数量和训练token数的最佳比率。如果你希望在论文的基准测试中得到最优模型，那么Chinchilla本身没有问题；但Meta要发布的旗舰模型还需要更高的推理效率。因此，我们选择增加训练的token数，并增加训练时长，让模型达到「...……更多

2024-07-29 09:33:00科学家,训练,科学,模型,训练,基准

AIGC工具测评：生成式AI的产品表现如何

...Google 称 Gemini 是其历史上最强大、最通用的模型，在许多基准测试中都具有最先进的性能。Google DeepMind 的 CEO Demis Hassabis 称 Gemini 可以像人类一样理解我们周围的世界，并吸收任何类型的输入和输出，包括文本、代码、视频、音...……更多

2024-03-25 13:00:00生成,工具,产品,用户,界面,通义

Meta版Sora深夜横空出世，小扎放出16秒高清大片！92

【新智元导读】Meta版Sora，就在刚刚惊艳来袭。Movie Gen可生成1080p、16秒、每秒16帧的高清长视频，还能生成音效、编辑视频、上传图像生成个性化视频。甚至Meta还放出了92页论文，模型架构、训练细节一并公开，干货满满！毫无...……更多

2024-10-08 09:52:00高清,架构,大片,细节,论文,技术

Google推出全新人工智能模型Gemini 2.0 用途更

...加强大。" Google声称，根据自己的测试，2.0 Flash 在某些基准测试中的速度是该公司 Gemini 1.5 Pro 模型的两倍，而且在编程和图像分析等方面有了"显著"改进。事实上，该公司表示，2.0 Flash 凭借其卓越的数学能力和"事实性"，取代 ...……更多

2024-12-12 09:54:00人工智能,人工,模型,用途,全新,智能

腾讯开源最大MoE大语言模型！3D大模型同时支持文/图生成，

...3D、视频等更多模态，今年8月在SuperCLUE-V多模态理解评测基准总榜中排名第一。文生图方面，今年5月，腾讯混元全面开源业界首个中文原生DiT架构文生图大模型，评测结果国内领先。还有今天宣布开源的文/图生3D模型，单张图30...……更多

2024-11-06 09:41:00模型,腾讯,全家,生成,同时,语言

神仙打架！谷歌新款大模型Gemini 和GPT-4谁能笑到最

...称Gemini Ultra 在大型语言模型研发被广泛使用的 32 个学术基准测试集中，在其中 30 个测试集的性能超过当前 SOTA 结果。 Gemini是谷歌各个团队大规模合作的成果，包括谷歌研究院的研究者，这个模型从发布之初就定位为原生多模...……更多

2023-12-07 16:15:00神仙,模型,观察,科技,模型,任务

Claude 3.5深夜觉醒，学会模仿人类用电脑！编程干翻o

...挑战。升级版Claude 3.5 Sonnet，编码王者干翻o1在各项行业基准测试中，升级版Claude 3.5 Sonnet性能得到了全方位提升。特别是，智能体编码、工具使用任务中取得显著突破。论文地址：https://assets.anthropic.com/m/1cd9d098ac3……更多

2024-10-23 09:55:00人类,编程,模型,能力,开发,任务

GPT-4劲敌，谷歌进入高能+高产模式

....5 Pro官方测试数据Gemini 1.5 Pro大大超过Gemini 1.0 Pro，在27项基准（共31项）上表现更好，特别是在数学、科学和推理（+28.9%），多语言（+22.3%），视频理解（+11.2%）和代码（+8.9%）等领域。即使是对比Gemini 系列的高端产品Gemini……更多

2024-02-21 14:05:00劲敌,高产,模式,模型,上下文,处理