基准,北大,生成,模型,文本,评估头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

零样本即可时空预测！港大、华南理工等发布时空大模型Urban

...时间段和地理位置的时空动态的理解。相比之下，传统的基准模型通常更注重编码时空依赖关系，而忽略了区域、时段和数据类型之间的语义差异。通过将丰富的语义信息融入UrbanGPT，我们显著提升了其在未见过的区域中进行精...……更多

2024-08-01 09:40:00时空,华南,样本,理工,模型,时空

4090单卡可跑，6秒直出电影级画质，智谱版Sora正式开源

...Sora「清影」，已经引起了AI视频圈的轰动！才发布6天，生成视频数就已经破百万。并且，智谱AI也将同源的视频生产模型CogVideoX，一并开源了。7月26日，智谱发布AI 生视频产品「清影」，30秒将任意文图生成视频，并上线在他们...……更多

2024-08-07 09:43:00画质,电影,视频,模型,生成,团队

严禁AI评审！CVPR 2025重申大模型审稿0容忍，一首拒

...的相关研究来利用大模型辅助人类审稿，还提出相关评估基准等。论文地址：https://arxiv.org/abs/2310.01783比如斯坦福学者发现，GPT-4对于Nature、ICLR的论文给出的审稿意见，和人类审稿人已然有超过50%的相似性，未来让大模型辅助论...……更多

2024-12-09 09:48:00小诗,一首,评审,全场,爆笑,模型

苹果的封闭生态为大模型打开！发布开源多模态大模型、每天为 A

...对话内定位。团队表示，通过对现有多模态大模型进行了基准测试，发现 Ferret 的平均性能较最出色的原有大模型高 20.4%，而且在物体识别的幻觉方面也有所减轻。概括来讲，Ferret 项目论文的贡献主要为以下三个方面：结束语...……更多

2023-12-26 14:06:00模型,生态,模态,零碎,苹果,模型

北大等发布多模态版o1！首个慢思考VLM将开源，视觉推理超闭

...统思维链提示，实现自主“慢思考”推理。在多模态推理基准测试中，LLaVA-o1超越其基础模型8.9%，并在性能上超越了一众开闭源模型。新模型具体如何推理，直接上实例，比如问题是：减去所有的小亮球和紫色物体，剩下多少个...……更多

2024-11-20 09:42:00模态,推理,北大,视觉,模型,推理

鄂维南院士领衔新作：大模型不止有RAG、参数存储，还有第3种

...时间表。实验结果研究者评估了 Memory3 模型的一般能力（基准任务）、对话能力、专业能力（法律和医学）以及幻觉。此外，研究者还测量了 Memory3 的解码速度，并与类似和更大的 SOTA LLM 以及 RAG 模型进行了比较。一般能力的评...……更多

2024-07-11 09:33:00维南,领衔,院士,新作,模型,存储

NeurIPS 2024最佳论文开奖！北大字节NUS夺冠，I

...大学Sea AI Lab团队。除此之外，大会还公布了「数据集与基准」赛道的最佳论文，以及主赛道最佳论文奖委员会，数据集和基准赛道最佳论文奖委员会。今年，是NeurIPS第38届年会，于12月9日-15日在加拿大温哥华正式拉开帷幕。前...……更多

2024-12-12 09:41:00字节,获奖,北大,论文,清单,论文

谷歌绝地反击：新模型部分能力超GPT-4，Bard将支持中文

...处理、推理和编码能力上有了很大的提升。根据官方发的基准测试，对于具有思维链prompt（提示）或自洽性的MATH、GSM8K和MGSM基准评估，PaLM 2的部分结果超越了GPT-4。值得注意的，PaLM 2模型还提供了不同规模的四个版本，从小到大...……更多

2023-05-11 23:00:00微软,绝地,中文,模型,能力,部分

ChatGPT爆火到休克，问它北大好还是清华好，它还挺圆滑

...都基本说到点了，还挺谦逊，也足够圆滑，比如我问他“北大好还是清华好？”他说这是一个相当有争议的问题，因为没有明确的答案。看来给ChatGPT打工的北大清华学子数目相当。不过ChatGPT要达到电影《她》里那个电话机器人...……更多

2023-02-10 11:40:00清华,北大,还是,机器,音节,机器人

这才是真开源模型！公开后训练一切，性能超越Llama 3.1

...lu 3 系列模型明显优于同等规模的其它模型。8B 模型在各基准上的表现70B 模型在各基准上的表现 Tülu 3 是如何炼成的？Ai2 在预训练语言模型的基础上，通过四个阶段的后训练方法生成 Tülu 3 模型（见图 1）。这套训练流程结合...……更多

2024-11-26 09:44:00模型,性能,训练,模型,训练,数据

微软华人团队发布全新基准AGIEval，专为人类考试而生

随着语言模型的能力越来越强，现有的这些评估基准实在有点小儿科了，有些任务的性能都甩了人类一截。通用人工智能（AGI）的一个重要特点是模型具有处理人类水平任务的泛化能力，而依赖于人工数据集的传统基准测试并...……更多

2023-05-13 21:28:00微软,基准,专为,团队,人类,全新

刚刚，重磅发布！阿里、腾讯、科大讯飞在列

...单公布的算法包括：美团在线智能客服算法、快手短视频生成合成算法、百度文生图内容生成算法、百度PLATO大模型算法、天猫小蜜智能客服算法、菜鸟物流智能客服算法、讯飞星火认知大模型算法、腾讯云语音合成算法等。从...……更多

2023-06-20 17:00:00讯飞,腾讯,阿里,重磅,算法,生成

生成式AI创新游戏体验-亚马逊云科技助力沐瞳科技高效游戏运营

...模型在短短一年时间内就取得了令人瞩目的进展,在多个基准测试中展现出了优于GPT-4的能力,尤其是在代码开发、科学推理等场景中的卓越表现。更重要的是,Claude在安全性方面表现出色,能有效防止大模型”越狱”(突破安全限制...……更多

2024-04-16 18:17:00亚马,亚马逊,科技,生成,运营,体验

英伟达开源NVLM 1.0屠榜多模态！纯文本性能不降反升

...本性能甚至超过了LLM骨干模型，特别是在文本数学和编码基准测试中，平均准确率提高了4.3个百分点。文本大模型经过多年的发展，逐渐发展成了统一的纯解码器Transformer架构。反观现有的多模态大模型架构仍然处于混乱状态，...……更多

2024-09-24 13:36:00英伟,模态,文本,性能,模态,模型

谷歌版Sora升级4K高清！一句话控制镜头运动，跑分叫板可灵

...评估中，Veo 2 的表现优于其他领先的视频生成模型在Meta基准数据集 MovieGenBench上，人类参与者观看了1003个提示和响应的视频。结果显示，跟市面上的主流视频生成模型相比，Veo2.0在整体偏好、Prompt指令准确遵循方面都表现最佳...……更多

2024-12-17 09:12:00海螺,高清,一句话,镜头,升级,控制

古汉语大语言模型的构建及应用研究

...标相结合的方法，全面评估模型的性能，确保其在理解和生成古汉语文本方面的有效性。二、古汉语大语言模型的应用古汉语大语言模型的应用前景广阔，涵盖文化传播、教育培训、学术研究等多个领域。在文化传播方面，古...……更多

2024-12-27 10:08:00古汉,模型,语言,应用,研究,古汉

MSRA：视觉生成六大技术问题

文生图、文生视频，视觉生成赛道火热，但仍存在亟需解决的问题。微软亚洲研究院研究员古纾旸对此进行了梳理，他认为视觉信号拆分是最本质的问题。生成模型的目标是拟合目标数据分布，然而，目标数据分布过于复杂，...……更多

2024-07-15 09:34:00生成,视觉,问题,技术,模型,图像

谷歌Gemini数学反超o1预览版！成本仅1/10、无需额外

...7%；而在 MATH 和 HiddenMath（内部保留的竞赛数学问题集）基准测试中，两种模型有约 20% 的显著改进，其中Pro版本以86.5%的成绩超过了o1-preview（85.5%）。除此之外，在视觉理解和代码代码生成的评估中也有2%-7%的提升。根据开发人...……更多

2024-09-26 10:01:00成本,数学,时间,模型,数学,输出

「世界开源新王」跌落神坛？重测跑分暴跌实锤造假，2人团队光速

...性消息——结果没多久，Reflection 70B就被打假了：公布的基准测试结果和他们的独立测试之间存在显著差异。无论是AI研究者，还是第三方评估者，都无法复现Matt Shumer所声称的结果。根据Artificial Analysis的数据，Reflection 70B在基准...……更多

2024-10-08 09:47:00神坛,光速,团队,世界,模型,基准

语音克隆达到人类水平，微软全新VALL-E 2模型让Deep

...AR和NAR模型的结合。以文本序列和代码提示<′,0为条件生成目标代码≥′,0的第一代码序列，再用自回归的方式生成每组的目标代码。给定≥′,0序列后，就可以使用文本条件和声学条件<′推断NAR模型，以生成剩余的目标代...……更多

2024-07-25 09:34:00堪比,微软,配音,语音,模型,人类

Meta 公司发布 Imagine Yourself AI

...家 8 月 23 日消息，从社交媒体到虚拟现实，个性化图像生成因其在各种应用中的潜力而日益受到关注。传统方法通常需要针对每位用户进行大量调整，从而限制了效率和可扩展性，为此 Meta 公司创新提出了“Imagine Yourself” AI 模...……更多

2024-08-24 09:44:00模型,公司,模型,生成,图像,身份

英伟达最新技术分享：手把手教你用Llama 3.1合成数据改

...好利用这个强大的开源模型，为领域模型或RAG系统的微调生成合成数据。Epoch AI上个月刚刚发文，结果。真实数据稀缺可能不再是问题了，Nemotron 9T token的预训练预料中，98%都是合成数据。也许你还对合成数据存在顾虑，或者不...……更多

2024-07-30 09:38:00手把,英伟,最新技术,模型,代码,数据

腾讯大模型混元Turbo：御气升昺云，梓桐金鼎开

... 100%，推理成本降低 50%，解码速度提升 20%，效果在多个基准测试上对标GPT-4o。最新第三方测评在国内位居第一。腾讯混云大模型已经落地腾讯700+个业务场景，这次大模型的升级进一步提升各个产品的AI能力及AI含量，实现更高的...……更多

2024-09-14 14:04:00金鼎,腾讯,模型,腾讯,模型,推理

从未见过现实世界数据，MIT在虚拟环境中训练出机器狗，能跑酷

...拟创建的真实世界场景中评估学习到的控制器性能。这些基准环境的示例如下图 9 所示。此外，研究者进行了以下基线比较：需要特权地形数据（障碍）的专家策略；使用相同 pipeline 训练的深度学生策略；使用纹理上经典域随...……更多

2024-11-19 09:50:00从未,现实,机器,训练,环境,数据

AI重磅！“它太危险了，不能公开发布”

...越了之前的零样本TTS系统。它是同类产品中第一个在这些基准上达到与人类相当水平的系统。” 微软研究人员在一篇博客文章中写道：“VALL-E 2纯粹是一个研究项目。目前，我们还没有将VALL-E 2纳入产品或向公众开放的计划。在...……更多

2024-07-15 09:37:00重磅,危险,语音,研究人员,人工智能,微软

零一万物Yi-1.5来了，国产开源大模型排行榜再次刷新

...步提升了编码、数学、推理和指令遵循能力。从下方多个基准测试结果可以看出，Yi-1.5 34B 型号的一些指标超过了 Qwen 的 72B，几乎与 Meta Llama 3 的 70B 相当。6B 和 9B 型号也成功超越了 Mistral 的 7B v0.2 版和 Gemma 的 7B 型号。……更多

2024-05-14 09:56:00万物,模型,国产,再次,排行榜,模型

CMU&清华：让LLM自己合成数据来学习，特定任务性能同样大

...评估 SELF-GUIDE 的有效性，研究者从 Super-NaturalInstructions V2 基准中选择了 14 个分类任务和 8 个生成任务。研究者随机选择了一半任务用于超参数搜索，剩余的一半用于评估。在模型方面，研究者选择了 Vicuna-7b-1.5 作为输入生成、...……更多

2024-08-02 09:40:00清华,性能,任务,数据,学习,生成