基准,北大,生成,模型,文本,评估头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

...智能系统是否表现出类似人类的智能。此外，还有专门的基准测试，如AgentBench，用于评估LLMs作为智能体在各种真实世界挑战和不同环境中的表现。接下来将会有更多的基准测试面向Agent的各个环节，以促进Agent生态的良性发展与...……更多

2024-02-02 17:00:00研究方向,个体,方向,员工,数字,智能

深度剖析：谷歌、微软等AI巨头承诺的“自愿监管”做到了吗？

...mons 的一部分，在这里它与学者们一起开展跨行业 AI 安全基准研究。谷歌还表示，它积极向美国国家科学基金会的国家人工智能研究资源试点项目等项目贡献计算信用等工具和资源，该试点项目旨在使美国的人工智能研究民主化...……更多

2024-07-25 14:30:00微软,巨头,剖析,监管,深度,人工智能

谷歌DeepMind研究再登Nature封面，隐形水印让AI

...ID-Text的水印方案，已经在自家的Gemini上投入使用，跟踪AI生成的文本内容，使其无所遁形。君可知，我们每天在网上的见闻，有多少是出自AI之手？除了「注意看！这个男人叫小帅」让人头皮发麻，真正的问题是，我们无法辨别...……更多

2024-11-09 13:34:00水印,封面,研究,水印,生成,文本

撞墙还是新起点？自回归模型在图像领域展现出Scaling潜力

...语言模型（ELM/elucidate language model），并在 ImageNet 256×256 基准上实现了 SOTA。ELM-2B 生成的一些不同类别的图像至于注意力模式，不同大小的模型的差别倒是不大：L 大小的模型主要关注局部信息，难以捕获长程信息。相较之下，...……更多

2024-11-27 13:32:00潜力,模型,图像,起点,领域,还是

OpenAI发布文生视频模型Sora，奥尔特曼选取网友提示词

...能准确呈现细节，还能理解物体在物理世界中的存在，并生成具有丰富情感的角色。该模型还可以根据提示、静止图像甚至填补现有视频中的缺失帧来生成视频。一位时髦女士漫步在东京街头，周围是温暖闪烁的霓虹灯和动感的...……更多

2024-02-16 18:44:00文生,奥尔,奥尔特曼,特曼,模型,提示

硅谷大模型“价格战”上演，一味“卷”价格会有未来吗？

...益递减期。”他这样写道。若以MMLU（一种常见的大模型基准指标）为基准，可以看到，从GPT-2到GPT3再到GPT-4呈现了飞跃式的递增，但GPT-4到今年4月发布的GPT-4Turbo的能力改进并不明显。图片来源：《证据表明LLM正达到收益递减点...……更多

2024-05-27 15:27:00硅谷,价格,价格战,一味,模型,模型

自动化、可复现，基于大语言模型群体智能的多维评估基准

...）也越来越强。因此，在多样的应用场景中对其进行性能基准测试已成为了一项重大挑战。目前最受欢迎的基准测试是 Chatbot Arena，它通过收集用户对模型输出的偏好来对 LLM 进行综合排名。然而，随着 LLM 逐渐落地于众多应用场...……更多

2024-10-23 12:03:00多维,基准,群体,模型,自动化,评估

支持1024帧、准确率近100％，英伟达「LongVILA」

...都表现出了增强的性能。表 5 列出了各种模型在 Video MME 基准上的表现，比较了它们在短视频、中视频和长视频长度上的有效性以及整体性能。LongVILA-8B 采用 256 帧，总分为 50.5。研究者还在表 6 对第 3 阶段和第 4 阶段的影响进行...……更多

2024-08-22 09:51:00英伟,准确率,支持,视频,序列,训练

AI视频生成器Sora引发安全忧虑

...Sora，可以将文字描述转换为逼真的视频。然而，该视频生成模型在推进AI技术发展的同时，也引发了人们对AI深度伪造视频可能加剧错误信息和虚假信息传播的担忧。Sora目前可以通过单独的文本指令或文本与图像相结合的指令创...……更多

2024-02-19 07:41:00生成器,忧虑,生成,安全,视频,视频

用「AI人」模拟社会学实验，居然成功了？斯坦福、NYU用GP

...对LLM用于预测调查实验中观察到的干预效应的能力进行了基准测试。最后，他们超越了这个初步的测试档案，收集并分析多种大型多处理实验，包括涉及行为测量的研究、干预措施的现场测试和政策影响评估，以更好地评估LLM...……更多

2024-09-02 13:33:00斯坦,斯坦福,准确度,社会学,人类,实验

斯坦福团队推出DetectGPT或为检测验证产业链带来新机遇

...种名为DetectGPT的新方法，旨在成为首批打击高等教育中LLM生成文本的工具之一。相关研究论文已发表在预印本网站arXiv上。据悉，该方法或对检测验证产业带来积极影响。此前，GPT- 3、PaLM和ChatGPT等大型语言模型（LLM）已经被证...……更多

2023-01-31 09:46:00斯坦,斯坦福,新机,产业链,验证,团队

OpenAI重拾规则系统，用「AI版机器人定律」守护大模型安

...。该团队通过实验表明，RBR 得到的安全性能与人类反馈基准相当，同时还能大幅减少拒绝安全提示词的情况。研究表明 RBR 适用于多种奖励模型，既能改善过度谨慎的奖励模型，也能改进（有时候）偏好不安全输出的奖励模型...……更多

2024-11-07 09:54:00定律,机器人,模型,规则,机器,安全

刚刚，我们感受了一波最「像人」的国产AI，模型还是开源的

...Use 上，AutoGLM 都取得了大幅的性能提升。在 AndroidLab 评测基准上，AutoGLM 就显著超越了 GPT-4o 和 Claude-3.5-Sonnet 的表现。在 WebArena-Lite 评测基准中，AutoGLM 更是相对 GPT-4o 取得了约 200% 的性能提……更多

2024-10-26 09:49:00一波,模型,国产,还是,语音,模型

OpenAI劲敌来了！这款大模型多项测试超越GPT-4o，号

...Claude 3.5 Sonnet模型具备强大的“视觉”能力，在标准视觉基准测试中也超过了Claude 3 Opus。在诸如解释图表、图片等处理视觉推理的任务中，3.5 Sonnet可以准确地从不完美的图像中转录文本，对于零售、物流和金融服务等领域的客...……更多

2024-06-21 12:43:00劲敌,模型,智能,测试,模型,前代

国内首批！腾讯云AI绘画通过中国信通院AIGC平台评估

...画成为国内首批通过该评估标准的AIGC绘画平台。伴随着生成式人工智能技术在文本、图像、音视频等内容生成上的重大突破,AIGC成为人工智能技术应用热门方向。AI绘画技术能力的不断提升,也开辟了科技与艺术相结合的全新领域...……更多

2023-12-29 04:02:00信通,腾讯,中国,绘画,评估,平台

谷歌发布音乐AI工具MusicFX：一句话就能生成一首音乐

...歌推出AI音乐创作工具“MusicFX”，仅需几句话，用户即可生成原创的音乐作品。谷歌在介绍中指出，这一名为“MusicFX”的创作工具结合了谷歌此前发布的MusicLM模型和DeepMind的水印技术SynthID，以便在事后识别出它们是否由AI制作...……更多

2023-12-14 17:26:00一首,音乐,生成,一句话,工具,音乐

突破数据墙！27岁华裔MIT辍学创业8年，年化收入逼近10亿

...而过于具体的指示似乎会影响模型的推理能力。虽然o1在基准测试中取得了出色的结果，但让它完成你自己的具体任务似乎需要更多努力——它们往往会忽视明确（甚至是强调的）关于如何解决问题的指令。由此可见，现实世界...……更多

2024-09-26 13:37:00华裔,收入,突破,创业,数据,数据

openai更新gpt-4turbo预览模型

...幅提升。性能方面，text-embedding-3-small在多语言检索常用基准（MIRACL）的平均得分从31.4%提高到44.0%，而英语任务常用基准（MTEB）的平均得分从61.0%提高到62.3%。定价方面，text-embedding-3-small的定价是text-embeddi……更多

2024-01-27 20:36:00模型,更新,模型,价格,得分,性能