模态,史诗,基准,难度,问答,文本头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

背水一战狙击GPT-4，谷歌最强大模型Gemini终发布，听说读写全能选手 | 焦点分析

...布，“大杀器”Gemini 1.0，正式上线。Gemini是一个原生多模态大模型，谷歌在今年5月的I/O大会宣布开始研发后，Gemini的传说不断：将谷歌大脑和DeepMind部门合并，数百人攻坚，几乎耗尽谷歌内部计算资源……如此种种，只为和OpenA...……更多

2023-12-07 08:18:00全能,选手,模型,焦点,分析,模型

AIGC工具测评：生成式AI的产品表现如何

...力上也有了重大突破。更值得一提的是，GPT-4引入了“多模态”功能，支持图像和语音输入，甚至可以输出图片，大大拓宽了其应用范围。界面体验ChatGPT-4的用户界面呈现了现代化和直观的设计风格，其简洁的设计语言和优化的...……更多

2024-03-25 13:00:00生成,工具,产品,用户,界面,通义

击败Gemini-1.5-Pro、GPT-4V，从容大模型多

...云从科技从容大模型在综合评测权威平台 OpenCompass 的多模态评测领域中取得重大进展。最新评测结果显示，云从科技的从容大模型在该体系中的平均得分为 65.5，这一成绩使得从容大模型跻身全球前三，超越了谷歌的 Gemini-1.5-Pro...……更多

2024-06-29 09:36:00模态,从容,模型,能力,全球,模态

21.5万张X光，78万个问题！德州大学NIH等联合发布医学

【新智元导读】多模态大语言模型（MLLM）在医学视觉问答（VQA）领域展现出巨大潜力，通过提供针对医学图像的具体临床问题的回答，有助于提高医疗专业人员的工作效率。然而，现有医学VQA数据集规模较小且问题过于简单，...……更多

2024-08-10 09:47:00德州,问答,视觉,医学,联合,数据

刚刚，我们感受了一波最「像人」的国产AI，模型还是开源的

...择了两条路线分别开拓：一条是 GPT-4o 所代表的端到端多模态大模型的探索，一条是 o1 所代表的关于推理 Scaling Law 的探索。具体到 GPT-4o 上，OpenAI 跨文本、视觉和音频端到端地训练了一个新模型，所有输入和输出都由同一神经...……更多

2024-10-26 09:49:00一波,模型,国产,还是,语音,模型

科大讯飞股价跌停，市值蒸发120亿元

...升9%，其次是逻辑推理（8%），文本生成、知识问答、多模态能力则均只有7%。此前科大讯飞在8月15日发布星火V2.0时，七大能力大幅度提升，其中语言理解能力提升78%，文本生成、知识问答、数学能力等提升也超70%，逻辑推理能...……更多

2023-10-24 16:15:00跌停,讯飞,市值,股价,蒸发,讯飞

Gemini 开启大模型路线之争，新战场将“数流成河”

...一种可能性：具有原生数据优势的互联网巨头，可能在多模态大模型竞争中占据优势。这意味着，谷歌、马斯克、Meta以及中国的腾讯、抖音、阿里、百度等公司都有可能在Gemini 开创的路线上加速迭代大模型。大模型战局，进入...……更多

2023-12-15 10:02:00成河,战场,模型,路线,马斯,马斯克

360智脑7b参数模型采用3.4万亿tokens训练

...任务、中英双语、针对大语言模型长文本理解能力的评测基准）测试中，360选择其中与中文长文本应用最密切相关的中文单文档问答、多文档问答、摘要、Few-shot等任务进行评测，360Zhinao-7B-Chat-32K模型取得了平均分第一的成绩。...……更多

2024-04-14 01:04:00模型,训练,参数,模型,文本,评测

通义千问再放大招：720亿大模型开源，全尺寸赶上LLaMA-

...阿里云也首次开源了音频理解大模型Qwen-Audio，这是在多模态领域的一次探索。Qwen-Audio能够感知和理解人声、自然声、动物声、音乐声等各类语音信号。用户可以输入一段音频，要求模型给出对音频的理解，甚至基于音频进行文...……更多

2023-12-01 21:07:00通义,模型,尺寸,移动,模型,阿里

Claude 3.5深夜觉醒，学会模仿人类用电脑！编程干翻o

...，检测是否发生危害。研究过程Anthropic在工具使用和多模态的工作，为AI识别和解释图像奠定了基础。在此基础上，Claude还需要推理如何以及何时根据屏幕内容执行操作。为此，研究者训练Claude准确计算像素，从而完成命令，...……更多

2024-10-23 09:55:00人类,编程,模型,能力,开发,任务

产品角度分析GPT-4的更新及影响

...现之间是有区别的，一定要弄清楚这个概念！！虚假的多模态LLM：LLM本身不理解图像，我们先用一些图转文的工具（例如CLIP），把图片转成文字，再将这个文字拼接进Prompt中，例如“我刚给你发了一张图，图的内容是一只黑色...……更多

2023-03-16 16:00:00角度,影响,更新,分析,产品,模态

全球首篇！调研近400篇文献，鹏城实验室&中大深度解析具身智

...数字空间和物理世界的交互来完成复杂任务。近年来，多模态大模型和机器人技术得到了长足发展，具身智能成为全球科技和产业竞争的新焦点。然而，目前缺少一篇能够全面解析具身智能发展现状的综述。因此，鹏城实验室多...……更多

2024-07-29 09:39:00中大,文献,调研,深度,实验室,实验

生成式AI在金融行业的应用及思考

...金融行业也有广泛应用。值得一提的是,张呈刚强调了多模态场景在金融行业的应用趋势。传统的人机交互方式是文本,但现在人们越来越倾向于使用图像、语音等多模态方式与生成式人工智能进行交互,这给金融行业带来了新的机...……更多

2024-04-22 13:21:00生成,金融,应用,行业,生成,人工智能

神仙打架！谷歌新款大模型Gemini 和GPT-4谁能笑到最

...眼镜等更多领域上的应用前景有多广阔。“Gemini是原生多模态打造，是（谷歌）通往Gmeini模型时代的第一步。”谷歌首席执行官桑达尔·皮查伊(Sundar Pichai)表示：Gemini 1.0是目前为止谷歌能力最强的通用人工智能模型。作为谷歌有...……更多

2023-12-07 16:15:00神仙,模型,观察,科技,模型,任务

720亿参数模型开源通义千问已实现“全尺寸、全模态”开源

...参数的4款大语言模型，以及视觉理解、音频理解两款多模态大模型，实现“全尺寸、全模态”开源。用户可在魔搭社区直接体验Qwen系列模型效果，也可通过阿里云灵积平台调用模型API，或基于阿里云百炼平台定制大模型应用。...……更多

2023-12-01 13:33:00通义,模态,模型,尺寸,参数,模型

北大推出全新机器人多模态大模型！面向通用和机器人场景的高效推

...息处理全国重点实验室两大平台，长期从事机器学习、多模态学习和具身智能方向的研究。本工作第一作者为刘家铭博士，研究方向为面向开放世界的多模态具身大模型与持续性学习技术。本工作第二作者为刘梦真，研究方向为...……更多

2024-06-21 09:52:00机器,模态,人多,机器人,推理,北大

智谱AI发布视频生成大模型，B站参与研发，亦庄提供算力｜甲子

...示，这个生成速度在业内已经算非常快了。张鹏认为，多模态模型的探索还处于非常初级的阶段。从生成视频的效果看，对物理世界规律的理解、高分辨率、镜头动作连贯性以及时长等，都有非常大的提升空间。从模型本身角度...……更多

2024-07-27 09:30:00亦庄,甲子,生成,模型,视频,模型

AI也会「刷抖音」！清华领衔发布短视频全模态理解新模型 |

...失函数和混合未配对音视频数据训练。该模型不仅在单一模态任务上表现优异，更在视听联合任务中展现了卓越的性能，证明了其全面性和准确性。想要看懂短视频，除了视觉内容外，语音和音频等听觉信息，如视频音乐、音效...……更多

2024-08-01 09:45:00模态,清华,领衔,模型,视频,音视

Sora再度颠覆AI视频行业，A股哪些公司有相关布局？

...实现AGI（通用人工智能）的重要里程碑。券商建议关注多模态技术Sora视频一出，立刻震惊业界。360集团创始人、董事长周鸿祎2月16日在微博发文表示，这意味着AGI实现将从10年缩短到1年。其实，Sora出现之前，也有其他类似的AI...……更多

2024-02-19 08:10:00颠覆,布局,行业,视频,公司,模型

马斯克 xAI 展示首个多模态模型 Grok-1.5V

...下旬推出 Grok-1.5 大语言模型之后，近日再次推出首个多模态模型 Grok-1.5 Vision。xAI 表示将于近期邀请早期测试者和现有的 Grok 用户测试 Grok-1.5 Vision（Grok-1.5V），不仅能理解文本，还能处理文档、图表、截图和照片中的内容。xAI ...……更多

2024-04-13 16:20:00马斯,马斯克,模态,模型,模态,模型