音频,模态,重磅,文本,任务,情感头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

清华领衔发布多模态评估MultiTrust：GPT-4可信度

...并实现部分专利产学研转化落地应用。以GPT-4o为代表的多模态大语言模型（MLLMs）因其在语言、图像等多种模态上的卓越表现而备受瞩目。它们不仅在日常工作中成为用户的得力助手，还逐渐渗透到自动驾驶、医学诊断等各大应...……更多

2024-07-25 09:31:00模态,清华,可信度,领衔,可信,几何

迎战GPT-4V！谷歌PaLI-3视觉语言模型问世，更小、更

...像与语音识别能力。本月初，微软更是公布了 166 页的多模态版 GPT-4V 的相关文档，详细探讨了 GPT-4V 的功能和使用情况，这一举动引起了业界的广泛关注。然而，在视觉语言模型的角逐中，谷歌也不甘示弱。近日，Google Research...……更多

2023-10-17 16:31:00更快,模型,视觉,语言,训练,模型

最强多模态模型GTP-4o问世，OpenAI继续开启人工智能

...实力。该模型在平均320毫秒（最快232毫秒）的时间内响应音频输入，与人在会话中的反应时间相近，使得人机交流更加自然、顺畅。此外，GPT-4o还能处理50种不同的语言，让全球用户都能轻松享受智能服务。相比前代产品GPT-4 Turb...……更多

2024-05-14 14:04:00模态,之路,人工智能,人工,模型,智能

不够惊艳？还是更务实？谷歌对上OpenAI，能否打好翻身..

...最新多模态大模型GPT-4o（o代表omini，全能），支持文本、音频和图像的任意组合输入，并生成文本、音频和图像的任意组合输出，可实现人类级别响应。从已有的演示视频来看，谷歌AI助手的回应速度似乎比GPT-4o稍慢一些，语音...……更多

2024-05-15 18:31:00不够,还是,生成,模型,文生,图像

多款技术产品问世！山东省新型智慧媒体重点实验室亮点纷呈

...有主流价值观的党媒算法模型，能准确审校文本、图片、音频、视频、直播等多模态内容，为提高网络治理能力、营造清朗的网络空间提供了有力支撑和保障。此外，齐鲁壹点还相继打造了智能创作平台、智能爬取系统、智能媒...……更多

2023-11-23 16:35:00山东省,山东,技术产品,实验室,亮点,智慧

清华教授唐杰：Scaling Laws虽被质疑，但至今仍是提

...于浅层。如何利用好互联网上海量的多模态语料（图片、音频、视频）进行大规模训练仍然具有挑战。2023年7月，OpenAI公布了由其首席科学家伊利亚·苏茨克维(Ilya Sutskever)和首席强化学习专家詹·雷克(Jan Leike)发起的超级对齐计划...……更多

2024-06-05 18:36:00清华,模型,教授,性能,方法,模型

支付宝发布多模态医疗大模型：支持千亿级视觉识别

...画”全方位的原生多模态能力，能够无缝衔接并深度解析音频、视频、图像、文本等多元化数据，展现出前所未有的数据处理与理解能力。为了进一步赋能医疗领域，支付宝医疗大模型深度融合了海量医疗数据资源，包括覆盖报...……更多

2024-07-05 16:17:00模态,模型,支付,视觉,医疗,支持

华为高清空间音频：营造身临其境的听觉体验

...拥有“双智天花板”级的智能体验。本次发布,华为空间音频首次“上车”,重构座舱沉浸听音体验,华为音乐也成为首个正式支持车载高清空间音频体验的平台。而全新升级的车载小艺智慧助手,带来多个智慧新功能,包括小艺智慧...……更多

2023-04-18 17:22:00华为,听觉,高清,音频,体验,空间

无问芯穹开源全球首款端侧全模态理解模型 Megrez-3B-

...-Omni 是一个为端而生的全模态理解模型，同时具备图片、音频、文本三种模态数据的处理能力：在图像理解方面，Megrez-3B-Omni 是目前 OpenCompass、MME、MMMU、OCRBench 等多个主流测试集上精度最高的图像理解模型之一。在文本理解方...……更多

2024-12-17 09:24:00模态,模型,全球,模态,模型,精度

AI大模型行业报告：大模型发展迈入爆发期，开启AI新纪元（附

...AI春季发布会，发布了新版旗舰模型GPT-4o。GPT-4o 将文本、音频和视觉集成到一个模型中，提供更快的响应时间、更好的推理能力以及在非英语语言中的更佳表现，不仅在传统文本能力上与GPT-4 Turbo性能相当，还在API方面更快速，...……更多

2024-10-21 10:03:00模型,行业报告,新纪元,报告,发展,行业

通义千问再放大招：720亿大模型开源，全尺寸赶上LLaMA-

...量的模型已经完全能够胜任。另外，阿里云也首次开源了音频理解大模型Qwen-Audio，这是在多模态领域的一次探索。Qwen-Audio能够感知和理解人声、自然声、动物声、音乐声等各类语音信号。用户可以输入一段音频，要求模型给出...……更多

2023-12-01 21:07:00通义,模型,尺寸,移动,模型,阿里

阿里多模态检索智能体，自带o1式思考过程！复杂问题逐步拆解

多模态检索增强生成（mRAG）也有o1思考推理那味儿了！阿里通义实验室新研究推出自适应规划的多模态检索智能体。名叫OmniSearch，它能模拟人类解决问题的思维方式，将复杂问题逐步拆解进行智能检索规划。随便上传一张图，...……更多

2024-12-05 09:45:00模态,拆解,阿里,检索,过程,智能

AIGC工具测评：生成式AI的产品表现如何

...并吸收任何类型的输入和输出，包括文本、代码、视频、音频和图像。Gemini 模型从大到小分为 Ultra，Pro，Nano 三个版本。其中 Pro 版本已经整合到谷歌的 Bard 平台中，但目前仅支持英文地区的用户使用。界面体验： Gemini的界面设...……更多

2024-03-25 13:00:00生成,工具,产品,用户,界面,通义

CybotStar——大模型一站式应用开发平台

...运营等环节中沉淀下大量数据，涵盖文本、表格、图片、音频和视频等多模态格式。知识库可以说是企业的“独家配方”，具有机密性、专业性和规模化的特点。知识库不仅是大模型发挥能力的核心“语料”，更是大模型真正在...……更多

2024-08-30 14:57:00应用开发,模型,应用,开发,平台,模型

文本、图像、点云任意模态输入，AI能够一键生成高质量CAD模

...同完成，是全球首个同时支持文本描述、图像、点云等多模态输入的计算机辅助设计（CAD）生成大模型。计算机辅助设计（Computer-Aided Design，简称 CAD）软件是工业软件的重要分支，也是工业设计流程中的核心工具。然而，目前...……更多

2024-11-26 09:46:00一键,模态,高质量,生成,模型,图像

空间智能版ImageNet来了！李飞飞吴佳俊团队出品

...Gemini 1.5 Pro这样的原生多模态模型，在多模态数据（包括音频、视频、图像和文本）上联合训练，能够处理非常长的上下文长度*（（2M +），适合直接对HourVideo进行端到端评估。为了与模型性能进行对比，实验人员从基准数据集...……更多

2024-11-11 13:31:00团队,智能,空间,视频,模态,模型

【科技早报】OpenAI 发布多模态预训练大模型 GPT-4

...通过简单的自然语言提示生成文本、图像、代码、视频、音频等多种内容”。据了解，PaLM 是一个大型语言模型，类似于 OpenAI 开发的 GPT 系列或 Meta 公司开发的 LLaMA 系列。谷歌于 2022 年 4 月首次公布了 PaLM。与其他 LLM 一样，PaLM...……更多

2023-03-15 21:00:00模态,微软,早报,模型,训练,科技

OpenAI发布免费新品GPT-4o：可对音频、视觉和文本实

GPT-4o的文本和图像功能开始在ChatGPT中免费推出，音频模式存在各种新风险而未公开，未来音频输出将仅限于选定的预设声音，并要遵守安全政策。GPT-4o生成图像：机器人正在输入日志条目，正文很大，清晰易读，机器人的手在...……更多

2024-05-14 16:45:00本实,和文,推理,新品,音频,对话

AIGC产业图谱发布影谱科技打开AIGC垂直领域应用新思路

...的技术企业，其将AIGC技术广泛应用于覆盖文本、图像、音频、视频、3D模型、触觉等跨越多种模态的内容理解和转换生成业务中。据悉，其跨模态开放任务处理能力可为元宇宙会展、智慧媒体、智慧科教、智慧文娱、数字商业等...……更多

2023-04-24 19:00:00图谱,思路,领域,产业,应用,科技

微软宣布Team Copilot发布，年内将推出初步预览版

...提供，并作为API提供。该多模态模型集成了文本、图像和音频处理能力，带来了全新的生成式和对话式AI体验。此外，由微软开发的Phi-3列AI小型语言模型（SLM）中的一种新型多模态模型Phi-3-vision现已在Azure中推出。Phi-3模型功能...……更多

2024-05-22 20:01:00微软,微软,纳德拉,纳德,模型,功能

AI重磅！“它太危险了，不能公开发布”

...VALL-E 2是一个文本转语音(TTS)生成器，只需利用几秒钟的音频就能重现说话人的声音。其效果非常逼真，以至于无法向公众发布。微软研究人员在6月17日发表在预印本文献库上的一篇论文中称，VALL-E 2能够“准确、自然地生成与原...……更多

2024-07-15 09:37:00重磅,危险,语音,研究人员,人工智能,微软

多模态竞技场对标90B Llama 3.2！Pixtral

...客之姿杀入江湖的Mistral AI，在9月份甩出了自家的首款多模态大模型Pixtral 12B，如今，报告之期已至，技术细节全公开。作为欧洲的OpenAI，Mistral最近压力不小。端侧小模型端不出来，对比评测的结果又遭到质疑。上个月震撼登场...……更多

2024-11-20 09:43:00模态,竞技场,竞技,报告,技术,模态

科学家开发多模态音乐理解和生成大模型，兼具理解和创作音乐能力

...作为研究的切入点？据刘山松介绍，他在读博期间就从事音频研究，对音乐有着较为浓厚的兴趣。工作以后又发现许多用户都有配乐的实际需求。“比如，视频制作者要想快速积累粉丝，就要制作出一个爆款视频引流。其中，选...……更多

2024-04-09 10:25:00模态,音乐,科学家,生成,模型,创作

Bengio团队提出多模态新基准，直指Claude 3.5和

...灵奖得主Yoshua Bengio教授。博士期间的主要工作聚焦于多模态、GFlowNet、多智能体强化学习、AI于气候变化的应用。目前已在ICML、ICLR、ICASSP等机器学习顶会发表论文。代表作为Large-scale Contrastive Language-Audio Pretrai……更多

2024-06-29 09:37:00模态,基准,弱点,团队,模型,任务