模态,教会,文本,升级,数据,模态头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

标贝科技亮相全国人机语音通讯学术会议NCMMSC2023并发

...形式为与会代表展示了全栈AI数据服务方案以及丰富的多模态数据库。并以市场需求为导向,分享了标贝科技在数据处理方向的实践成果,吸引了众多客户关注。大会首日,标贝科技COO助理周彤在工业论坛上分享了《基于数据大模型...……更多

2023-12-13 16:02:00学术会议,人机,语音,学术,通讯,会议

Pika、阿里同日炫技！国产视频大模型奋起直追

...频，表情、五官、姿势都会产生非常自然的变化。在AI多模态领域，科技巨头、明星初创企业似乎把火力集中到了同一个方向——AI视频生成，Sora的火热更是一石激起千层浪，同类产品发布你追我赶，战况之焦灼可见一斑。在该...……更多

2024-03-01 09:26:00阿里,奋起,模型,国产,视频,视频

本周硅谷发生了什么？| 高通第三代骁龙8；谷歌20亿美元追投

...跑大模型的个人PC。还有谷歌20亿追投Anthropic，并曝光多模态模型Gemini和工具Stubbs，将为用户更多便捷和创新的应用开发方式。Meta公布第三季度财报，实现23%的营收增长，是公司自2021年三季度以来最大的营收增幅，表现亮眼。部...……更多

2023-10-30 15:31:00高通,三代,硅谷,模型,个人,模型

清华全球最大双臂机器人扩散大模型RDT，懂调酒能遛狗，登顶热

...进行统一的处理。在本文中，研究者通过提出创新型的多模态模型架构，以及统一的物理可解释动作空间，来解决这些挑战。设计 RDT：双臂机器人操作的新架构「模仿学习」是当前开发通用机器人模型的主流方法。即机器人通...……更多

2024-10-21 09:55:00清华,双臂,机器人,模型,机器,全球

Soul上线自研大模型“SoulX”，AIGC+社交布局提速

...据训练，具备prompt驱动、条件可控生成、上下文理解、多模态理解等能力。在保证对话流畅、自然、具备情感温度的同时，SoulX覆盖百种细粒度风险类别，通过训练数据安全筛选、安全SFT数据构造、RLHF安全对齐、推理拦截等策略...……更多

2023-12-11 14:38:00提速,社交,布局,模型,社交,用户

骁龙 8 至尊版到底有多强？我们总结了三大关键问题

...程，减少游戏中1%fps卡村，同时改善手机发热的状况。多模态AI支持有什么意义？简单来说，指令无需预处理，响应更快速。在骁龙8至尊版中，高通通过升级的HexagonNPU和AI引擎，进一步增强了设备端AI的多模态处理能力。这意味...……更多

2024-11-04 22:04:00关键,三大,问题,高通,处理,任务

谷歌Gemini数学反超o1预览版！成本仅1/10、无需额外

...。首先，提升了整体性能，尤其在数学、长文本以及多模态方面。在MMLU-Pro上性能提高约7%；而在 MATH 和 HiddenMath（内部保留的竞赛数学问题集）基准测试中，两种模型有约 20% 的显著改进，其中Pro版本以86.5%的成绩超过了o1-previe...……更多

2024-09-26 10:01:00成本,数学,时间,模型,数学,输出

终于拿到内测！豆包-PixelDance真是字节视频生成大杀

...个面向不同细分领域（视频生成、音乐和同声传译）的多模态大模型，同时给之前已有的通用语言模型、文生图模型、语音模型来了一波大升级。这些模型共同构建起了火山引擎的「豆包全模态大模型家族」。家族新秀：豆包视...……更多

2024-09-30 09:51:00豆包,字节,生成,视频,模型,豆包

谷歌 Astra 智能眼镜登场：融合多模态 AI 与 AR

IT之家 12 月 17 日消息，谷歌 DeepMind 网站已为 Project Astra 项目开设了新的测试频道，计划邀请部分用户，测试配备 AI 和 AR 技术的原型眼镜，以便于进一步收集用户反馈、推进该眼镜商用落地。图源：谷歌在系统方面，消息称...……更多

2024-12-18 09:30:00模态,眼镜,智能,技术,眼镜,原型

百万鲁棒数据训练，3D场景大语言模型新SOTA！IIT等发布

...高模型在3D场景理解中的鲁棒性和泛化能力，在多个3D多模态学习基准测试中取得了优异的性能，超越了以往的方法，且无需针对特定任务的微调。多模态大语言模型（Multi-modal Large Language Models, MLLMs）以文本模态为基础，将其它...……更多

2024-10-16 13:35:00模型,场景,训练,语言,数据,物体

筑牢湾区网络安全防线！Coremail亮相大湾区网络安全大会

...进一步提升钓鱼邮件检测能力。与文本大模型相比，多模态大模型能够处理更丰富的信息数据源，如文本、图像、音频等，不仅能进行文本理解，还能模拟视觉分析，处理图片和链接落地页等多媒体内容，为钓鱼检测提供更全...……更多

2024-11-11 17:46:00湾区,安全,网络,防线,大会,邮件

空间智能版ImageNet来了！李飞飞吴佳俊团队出品

...来自斯坦福李飞飞吴佳俊团队！HourVideo，一个用于评估多模态模型对长达一小时视频理解能力的基准数据集，包含多种任务。通过与现有模型对比，揭示当前模型在长视频理解上与人类水平的差距。2009年，李飞飞团队在CVPR上首...……更多

2024-11-11 13:31:00团队,智能,空间,视频,模态,模型

2022生成模型进展有多快，新论文盘点9类生成模型代表作

...基于预训练GPT-2提出了一种新的注意力机制，来衔接不同模态之间的语义差异，无需大量图像-文本数据训练，就能提升文本生成效率。文本-视频模型生成主要代表作有Phenaki、Soundify。Phenaki 由谷歌打造，基于新的编解码器架构C-V...……更多

2023-01-30 16:34:00生成,模型,新论,代表作,盘点,进展

AI重构客服底座，合力亿捷入选《2025中国企业数智化转型升

...联络+ 服务管理+ 私域触达”的三维一体策略，打造出多模态智能体驱动的智慧零售解决方案。某连锁便利品牌在日均万通量级服务场景下，通过部署“语音Agent + 坐席辅助+ 工单联动”的组合能力，实现了显著的服务效率提升与...……更多

2025-07-21 16:24:00智化,企业数,全景,重构,底座,合力

点“数”成金的福州实践

...，使用福建人工智能计算中心提供的算力服务，开发了多模态大模型Awaker2.5-R1，不久前对外发布。与DeepSeek专注于处理文本不同，多模态大模型能够整合处理文本、图像等。不过，Awaker2.5-R1的训练思路和DeepSeek-R1相似——放弃“...……更多

2025-04-26 08:20:00成金,福州,实践,福州,数据,福州市

推动终端侧AI发展 MWC2024高通带来多项全球首发

...示了全球首个在搭载第三代骁龙8的Android手机上运行的多模态大模型（LMM）。多模态指AI模型不仅能够接受文本输入，还可以接受图像、音频等其它输入数据类型。在这一演示中展示了一个超过70亿参数的LMM，其支持文本、语音和...……更多

2024-02-29 10:14:00高通,终端,发展,全球,高通,模型

全国首款情感大模型养老陪护机器人落地重庆

...融合了人工智能、云计算、AI心理学等前沿技术，运用多模态情感大模型，构建起了涵盖智能情感陪伴、数字素养提升、健康安全守护、娱乐休闲服务、生活辅助管理等5大模块10项功能的服务体系。“智慧养老情感陪护机器人”...……更多

2025-03-10 19:25:00重庆,养老,机器人,落地,模型,机器

AI潮起共筑数智之基

...大会上，中国移动正式发布了由万卡级智算集群、千亿多模态大模型、汇聚百大要素的生态平台共同构成的“九天”人工智能基座，并开放三大人工智能基地，加快大模型产业化、规模化发展，为数字中国建设注入更加强劲动能...……更多

2024-05-25 07:21:00潮起,模型,中国,中国移动,移动,模态

神仙打架！谷歌新款大模型Gemini 和GPT-4谁能笑到最

...眼镜等更多领域上的应用前景有多广阔。“Gemini是原生多模态打造，是（谷歌）通往Gmeini模型时代的第一步。”谷歌首席执行官桑达尔·皮查伊(Sundar Pichai)表示：Gemini 1.0是目前为止谷歌能力最强的通用人工智能模型。作为谷歌有...……更多

2023-12-07 16:15:00神仙,模型,观察,科技,模型,任务

年中经济观察｜贵州：服务业创新生态瞄准大市场

...多样性和系统性——涵盖文字、音频、图片、视频等多种模态，以及TTS（文本转语音）、OCR（光学字符识别）等跨模态数据，使模型能够学习更复杂的语义关联。“多模态与跨模态数据的核心价值，在于打破信息孤岛，让AI实现...……更多

2025-08-01 23:23:00贵州,经济观察,大市,服务业,大市场,生态

AI“大姨”现场刁难智能客服！直击一群AI打PK赛，真能落地

...大模型以及丰富第三方模型（如Llama、百川等）。支持多模态模型服务，提供灵活高效易用的模型API与SDK。提供文本生成、图片生成、视觉理解、视频生成、语音识别以及语音合成能力。最新进展中，通义方面发布了最强开源模...……更多

2024-09-23 09:53:00大姨,一群,落地,智能,百炼,模型

全球瞩目，又是杭州！这款视觉推理模型一夜起飞

...“证明了R1方法的通用性，不止文本领域玩得转”“为多模态AI带来全新思路”“或许能够引领一种全新的视觉语言模型训练潮流”……业内人士纷纷对 VLM-R1表示高度认可。“视觉版DeepSeek”为什么是VLM-R1？VLM-R1爆火，看似意料...……更多

2025-02-26 07:07:00杭州,推理,模型,视觉,又是,全球

百度发布两款大模型，对标DeepSeek、聚焦多模态

3月16日，在文心一言正式发布两周年后，百度发布了多模态大模型文心4.5和对标DeepSeek的文心X1。今日文心大模型4.5在百度智能云千帆大模型平台上线，输入价格为0.004元/千tokens；文心大模型X1输入价格0.002元/千tokens，为DeepSeek R1...……更多

2025-03-16 14:03:00模态,模型,文心,模型,哪吒,模态

“什么值得买”助力提升海螺AI消费决策体验：输出垂类能力，建

...自行研发的万亿参数大模型abab6.5，面向C端用户打造的多模态智能产品，支持文本、音频和图像的自由交流。海螺AI不仅具备强大的长文本处理能力和多格式文件支持，其高效大模型支持和多模态技术方向更能为用户提供多种服...……更多

2024-07-30 17:55:00海螺,输出,决策,生态,能力,体验

斯坦福AI团队抄袭国产大模型？连识别“清华简”都抄了！清华系

...，引起舆论哗然。起因是这个团队在5月29日发布了一个多模态大模型Llama3-V，声称只花500美元训练，就能实现在多个基准测试中比肩GPT-4的性能。但很快有人发现，该模型跟清华系大模型创企面壁智能5月发布的MiniCPM-Llama3-V 2.5模...……更多

2024-06-04 14:35:00清华,斯坦,斯坦福,团队,模型,抄袭

不要小看「实而不华」的腾讯 AI

...未来的战略思路。01模型侧：基础模型能力升级，构建多模态能力首先是基础模型方面，5 月 17 日的峰会上，腾讯混元介绍了其多尺寸的 LLM 模型矩阵。其中，最大模型已拓展至万亿级参数规模，并在 1B、3B、7B、13B 等不同参数量...……更多

2024-05-21 21:25:00腾讯,腾讯,模型,能力,广告,视频

昆仑万维SkyReels团队正式发布并开源SkyReels-

...fusion-forcing)框架的无限时长电影生成模型，其通过结合多模态大语言模型(MLLM)、多阶段预训练(Multi-stage Pretraining)、强化学习(Reinforcement Learning)和扩散强迫(Diffusion-forcing)框架来实现协同优化。回顾过去……更多

2025-04-21 13:53:00万维,昆仑,团队,生成,视频,模型