视频,杜甫,生成,模型,模型,模态头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

李彦宏：大模型场景下开源是最贵的，多模态是通往AGI的必经之

...智能）正掀起一场创造力革命，未来开发应用就像拍个短视频一样简单，人人都是开发者。李彦宏表示，百度作为一家技术公司，定位是尽可能为大家提供所需的开发工具，这包括了1个基础模型系列和三大AI开发工具，“今天的...……更多

2024-04-16 17:57:00李彦,模态,之路,必经,模型,场景

出门问问亮相2024世界人工智能大会，再掀AIGC新审美浪潮

...展、通用大模型「序列猴子」及其AIGC产品矩阵，包括AI短视频创作平台「元创岛」、AI数字分身「奇妙元」、AI配音助理「魔音工坊」、AI数字员工「奇妙问」等多个AI应用亮相展会，为现场观众带来一场零距离、沉浸式的AIGC探索...……更多

2024-07-07 18:45:00人工智能,浪潮,审美,人工,大会,智能

AI大模型加速迭代产业链公司获机构重点布局

...。北京时间2月16日凌晨，Open AI公司正式发布其首个文本-视频生成模型Sora。Sora文生视频功能强大，能够通过文本提示生成长达1分钟的视频，并且包含高度细致的背景、复杂的多角度镜头，以及富有情感的多个角色。同时，Sora还...……更多

2024-02-19 07:17:00迭代,产业链,布局,模型,重点,机构

AI潮起共筑数智之基

...速实现从传统信息服务到智能服务全面升级，中国移动对视频彩铃、5G新通话、移动云盘、移动高清、云电脑等20余款战略产品开展全量AI+升级，通过全面接入人工智能大模型，实现产品的功能重塑、流程重构、机制重建，全面...……更多

2024-05-25 07:21:00潮起,模型,中国,中国移动,移动,模态

科大讯飞大模型新升级：20秒制作PPT，拟人语音能力超越Ch

...的语音合成效果。其首批40个语种平均MOS分（评估音频或视频质量的一种标准，5分为最高）提升了0.25，拟人测试中MOS达到4.5分，拟人度达到83%，拟人语音合成能力超越ChatGPT。星火语音大模型开源方向上，此次科大讯飞发布了星...……更多

2024-01-31 07:32:00讯飞,拟人,语音,模型,能力,升级

李未可科技创始人茹忆：WAKE-AI，多模态大模型带来的智慧

...我们发现很多年轻用户戴着我们的AR眼镜，去拍第一视角视频，包括使用AI语音询问周边的信息。”李未可科技创始人兼CEO茹忆说到。而这也是用户驱动李未可科技在室外运动场景后，拓展研学、CityWalk等文旅场景等一大原因。在...……更多

2024-05-23 09:17:00模态,创始人,模型,智慧,科技,模型

2024年投资展望丨AI、MR、短剧等概念爆发，传媒板块去年

...，多家厂商快速布局卡位多模态大模型，AI文生图、文生视频等多模态能力持续提升带动AI应用持续迭代升级。海内外爆款AI应用频现，如Pika 1.0、Runway、妙鸭相机等应用快速走红。（图源：东吴证券）机构指出，多模态模型将成...……更多

2024-01-06 17:23:00短剧,板块,概念,传媒,投资,证券

Meta推出AI新模型VFusion3D，微美全息布局AIG

...图像，预加载的示例表现非常出色，生成的3D模型和渲染视频以显著的准确性捕捉了原始2D图像的本质和细节。该研究团队利用预训练的视频人工智能模型生成合成3D数据，使他们能够训练更强大的3D生成系统，解决了长久以来的3...……更多

2024-08-21 13:55:00全息,布局,模型,升级,产业,内容

让大模型能听会说,国内机构开源首个端到端语音对话模型Mini

...次利用大语言模型进行文本推理，最后利用语音合成系统生成并输出语音。然而，类似的多阶段串联系统存在一些缺陷，比如模型无法理解语音中包含的情绪及其它非文本内容信息；同时由于额外的语音识别及合成带来的时间开...……更多

2024-09-07 09:44:00模型,语音,对话,机构,语音,文本

谷歌王者归来？最新推出的大模型到底有多强，能否挑战GPT-4

...型。Gemini在MMLU的得分率首次超过人类专家。来源：官方视频 Gemini包括一套三种不同规模的模型：Gemini Ultra是最大、功能最强大的类别，被定位为GPT-4的竞争对手；Gemini Pro是一款中端型号，性能优于GPT-3.5，可扩展多种任务；Gemin...……更多

2023-12-07 18:27:00王者,模型,模型,视频,微软,测试

北京人工智能数据运营平台发布

...台，汇聚了大量通用数据、行业数据，支持文本、图像、视频等多种模态，并打造了全流程的数据处理工具。超过700万亿字节的通用数据集可以开展通用模型训练，同时，4.33万亿字节的行业垂类数据对模型训练也极为重要。当...……更多

2024-06-16 04:14:00人工智能,北京,人工,运营,智能,数据

WOT全球技术创新大会2024北京站：探索AI 的无限可能

...痛点问题；大模型对创新是否带来真正的改变。想建一个视频创作平台，如何应对AI算力托管、AI模型治理、推理加速等方面的挑战？如果算力被“卡脖子”了，如何能让大模型平稳部署在信创设备上？对于小型团队来说，如果...……更多

2024-05-31 18:24:00北京站,技术创新,北京,大会,全球,技术

大模型“遍地”都是，谁能真正解放生产力？

...越多的客户表示，其苦于人工标注久矣，不想再人工打标视频、图片等多模态信息。但市场现实情况是，供不应求：除了大厂以外，少有大模型团队具备多模态大模型开放能力。深耕于产业多年的考拉悠然，听到了太多客户关于...……更多

2023-11-30 14:50:00生产力,模型,解放,生产,模型,考拉

中国首个音乐SOTA模型「天工音乐大模型」今日公测

...绕「天工」系列大模型建起AI大模型、AI搜索、AI音乐、AI视频、AI社交、AI游戏等AI业务矩阵，是国内模型技术与工程能力最强、布局最全面的人工智能科技企业之一。这一年里，除了对「天工」系列基座大模型进行不断升级迭代...……更多

2024-04-17 15:31:00天工,公测,模型,音乐,中国,天工

对比学习滥用隐私数据！中科院等发布「多步误差最小化」方法 |

...人员提出了一种新颖的多步误差最小化（MEM）方法，用于生成多模态不可学习样本，以保护个人数据不被多模态对比学习模型滥用。通过优化图像噪声和文本触发器，MEM方法有效地误导模型，降低其对隐私数据的学习能力，并在...……更多

2024-08-02 09:55:00误差,中科院,隐私,方法,数据,学习

云知声推出山海多模态大模型：实时生成文本、音频和图像

...能够接收文本、音频、图像等多种形式作为输入，并实时生成文本、音频和图像的任意组合输出。▲云知声山海助手微信小程序IT之家获悉，山海多模态大模型有如下特点：实时秒回，自由插话：与现实对话中人类的响应时间相...……更多

2024-08-27 09:38:00模态,山海,实时,生成,模型,图像

清华教授唐杰：Scaling Laws虽被质疑，但至今仍是提

...产业落地元年。时至今日，OpenAI在2024年初推出了文本到视频生成模型Sora，被认为是目前最好的视频生成模型，让大家看到了构建物理世界通用模型的可能路径。唐杰分析，“OpenAI极有可能在2024年推出下一代模型GPT-5，也许会有...……更多

2024-06-05 18:36:00清华,模型,教授,性能,方法,模型

实体“贾维斯” vivo发布PhoneGPT：可自动打电话定

...觉的感知和理解能力，能够对手机屏幕更深度的理解，在视频流的实时对话上也更加流畅自然。蓝心语音大模型、图像大模型和多模态大模型，综合能力都获得行业机构的高度认可，在多家专业榜单上位列第一。【本文结束】如...……更多

2024-10-10 11:42:00贾维斯,贾维,实体,餐厅,模型,模态

趣丸科技副总裁兼CTO谢睿：多模态智能激发应用新场景 | 新

...人工智能可以像人类一样感知和理解音频、文本、图像、视频等多种模态信息，并与人类进行更加自然高效的交互，展现出了强大的功能和广泛的商业应用前景。多模态能力是实现通用人工智能的重要路径之一，也是趣丸科技...……更多

2024-05-24 22:22:00模态,生产力,副总,场景,大会,智能

AI拜年火了，通义千问上线一张照片生成拜年视频

...全民舞王应用也迎来上新，用户可通过一张照片生成拜年视频，用更轻松、接近真人出镜的方式向亲朋好友传递新年的美好祝福。足不出户即可免费“拍”全家福春节是中国人约定俗成的团圆时刻。AI大模型技术正在让人们突破...……更多

2024-02-05 13:37:00通义,生成,照片,视频,生成,通义

多模态LLM视觉推理能力堪忧，浙大领衔用GPT-4合成数据构

...也不容易，因为我们需要的是多模态数据，但LLM无法直接生成图像，DALL-E、Stable Diffusion等图像生成模型又无法同步生成文本。一个直觉的解决方案是将二者结合在一起，直接生成但文生图模型实际上很难对图像细节做到细微精...……更多

2024-08-08 16:23:00模态,领衔,基准,推理,视觉,能力

CVPR最佳论文被生成式AI占领，清华武大华南农大上科校友获

...的场景运动建模方法，可用于通过静态图像生成无缝循环视频，还能实现与图像中对象的交互。这项研究来自谷歌，一作谷歌DeepMind研究员Zhengqi Li（李正奇）。最佳学生论文奖也一同公布。一篇BioCLIP: A Vision Foundation Model for the Tr...……更多

2024-06-21 09:21:00华南,清华,农大,获奖,校友,生成