• 我的订阅
  • 头条热搜
让大模型能听会说,国内机构开源首个端到端语音对话模型Mini-Omni
...次利用大语言模型进行文本推理,最后利用语音合成系统生成并输出语音。然而,类似的多阶段串联系统存在一些缺陷,比如模型无法理解语音中包含的情绪及其它非文本内容信息;同时由于额外的语音识别及合成带来的时间开...……更多
谷歌王者归来?最新推出的大模型到底有多强,能否挑战GPT-4
...型。Gemini在MMLU的得分率首次超过人类专家。来源:官方视频 Gemini包括一套三种不同规模的模型:Gemini Ultra是最大、功能最强大的类别,被定位为GPT-4的竞争对手;Gemini Pro是一款中端型号,性能优于GPT-3.5,可扩展多种任务;Gemin...……更多
如何跑赢生成式AI竞赛?云计算大厂揭秘组合拳:自研大模型只是开胃菜
...属于多模态到多模态,用户可以输入文本、语音、图像或视频等多种形式的内容,并相应地输出文本、语音、图像或视频。Vasi Philomin向我们解释说,任意到任意模型适用于变化很多的情况,比如不能确定是图像还是视频类型。...……更多
...台,汇聚了大量通用数据、行业数据,支持文本、图像、视频等多种模态,并打造了全流程的数据处理工具。超过700万亿字节的通用数据集可以开展通用模型训练,同时,4.33万亿字节的行业垂类数据对模型训练也极为重要。当...……更多
WOT全球技术创新大会2024北京站:探索AI 的无限可能
...痛点问题;大模型对创新是否带来真正的改变。想建一个视频创作平台,如何应对AI算力托管、AI模型治理、推理加速等方面的挑战?如果算力被“卡脖子”了,如何能让大模型平稳部署在信创设备上?对于小型团队来说,如果...……更多
大模型“遍地”都是,谁能真正解放生产力?
...越多的客户表示,其苦于人工标注久矣,不想再人工打标视频、图片等多模态信息。但市场现实情况是,供不应求:除了大厂以外,少有大模型团队具备多模态大模型开放能力。深耕于产业多年的考拉悠然,听到了太多客户关于...……更多
NeurIPS | 消除多对多问题,清华大规模细粒度视频片段标注新范式
...媒体所的二年级博士生,主要研究方向是多模态大模型与视频理解 ,在 NeurIPS 、ACM Multimedia 等顶级会议发表多篇论文,曾获国家奖学金、北京市优秀本科毕业生等。视频内容的快速增长给视频检索技术,特别是细粒度视频片段...……更多
中国首个音乐SOTA模型「天工音乐大模型」今日公测
...绕「天工」系列大模型建起AI大模型、AI搜索、AI音乐、AI视频、AI社交、AI游戏等AI业务矩阵,是国内模型技术与工程能力最强、布局最全面的人工智能科技企业之一。这一年里,除了对「天工」系列基座大模型进行不断升级迭代...……更多
对比学习滥用隐私数据!中科院等发布「多步误差最小化」方法 | ACM MM2024
...人员提出了一种新颖的多步误差最小化(MEM)方法,用于生成多模态不可学习样本,以保护个人数据不被多模态对比学习模型滥用。通过优化图像噪声和文本触发器,MEM方法有效地误导模型,降低其对隐私数据的学习能力,并在...……更多
云知声推出山海多模态大模型:实时生成文本、音频和图像
...能够接收文本、音频、图像等多种形式作为输入,并实时生成文本、音频和图像的任意组合输出。▲云知声山海助手微信小程序IT之家获悉,山海多模态大模型有如下特点:实时秒回,自由插话:与现实对话中人类的响应时间相...……更多
清华教授唐杰:Scaling Laws虽被质疑,但至今仍是提高大模型性能的重要方法
...产业落地元年。时至今日,OpenAI在2024年初推出了文本到视频生成模型Sora,被认为是目前最好的视频生成模型,让大家看到了构建物理世界通用模型的可能路径。唐杰分析,“OpenAI极有可能在2024年推出下一代模型GPT-5,也许会有...……更多
实体“贾维斯” vivo发布PhoneGPT:可自动打电话定餐厅
...觉的感知和理解能力,能够对手机屏幕更深度的理解,在视频流的实时对话上也更加流畅自然。蓝心语音大模型、图像大模型和多模态大模型,综合能力都获得行业机构的高度认可,在多家专业榜单上位列第一。【本文结束】如...……更多
亚马逊连甩6款大模型!推出3nm AI训练芯片,最强AI服务器算力爆表
...ro、Premier四个版本的语言模型,还有图像生成模型Canvas、视频生成模型Reel。其中Reel现支持生成6秒视频,很快将会延长到2分钟。亚马逊总裁兼CEO安迪·贾西现场剧透:明年,AWS不仅将发布语音转语音模型,还有更高能的任意转任...……更多
趣丸科技副总裁兼CTO谢睿:多模态智能激发应用新场景 | 新质生产力·AI Partner大会
...人工智能可以像人类一样感知和理解音频、文本、图像、视频等多种模态信息,并与人类进行更加自然高效的交互,展现出了强大的功能和广泛的商业应用前景。 多模态能力是实现通用人工智能的重要路径之一,也是趣丸科技...……更多
AI拜年火了,通义千问上线一张照片生成拜年视频
...全民舞王应用也迎来上新,用户可通过一张照片生成拜年视频,用更轻松、接近真人出镜的方式向亲朋好友传递新年的美好祝福。足不出户即可免费“拍”全家福春节是中国人约定俗成的团圆时刻。AI大模型技术正在让人们突破...……更多
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
...也不容易,因为我们需要的是多模态数据,但LLM无法直接生成图像,DALL-E、Stable Diffusion等图像生成模型又无法同步生成文本。一个直觉的解决方案是将二者结合在一起,直接生成但文生图模型实际上很难对图像细节做到细微精...……更多
首个可保留情感的音频LLM!Meta重磅开源7B-Spirit LM,一网打尽「音频+文本」多模态任务
...源了一个7B尺寸的Spirit LM的多模态语言模型,能够理解和生成语音及文本,可以非常自然地在两种模式间转换,不仅能处理基本的语音转文本和文本转语音任务,还能捕捉和再现语音中的情感和风格。在纯文本大模型取得进展的...……更多
CVPR最佳论文被生成式AI占领,清华武大华南农大上科校友获奖
...的场景运动建模方法,可用于通过静态图像生成无缝循环视频,还能实现与图像中对象的交互。这项研究来自谷歌,一作谷歌DeepMind研究员Zhengqi Li(李正奇)。最佳学生论文奖也一同公布。一篇BioCLIP: A Vision Foundation Model for the Tr...……更多
AIGC工具测评:生成式AI的产品表现如何
...工具,它们按功能可以划分为:文本生成、图像创作、音视频处理等多个类别。在这篇文章中,我们将探讨这些工具的表现,通过实际体验和评估,为读者提供一个关于当前AI工具的全面视角。一、ChatGPT-4所属公司:OpenAI 发布时...……更多
又一生成式AI助手将“登机”!谷歌发布多模态Bard助理,交互式AI时代近了?
...lassification)——深度学习表明,人类可训练AI,对图像、视频、音频、语言等输入数据分类。目前人类正处于第二波浪潮“生成式AI”中,即“输入数据并生成新数据”。而未来的第三波浪潮将属于“交互式AI”,“对话才是未...……更多
阿里发“神笔马良版Sora”,轻轻一抹让猫咪转向,20个演示视频+10页技术报告解读
AI视频生成赛道风起云涌,国内外新颖的文生、图生视频产品层出不穷。在各大厂商的“内卷”之下,当下的视频生成模型各方面已经接近“以假乱真”的效果。但与此同时,大部分视频生成模型的准确程度、遵循指令的能力还...……更多
以假乱真,天工音乐大模型带来颠覆式AI体验
...0秒44100Hz 采样率双声道立体声歌曲。这套模型架构在处理视频、音频和音乐领域效果极佳。昆仑万维团队也将在后续逐步迭代和添加新的能力,让模型具备多模态的情感理解与表达能力。 「天工SkyMusic」具有以下五大特点:1. ...……更多
本周硅谷发生了什么?| 高通第三代骁龙8;谷歌20亿美元追投Anthropic;联想拿出能跑大模型个人PC
...件的交互方式。未来,AI PC可以直接基于电脑上的照片和视频,直接剪辑生成内容。它也可以作为工作助手,写文档或者提炼总结要点。Meta公布2023年第三季度财报10月25日,Meta公布截至9月30日的2023财年第三财季业绩,第三财季...……更多
喜马拉雅音频大模型亮相,AI赋能内容创作者
...雅在云栖大会展示了“珠峰AI创作服务平台”:珠峰AI音视频创作平台,依托通义文本大模型对文本内容语义的深度理解,打造珠峰AI音频大模型,结合喜马拉雅独有的全品类音色库和数字人大模型,为创作者提供高品质的AIGC音...……更多
AI角色创作平台「捏Ta」完成超千万元融资
...以来,捏Ta的社交媒体曝光量已达到约2.5亿次,多次位列视频号动漫游戏日榜前十。捏Ta在社交媒体上的曝光。图源:看见概念捏Ta团队认为,AIGC技术的发展对图像生产带来的最大改变是,生产资料从原有的像素或图层,变成了...……更多
...提升数据精细化标注水平,积极开发涵盖文本、图像、音视频等多模态的高质量数据集。要加快自主算力资源和供给能力建设。大力推动算力基础设施和算力网络建设,不断提升智能算力综合供给水平;稳步推进公共算力服务平...……更多
我国自研视频大模型面向全球上线
输入文字描述或上传图片,就能生成一段逼真视频。近日,我国自主研发的通用视频大模型Vidu(www.vidu.studio)面向全球正式上线。据悉,这款视频大模型开放文生视频、图生视频两大核心功能,提供4秒和8秒两种时长选择,分...……更多
依图科技“天问”大模型赋能安防,智慧应急跨越式发展
...始研究以Transformer为基础的大模型,并成功将图像感知、视频感知与大模型结合,推动了AI安防技术的跨越式发展。 安防行业,作为社会稳定和公共安全的重要保障,一直是科技创新的先行者。随着AI技术的不断进步,安防行...……更多
下载次数破39万!CMU、Meta联合发布VQAScore文生图优化方案:Imagen3已采用
...等模型能够根据自然语言提示词生成美观且逼真的图像和视频,广受用户喜爱。然而,这些模型在处理复杂的提示词时仍存在不足。例如,当让Stable Diffusion或Midjourney生成「棕色的狗绕着一棵树追黑色的狗」时,模型可能会错误...……更多
首个VR端3D角色扮演AI发布!南洋理工公开SOLAMI技术报告,端到端VLA模型驱动,唱跳都能陪你玩
...mi-ai.github.io/技术报告:https://arxiv.org/abs/2412.00174完整介绍视频:https://www.bilibili.com/video/BV1D6zpYHEyc/ 从技术报告中我们可以看到,SOLAMI支持多种角色,有超级英雄蝙蝠侠,小可爱机器人……更多
更多关于科技的资讯:
数字游民在南京:我推着房间找邻居
随时“云端”办公,自由“安放”工位,数字游民社区兴起数字游民在南京:我推着房间找邻居南京首个乡村数字游民社区坐落于浦口草圣书乡景区
2025-09-26 08:14:00
三迭纪项目入选国家药监局智慧监管典型案例年产3亿片!3D打印药片,片片皆可溯源南报网讯(通讯员唐斐记者张希)近日,国家药品监督管理局信息中心正式公布“2025年药品智慧监管典型案例”
2025-09-26 08:14:00
二〇二五年中国香料香精化妆品精品博览会启幕十七个香妆产业创新转化项目签约南报网讯(记者夏思宇)9月25日上午,2025年中国香料香精化妆品精品博览会在南京扬子江国际会议中心开幕
2025-09-26 08:15:00
厦门网讯(厦门日报通讯员 李汶鸿)24日,在上海市普陀区普熙金融广场PUSH艺术中心举办的“数字人民币国际运营中心业务平台推介会”上
2025-09-26 08:38:00
在智能语音机器人赛道,技术稳定性与迭代能力是核心竞争力,神州泰岳旗下鼎富智能avavox大模型语音机器人依托两大技术优势
2025-09-26 08:52:00
服务升级,烟台联通创新推出急救知识培训增值服务
近日,烟台联通在客户日活动中面向VIP客户创新开展急救知识培训公益增值服务,邀请中国红十字会专业急救讲师现场授课,通过“理论+实操”相结合的方式
2025-09-26 09:24:00
中交一公局集团建筑公司武清城改项目QC成果斩获省部级二等成果奖
近日,由中交一公局集团建筑公司武清城改项目申报的《BIM+智能设备在大型城中村改造项目施工阶段的应用》凭借在特大型群体住宅工程的应用实践
2025-09-26 10:49:00
中新经纬9月26日电 9月25日,小米集团创始人、董事长兼CEO雷军在年度演讲上回顾了小米汽车造车历程。雷军提到,今年6月
2025-09-26 10:54:00
与邻一起 共建美好社区!我爱我家首届社区好邻节启幕
近日,头部房产经纪企业我爱我家正式启动主题为“好邻·好礼·好生活”的2025我爱我家社区好邻节。据介绍,本次活动从9月22日至10月31日
2025-09-26 11:24:00
小米汽车推出独特定制服务:试运营一年,每月最多定制40台
9月25日,小米公司创始人雷军在年度演讲中宣布推出一项独特的服务——小米定制服务。雷军表示,小米YU7是为一群高审美,无法容忍平庸的人设计的
2025-09-26 11:37:00
解放双手!小米推出首款三区洗衣机,衣服、内衣、袜子各占一个筒
9月25日,在年度演讲暨秋季新品发布会上, 小米推出了首款三区洗衣机——米家三区洗衣机Pro 滚筒10kg,售价3999元
2025-09-26 11:38:00
机构:鸿蒙电脑占高端市场份额超70%
华为鸿蒙折叠电脑MateBook Fold非凡大师的上市成为改写高端笔记本市场格局的关键事件。根据GFK 2025年6月统计
2025-09-26 11:38:00
补链强基 延链拓新——济南历城绘就产业发展新图景
鲁网9月26日讯(记者 李晓晨)从算力之巅的超级计算中心到家庭智能的创新终端,从芯片封装的关键环节到水处理技术的自主研发
2025-09-26 12:03:00
从优篮子到 JOBY:唯迹科技的全球化成长之路
在摄影配件行业,“速生速死” 是常态 —— 产品迭代快、价格战频发,多数企业陷入内卷困境。而深圳市唯迹科技有限公司却走出了一条 “反常识” 的发展路径
2025-09-26 12:07:00
让AI规划假期行程,告别烧脑做攻略比价;戴上耳机,和自己的专属AI讲解员一起边逛边聊,拍展品听讲解,拍景点听典故,拍建筑听历史……这种全新的旅行体验
2025-09-26 12:08:00