• 我的订阅
  • 头条热搜
让霉霉说地道中文,背后玩家竟来自中国,7个月收入百万美元
...然声音克隆稍有缺陷,毕竟HeyGen只通过40秒的视频来克隆音频,如果刻意对比原视频,情感还原度稍有欠缺。HeyGen虽然可以免费试用,但只能生成1分钟时长视频,且生成需要等待很长时间,而付费版最便宜的也要24美元/月。因此...……更多
反击OpenAI,谷歌放出最强悍大模型Gemini
...同凡响的识别能力。在视频中,Gemini极为自如地在图像、音频、视频各模态之间的转换,展现了惊人的解锁应用场景与产品形态的潜力。图源:谷歌演示视频仅从谷歌释出的演示视频结果看,市面上现有的全部多模态大模型与Gem...……更多
谷歌大模型Gemini视频被质疑造假、夸大宣传,官方回应:演示内容有剪辑|钛媒体焦点
...“拼凑多模态”模型,即从一开始就使用多种模态(例如音频、视频和图像)训练而成。因此,Gemini开辟了一条 AI 领域前所未见的道路,可能会带来重大的新突破。作为其最强的技术竞品,12月8日下午,OpenAI研发的聊天机器人Ch...……更多
谷歌VideoPoet大模型上线,生成长达10秒视频,还可自动配音 | 最前线
...一款搞视频生成的模型VideoPoet,不仅能支持根据视频加入音频效果,允许交互编辑,更重要的是,VideoPoet现在可以生成更长的视频了。简而言之,这次的模型看起来更加全能了。看过Demo后的网友们直接表示:好牛,所以什么时...……更多
Sora爆火96小时国内大模型进场
...车面临不小的难度。碾压同行2月16日,谷歌发布新一代多模态大模型Gemini 1.5 Pro,在性能上超越OpenAI的GPT-4 Turbo,堪称业界最强大模型。然而,OpenAI在同一日发布Sora大模型,风头直接盖过谷歌,仅需通过文本即可自动生成视频,...……更多
手机上能跑的「GPT-4V」来啦!多图、视频理解首次上端!面壁小钢炮开源史上最强端侧多模态
...导读】面壁小钢炮MiniCPM-V 2.6重磅出击,再次刷新端侧多模态天花板!凭借8B参数,已经取得单图、多图、视频理解三项SOTA ,性能全面对标GPT-4V。再次刷新端侧多模态天花板,面壁「小钢炮」 MiniCPM-V 2.6 模型重磅上新!仅8B参数...……更多
国内首个极速超拟人交互向全民开放 可在星火大模型中体验
...星火极速超拟人语音的情绪感知能力,能够感知到数十种音频事件与情绪,比如喜怒哀乐、害怕、困惑等,AI会以“感同身受”的方式进行语言组织和情绪表达。而情感共鸣会结合声音和内容等不同维度,在合适的情境采用合适...……更多
全面叫板OpenAI!谷歌发布多模态大模型全家桶:从AI助手到文生视频模型
...先一天后,科技巨头谷歌不甘示弱,推出了自己的最新多模态AI(人工智能)产品。当地时间5月14日,在谷歌I/O开发者大会上的主题演讲中,谷歌展示了由升级后Gemini模型驱动的AI助手项目Project Astra、对标Sora的文生视频模型Veo,...……更多
本周硅谷发生了什么?|OpenAI推出5项更新;微软组建新的AI团队;Googe发布文生视频模型Lumiere
...GenAI团队研发小模型,减少对OpenAI的依赖。Adept AI发布多模态模型Fuyu-Heavy,官方称跑分表现仅次于GPT4-V和Gemini Ultra。同时,国内大模型也有不少进展,通义千问团队升级了视觉语言模型Qwen-VL,图片内文字处理能力得到提升。此外...……更多
大模型重塑智能硬件!人手一个智能助手的时代来了?
...验,并且在80%丢包情况,即网络较差的环境下,仍能做到音频通话流畅。为了让整个集成更加简单,声网还提供了模块化的组件。企业无需额外集成STT、TTS这些模块化的组件,就可以达到音频的端到端对话目的。除此之外要让AI...……更多
...平台的全面教育应用。平台可以处理学生的文本、视频和音频数据,识别学习行为与偏好,并动态生成个性化的学习路径和资源推荐,助力全面、智能化的教育服务。智能座舱一体化平台:基于MatrixOne的多模态数据处理能力,为...……更多
arxiv研究人员:多模态ai模型存在安全隐患
...论文指出,包括GPT-4V、GPT-4o和Gemini1.5在内的大部分主流多模态AI模型,处理用户的多模态输入(例如一起输入图片和文本内容)之后,输出结果并不安全。这项研究标题为《跨模态安全调整》(Cross-ModalitySafetyAlignment),提出了...……更多
Sora这就落伍了?Meta“最强视频模型”不用DiT,用Llama大力出奇迹了
...成模型 Movie Gen Video , 300 亿参数。最大的基础视频生成音频模型 Movie Gen Audio ,130 亿参数。进一步对 Movie Gen Video 模型进行后训练获得的 Personalized Movie Gen Video,用来根据个人的面部生成个性化视频。……更多
...例如,教师可以围绕阅读主题收集一些相关的视频素材或音频资料,让学生通过视频和音频来了解阅读内容,也可以借助视频和音频创设阅读的情境。例如,在《草原》《美丽的小兴安岭》等自然景观题材的文本阅读教学时,可...……更多
GPT-4o颠覆传统教育,鸡娃的路已经被AI堵\\\
...智能助手,可以实现多模态交互。它不仅可以处理文本、音频和图像的组合输入,而且产生这些媒介的任意组合输出。ChatGPT-4o对音频输入的响应时间更短,可以达到伪实时对话效果。比如在语言不通的两人之间充当翻译,当测...……更多
...布式软总线连接能力和规格进一步增强、媒体进一步增强音频/相机框架的能力、测试框架多个工具能力增强。应用框架提供Autofill自动填充框架,系统应用可以通过该框架来实现密码保险箱等功能为用户提供免密登录功能。支持...……更多
...显红色文化的意象构境,从而调动多维感官体验,打造多模态话语模式下的红色文化感知场域,唤醒文化自觉;而多种穿戴式设备也可拓展红色文化传播的元信息收集渠道,扩大红色文化传播范围,优化传播效果。一、多方主体...……更多
必然的命运:AI大模型冲向“免费轮盘赌”
...情感表达让网友直呼,“她来了!”。不仅支持文、图、音频三种信息形态的输入,并且可以做超过50种语言的同声传译。甚而有网友给GPT-4o发了一张菜市场的西瓜图片,让GPT-4o帮着挑西瓜,据反馈,效果还不错。据悉,或将于...……更多
循环神经网络(RNN):如何处理自然语言?
...处理。以下是一些常见的应用场景:语音识别:用于建模音频信号的时间序列,从而实现语音识别。语言模型:用于预测下一个词,从而实现语言模型。这在机器翻译,文本生成等任务中非常有用。机器翻译:用于编码源语言序...……更多
新扩散模型OmniGen一统图像生成,架构还高度简化、易用
...的扩散模型架构 OmniGen,一种新的用于统一图像生成的多模态模型。OmniGen 具有以下特点:统一性:OmniGen 天然地支持各种图像生成任务,例如文生图、图像编辑、主题驱动生成和视觉条件生成等。此外,OmniGen 可以处理经典的计...……更多
谷歌推出其最先进AI模型Gemini,希望击败GPT-4
...T-4的基准测试中,Gemini最明显的优势来自于它理解视频和音频并与之交互的能力。这很大程度上是设计使然:多模态在最开始就是Gemini计划的一部分。谷歌没有像OpenAI构建DALL·E(文生图模型)和Whisper(语音识别模型)那样单独...……更多
...为,从Pika、Gemini1.0到Sora和Gemini1.5,支持AI视频生成的AI多模态模型不断突破,特别是Sora能够理解和模拟现实世界的模型基础,有望成为实现AGI(通用人工智能)的重要突破节点。AI视频生成等多模态模型有望在影视、动画、游戏...……更多
OpenAI跌倒,谷歌吃饱?ChatGPT宕机5小时,谷歌聊天机器人搜索激增
...月,OpenAI刚发布了最新多模态大模型 GPT-4o,支持文本、音频和图像的任意组合输入,并生成文本、音频和图像的任意组合输出。目前,GPT-4o已经正式上线,每位用户每天都会获得一定的使用额度。ChatGPT上次遭遇这样大规模的宕...……更多
NeurIPS | 消除多对多问题,清华大规模细粒度视频片段标注新范式
...大学计算机系媒体所的二年级博士生,主要研究方向是多模态大模型与视频理解 ,在 NeurIPS 、ACM Multimedia 等顶级会议发表多篇论文,曾获国家奖学金、北京市优秀本科毕业生等。视频内容的快速增长给视频检索技术,特别是细...……更多
智谱AI杀入视频生成:「清影」上线,时长6秒,免费不限量
...。全自研技术All in 大模型的智谱 AI,很早就开始部署多模态生成式 AI 模型。从 2021 年开始,智谱 AI 先后发布了 CogView(NeurIPS’21)、 CogView2(NeurIPS’22)、CogVideo(ICLR’23)、Relay Diffusion(ICLR’……更多
...大量通用数据、行业数据,支持文本、图像、视频等多种模态,并打造了全流程的数据处理工具。超过700万亿字节的通用数据集可以开展通用模型训练,同时,4.33万亿字节的行业垂类数据对模型训练也极为重要。当前已知的全...……更多
...新增了“看”的技能。语言技能中的“看”通常指利用多模态语篇中的图形、表格、动画、符号以及视频等理解意义的技能。理解多模态语篇,除了需要使用传统的阅读技能之外,还需要观察图表中的信息,理解符号和动画的意...……更多
车载语音产品需求分析与产品设计
...明星播报语音。四、智能化场景与交互设计方案 1. 车载音频的焦点优先级设计 1)独占交互在独占交互中,一次只允许一个应用持有焦点。因此,在传入的焦点请求被授予焦点的同时,现有的焦点持有者会失去焦点。例如,用...……更多
谷歌发布ai前沿成果,生成式ai迎来爆发
...,谷歌在生成式AI模型上已经推出过AudioLM,只需输入短时音频,就能生成相似风格的音频。彼时AudioLM只是纯音频模型,这个技术类似于语言模型,根据提示的语音内容,自主判断并生成相似内容。从这个角度看,AudioLM 可视为是...……更多
软通智慧数智成果发布暨战略合作签约仪式举行
...算力灵畅服务体系、卧龙策渊人工智能平台,以及基于多模态感知的多元共治产品体系。活动现场。软通智慧供图正式发布“AI算力灵畅服务体系”,助力算力从“可用”走向“好用”,为人工智能产业区域发展带来全新解决方...……更多
更多关于科技的资讯:
可能叫锐龙9 9955HX:AMD游戏本旗舰U首次现身
快科技12月29日消息,Intel、AMD都在准备新一代高端游戏本平台,其中AMD的代号Fire Range,从桌面版锐龙9000系列移植而来
2024-12-29 21:10:00
AMD的雷霆一击!锐龙9 9950X3D首次现身跑分
快科技12月29日消息,AMD将在CES 2025上发布一大波新品,包括锐龙AI MAX 300系列(Strix Halo)
2024-12-29 22:40:00
CR450动车组揭秘:450公里时速是这么来的
2024年12月29日,CR450动车组样车正式发布,我国新一代时速400公里动车组研制获得重大突破。其中,“CR”是中国铁路英文缩写
2024-12-29 23:10:00
AMD RX 9070 XT功耗超过300W!但拒绝16针供电
快科技12月29日消息,AMD的新一代显卡RX 9070 XT、RX 9070将会在CES 2025期间正式发布,预计1月底春节前就会上市
2024-12-29 19:40:00
人类思维的速度竟然只有每秒10比特!这么慢 怎么活
互联网数据的传输速度可以用每秒传输的比特数来衡量,单位为bps,如果我们想要不卡顿地进行720p高清视频通话,最少大约需要120万bps(每秒120万比特)的速度
2024-12-29 19:40:00
江南时报讯 近日,苏州农商银行第二届“锦数杯”数据场景建模大赛在总行多功能会议厅举行。本次大赛以“数据驱动创新,智慧引领未来”为主题
2024-12-29 20:00:00
全球航空一天连发3次事故!阿航空难因客机遭地面攻击、韩国客机爆炸预计179人遇难
年底了,全球航空业突然重大事故频发,让人心惊肉跳。首先是当地时间12月25日,一架从阿塞拜疆巴库飞往俄罗斯格罗兹尼的阿塞拜疆航空公司客机在哈萨克斯坦阿克套近郊坠毁
2024-12-29 20:10:00
大众网记者 唐梦琳 李欣 东营报道宽阔平坦、标线清晰的路面,13处并列的通行车道、贴心便捷的服务驿站特色功能……近日,东营市东青高速改扩建项目正式完工启用
2024-12-29 20:59:00
韩国179人遇难客机黑匣子已找到:机长曾发出Mayday信号 飞机起火爆炸原因公布
12月29日消息,据央视报道,韩国国土部交通部29日下午举行记者会时介绍,事故调查委员会目前已经回收了飞机的两个“黑匣子”
2024-12-29 16:09:00
长安汽车董事长谈本田日产合作:因竞争而走到在一起
快科技12月29日消息,在12月29日的长安汽车伙伴大会上,长安汽车董事长朱华荣谈到了全球车企之间的合作趋势。他指出,传统汽车制造商之间的合作正在加深
2024-12-29 16:09:00
银座新业态抢滩“首发经济”!银座家美惠济宁龙城店开业即爆火
齐鲁晚报·齐鲁壹点 许昱洲12月28日,银座家美惠济宁龙城店惊艳亮相,作为银座集团布局济宁市场的重要一环,其新业态、新模式
2024-12-29 16:52:00
三星晶圆代工再遭重创!台积电将独占高通二代骁龙8至尊版订单
快科技12月23日消息,据报道,高通原打算在今年的骁龙8至尊版开始执行双代工厂策略,不过由于三星良品率不稳定等原因,最终让高通选择延后执行该计划
2024-12-29 17:09:00
事故频发!加拿大航空一客机降落遇故障并起火
快科技12月29日消息,据报道,在韩国一架客机遭遇碰撞并起火事件后不久,仅仅相隔两个多小时,加拿大航空公司的一架客机也遭遇了突发事故
2024-12-29 17:09:00
奔驰车标供应商宣布破产:曾经受住了拿破仑入侵、两次世界大战
快科技12月29日消息,据报道,德国的格哈迪塑料技术公司近期宣布破产。这家汽车零件供应商拥有1500名员工,为豪华汽车品牌奔驰生产著名的三芒星标志
2024-12-29 17:39:00
宝骏首款旗舰轿车享境实车亮相:纯电/插混双动力 明年上半年上市
快科技12月29日消息,宝骏品牌首款旗舰车型“宝骏享境”近日在上汽通用五菱的2024年第80万辆新能源车下线现场正式亮相
2024-12-29 17:39:00