• 我的订阅
  • 头条热搜
联汇科技发布最新智能体应用——第二代多模态智能体OmAgent
...速度提升;OmChat V2则支持高达512K的上下文长度,能够处视频、图、文复杂的混合输入,具有时序关系判断和多图关系理解能力。Om多模态智能体全新产品系列——空间运营智能体、知识服务智能体。空间运营智能体将对环境的全...……更多
...加拿大)等 7 家企业出资,谷歌母公司 Alphabet 则向涉足视频生成领域的 Runway(美国)等 4 家企业出资。中国则在过去一年内新增了 5 家独角兽企业,包含月之暗面、MiniMax、零一万物、百川智能和智谱 AI,这些企业均获得了阿里...……更多
视频生成大模型sora和可灵的区别在哪里?
...可能仅一线之隔。Sora之后,它的挑战者前赴后继。6月,视频生成大模型迎来又一轮新品爆发,生成式AI赛道像是“过年了”。快手可灵、LumaAI以及Runway迭代更新后的Gen-3Alpha等现象级爆品不断涌现。其中,讨论度最高的是快手自...……更多
出门问问重磅发布全新2.5D数字人系统 WetaAvatar 4.0
在 AIGC 技术的推动下,视频生成模型领域正迎来创新的高潮。出门问问独立研发的数字人克隆及生成服务,以其领先的创新能力,提供了高度真实与生动的数字体验,吸引了众多用户的目光。目前,这一先进技术已经成功部署...……更多
llava-1.6与gpt-4vmp面硬刚的性能,一起来看看
...谓buff叠满:SOTA级别的性能,低训练花销,多模态的内容生成能力和再一次将开源大模型卷上了新高度。根据LLaVa-1.6官网的标准评测数据集,该模型的表现超越了Qwen-VL-Plus、CogVLM和Yi-VL等一众模型,在大部分数据集上的表现都优...……更多
Motiff妙多发布国内首个UI大模型,效果跑分超越苹果、GPT-4o
...析每个模块的功能和布局,这有助于提供设计建议、自动生成UI设计原型等。Motiff妙多在界面分析能力上处于行业领先水平,是最懂UI设计的多模态大模型。 Motiff妙多大模型能回答各种各样有关UI界面的问题Motiff妙多大模型在理...……更多
“大装置+大模型”战略:助力商汤迅速获取生成式AI商业化果实
从技术到具体的应用场景,生成式AI正在全球卷起一股浪潮。一组预测数据显示,2035年生成式人工智能有望在全球贡献近90万亿元(人民币,下同)的经济价值,其中,我国将突破30万亿元,占比超过四成。不难想象,一轮新的...……更多
5项重大更新,NVIDIA助力人形机器人研发迈入新阶段
... NVIDIA Isaac Lab 强化学习,从少量人类演示中学习,并根据视频数据生成机器人动作,对多模态指令的接受度非常可观。 同时,GR00T 模型使用的 Isaac 工具能够为在任何环境中的任意机器人创建新的基础模型。这些工具包括用于强...……更多
字节跳动豆包大模型发布,火山引擎全栈AI服务助力企业智能化转型
...营销增长方案;不仅提供多模态的理解与生成能力,助力视频创作效率提升25倍,更上线抖音话题、POI、小程序等营销工具,使门店页面曝光提升600%。目前已经有3,000+企业在火山引擎开启AIGC视频营销增长。面向销售场景,火山...……更多
本周硅谷发生了什么?|苹果Vision Pro正式开售;Neuralink完成人类脑机接口植入;字节Coze国内版上线;
...的新版本,用户现在可以在visionOS商店中下载ChatGPT。官方视频显示,Vision Pro版ChatGPT支持聊天问答和图像生成。Google宣布为聊天机器人Bard升级Gemini Pro模式2月1日,Google宣布其聊天机器人Bard将在全球范围内采用Gemini Pro模式,……更多
OpenAI「草莓」两周内发布?网传不是多模态,反应慢了10多秒
...试过该模型的人还透漏,初始版本的「草莓」只能接收和生成文本,而不能接收和生成图片,这意味着「草莓」还不像 OpenAI 其他模型那样是多模态的。目前大家见到的大模型都是多模态的,这似乎是「草莓」一个明显缺点。大...……更多
...领域设计的大型模型系统,实现了对图像、文本、语音、视频等多模态手术数据的深入理解,能够准确识别和解析动作、影像和生命体征等多种医疗信息。在实际应用中,CARES Copilot 1.0不仅可为临床医生提供手术阶段的详细分析...……更多
Sora震撼来袭,AI动画以假乱真了吗?专家:仍存硬伤
...段短片利用了AI规划分镜并绘制图片,再辅以“图片生产视频”软件让图片“动起来”。视频作者冯先生在接受媒体采访时表示,这段视频如果人工制作至少需要半年,而自己在AI的帮助下用时一周就完成了。值得一提的是,上...……更多
腾讯元宝首发3D生成应用 一张图即可生成3D角色
...模态交互能力。据了解,腾讯混元大模型早已布局文/图/视频生3D能力,是业界最早的端到端3D生成大模型之一,通过大模型一步推理,30秒即可生成动漫、建筑、游戏道具等类型的3D资产。如果需要更高精度,还能进一步烘焙生...……更多
讯飞星火V3.0发布,打造每个人的AI助手
...,助力全民提升科技素养。科普中国拥有40万+科普中国音视频、6000万+科技文献构建科普大模型,将优秀科普资源惠及广大中小学生,及时回应孩子的每一次提问,课堂学生互动参与率从25%提升到77%,问题解答率从23%提升到95%,...……更多
vivo自研蓝河操作系统发布:支持大模型、多模态交互
...蓝河操作系统扩展了输入能力,支持声音、图片、文字、视频、手势、手语、脑波等的识别。 同时,支持应用开发新范式,能够帮你自动编写代码、生成专属桌面、壁纸、主题等。该系统支持各类配置运行,包括200MHzCPU和32MB内...……更多
《2023人工智能赋能网络视听产业观察报告》在青发布
...工智能赋能网络视听产业观察报告》。《报告》围绕综合视频、短视频、网络直播和网络音频四种视听形态梳理了2023年人工智能赋能网络视听创新应用的典型案例,以及人工智能相关法规政策与行业规范发布情况,并探讨了行...……更多
GPT-4劲敌,谷歌进入高能+高产模式
...一较高下”的劲头。只是由于当下大家的视线焦点集中在视频领域,Sora 又是 OpenAI 首次发布文生视频模型,所以无奈被抢了头条。图源:微博评论 Gemini 1.5 Pro建立在谷歌对Transformer和MoE架构的领先研究之上。传统Transformer充当一...……更多
手机上能跑的「GPT-4V」来啦!多图、视频理解首次上端!面壁小钢炮开源史上最强端侧多模态
...端侧多模态天花板!凭借8B参数,已经取得单图、多图、视频理解三项SOTA ,性能全面对标GPT-4V。再次刷新端侧多模态天花板,面壁「小钢炮」 MiniCPM-V 2.6 模型重磅上新!仅8B参数,取得 20B 以下单图、多图、视频理解 3 SOTA 成绩...……更多
AI“大姨”现场刁难智能客服!直击一群AI打PK赛,真能落地的那种
...用的模型API与SDK。提供文本生成、图片生成、视觉理解、视频生成、语音识别以及语音合成能力。最新进展中,通义方面发布了最强开源模型Qwen2.5系列,同时上架语言、音频、视觉等100多款全模态模型。应用层方面,百炼提供...……更多
Meta首款多模态Llama 3.2开源!1B羊驼宝宝,跑在手机上了
...答案。轻量级的1B和3B模型则可以帮助不仅在多语言文本生成和工具调用能力方面表现出色,而且具有强大的隐私保护,数据永远不会离开设备。之所以在本地运行模型备受大家的青睐,主要在于以下两个主要优势:提示词和响...……更多
创新奇智大模型工业落地初显成效,探索工业智能机器人新方向
...AInno-75B 增加了多模态处理能力,支持输入文本、图像、视频以及工业场景中的行为(Action)模态,如 CAD 等。通过引入高参数量大模型 AInno-75B, 创新奇智的主推产品 ChatDoc、ChatBI 获得了显著的能力提升。生成式企业私域知识问...……更多
2B多模态新SOTA!华科、华南理工发布Mini-Monkey,专治「切分增大分辨率」后遗症
...适应策略(MSAC)的轻量化多模态大模型。Mini-Monkey自适应生成多尺度表示,允许模型从各种尺度中选择未分割的对象,其性能达到了2B多模态大模型的新SOTA。论文地址:https://arxiv.org/pdf/2408.02034项目地址:https://github.com/Yul……更多
神仙打架!谷歌新款大模型Gemini 和GPT-4谁能笑到最后?丨科技观察
...接受包括多种媒体类型的输入,组合文本、图像、音频、视频和编程代码。未来,谷歌还计划将 Gemini添加到谷歌搜索引擎和 Chrome 网络浏览器等产品中,而全球有数十亿人在使用这些产品。谷歌首席执行官皮查伊 让GPT-4“瑟瑟...……更多
开源证券:多模态AI赋能影视板块,建议继续布局IP、动画板块
...证券研报指出,Runway、Pika、Clande3等模型工具推动从文生视频、图生视频,到文生音频、视频生音频、多模态图像识别的多模态AI能力持续提升及应用持续落地,Sora的推出或进一步提升AI视频生成能力,助力文字、创意、剧本等...……更多
AI大牛杨红霞离职创业,曾为字节和阿里大模型研发主力 | Long China 50独家
...研发,转移到了应用的落地。2024年,随着音频模型Sonu、视频模型Sora的“炸场”,资本市场再度燃起了对AI的热情。乘着东风创业、融资的技术大牛不在少数。“字节系”的技术大牛,也成了AI创业的主力军。2021年离职的视觉技...……更多
英伟达投的Sora竞品免费了!网友挤爆服务器,120秒120帧支持垫图
120秒120帧高质量逼真视频,视频生成赛道新模型入场,火到服务器被挤爆!网友直呼这是Sora级别的视频生成AI,关键是可以免费试用。这个新推出的模型名为Dream Machine,现已推出免费公开测试版,支持文生视频、图生视频。网...……更多
微软宣布:copilot将持续实现创新
...在不久后广泛推出,IT之家后续将为大家带来详细报道。视频理解和问答–Edge中的Copilot你现在可以在Edge中对正在观看的视频进行总结或提问。如下图所示,如果你正在观看微软CEO萨蒂亚最新的Ignite主题演讲视频,你可以要求Copi...……更多
京东探索研究院院长、京东科技人工智能业务负责人何晓冬:让大模型在产业先跑起来
...语言处理走向了多模态能力,涵盖了语言、语音、图像、视频和数字人等。这一跨越,得益于京东在对话、语音、商品图像、视频、直播等多模态数据层面的训练积累以及包括BUTD Attention、Attention GAN在内的算法层面的持续深耕,...……更多
联汇科技荣获2024人工智能隐形冠军企业标杆Top10
...景落地。已完成基于行业的十亿级图文、亿级图片、万级视频大规模预训练,实现用更小的标注样本数量,融合更多的模态信息,获得更为准确的AI模型,可灵活适配多场景应用需求。依托核心技术与产品服务能力,未来,联汇...……更多
更多关于科技的资讯:
从乡村直播间的农特产品,到城市商场的促销热潮,再到物流行业的高效运转……记者从太原市税务局获悉,随着“双11”将下半年消费市场带入旺季
2025-11-21 08:12:00
天阳科技发布“量子增强计划”,多方聚力共筑“量子金融”新生态
近日,以 “量子计算+AI:重塑金融科技新范式” 为主题的前沿科技研讨会在北京召开,本次研讨会由天阳宏业科技股份有限公司(以下简称 “天阳科技”)主办
2025-11-21 08:29:00
奋进的河北·“十四五”答卷丨身边的“十四五”(四):车间里的“智变”
向智而行,新型工业化加速跑——河钢集团唐钢公司构建全流程一体化生产计划排程系统,实现订单与产能高效匹配;石家庄四药集团应用生产执行系统
2025-11-21 08:36:00
“看见”,是新闻工作的起点。守护新闻工作者的清晰视野,就是守护社会公器的明亮窗口。11月18日,在厦门市新闻工作者协会指导下
2025-11-21 09:40:00
网易 UU 远程 Mac 被控功能上线,提升 macOS高效办公体验
网易 UU 远程全新版本上线,在已有 Mac 控制 PC 功能的基础上,正式开放 Mac 设备被控功能,自此 Mac 实现控制与被控的双向协作
2025-11-21 09:47:00
中新经纬11月21日电 “小米公司发言人”微博21日发布关于Xiaomi Watch S4 Sport潜水功能的说明。小米公司表示
2025-11-21 11:11:00
阿里巴巴承办COP30中国角边会 展示AI驱动气候治理新成果
第30届联合国气候变化大会(COP30)于11月10日至21日在巴西帕拉州首府贝伦市举办,这是2015年《巴黎协定》签署以来最受瞩目的气候大会
2025-11-21 11:36:00
数绘星云与腾讯云达成战略合作,共同推动AI出海电商智能化升级
11月18日,数绘星云(深圳)科技有限责任公司与腾讯云正式签订战略合作协议,双方将在云计算、大数据、AIGC等核心领域开展深度合作
2025-11-21 11:48:00
中新经纬11月21日电 据彭博社报道,当地时间20日,谷歌宣布了一款名为Nano Banana Pro的新型图像生成和编辑模型
2025-11-21 11:53:00
回望“十四五”,西安交通大学方涛教授说,他们团队倍感振奋。“在国家能源结构转型关键期,我们扎根国家‘双碳’战略,依托西安交大强大科研平台
2025-11-21 13:29:00
舒朗秋11月19日,工业和信息化部举行新闻发布会,介绍GB6675《玩具安全》系列强制性国家标准修订情况。据介绍,我国建成了全球最为完善的玩具产业链
2025-11-21 14:19:00
向长河英国剑桥大学出版社近日宣布,与追星相关的词语“准社交”(parasocial)成为2025年《剑桥词典》年度词汇
2025-11-21 14:19:00
2025世界计算大会发布全球计算十大创新成就
20日,2025世界计算大会在湖南长沙开幕。大会发布了2025全球计算十大创新成就及2026十大发展趋势。此次发布的全球计算十大创新成就包括
2025-11-21 15:35:00
系统创业 自由人生|首届雨大王大健康私域 IP 创业峰会在深圆满落幕
2025年11月1日-2日,为期两天一夜的首届雨大王大健康私域IP创业峰会在深圳成功举办。本次峰会以"系统创业,自由人生"为主题
2025-11-21 15:41:00
《保险AI智能体应用白皮书》发布,四层架构+七大场景定义行业智能新范式
随着人工智能技术加速重塑千行百业,以AI智能体为代表的AI技术正成为推动产业智能化转型的核心引擎。在保险行业,伴随数字化进程的深入推进
2025-11-21 15:42:00