• 我的订阅
  • 科技

文本、图像、点云任意模态输入,AI能够一键生成高质量CAD模型了

类别:科技 发布时间:2024-11-26 09:46:00 来源:机器之心Pro

文本、图像、点云任意模态输入,AI能够一键生成高质量CAD模型了

本文第一作者为上海科技大学信息学院硕士生徐京伟和忆生科技的王晨宇,指导老师为香港大学的马毅教授和高盛华教授。王晨宇毕业于上海科技大学并获得工学硕士学位。其所在的忆生科技由马毅教授于 23 年底创立,致力于打造完整、自主、自洽的机器智能系统。

该项目由忆生科技联合香港大学、上海科技大学共同完成,是全球首个同时支持文本描述、图像、点云等多模态输入的计算机辅助设计(CAD)生成大模型。

计算机辅助设计(Computer-Aided Design,简称 CAD)软件是工业软件的重要分支,也是工业设计流程中的核心工具。然而,目前的 CAD 软件普遍缺乏简易的交互工具,这在一定程度上限制了未曾接触过 CAD 的用户尝试和探索的可能性。对于 CAD 建模从业者而言,多模态大模型技术的快速发展尚未充分转化为 CAD 领域实际应用的便利性和效率提升。如果能够通过多模态交互工具有效优化建模流程,提升效率、节约时间与精力,不仅可以进一步释放专业用户的创造潜能,还将为相关产业的发展注入新的活力。

为应对这一挑战,项目团队构建了首个覆盖文本、图像和点云输入的多模态 CAD 数据集 Omni-CAD。该数据集致力于赋能多模态大语言模型,使其能够基于条件输入生成高质量的 CAD 模型。与此同时,针对 CAD 模型的拓扑质量、空间封闭性等核心属性,团队还设计了一系列创新的评估指标,为模型性能提供更全面的衡量标准。借助这一技术,用户只需输入简单的文本指令,或上传目标形状的图像,即可快速生成符合要求的 CAD 模型。这一突破不仅降低了非专业用户的使用门槛,激发了更多人参与 CAD 设计的兴趣,还为 CAD 建模从业者提供了高效可靠的工具支持。

文本、图像、点云任意模态输入,AI能够一键生成高质量CAD模型了

论文标题:CAD-MLLM: Unifying Multimodality-Conditioned CAD Generation With MLLM 论文地址:https://arxiv.org/pdf/2411.04954 项目主页:https://cad-mllm.github.io/

研究背景计算机辅助设计(CAD)技术通过数字化工具,帮助设计师创建、修改和优化复杂对象,广泛应用于工业设计与制造。但传统的流程较为复杂,对专业知识有较高要求,导致非专业用户难以参与设计。如何降低使用门槛,让非专业人士通过简单指令完成设计构想,已成为该领域亟待解决的挑战之一。尽管之前一些工作已经在探索 CAD 的生成任务,但这些方法抑或难以满足用户对交互设计的需求,抑或只能针对特定的输入进行生成,因此我们希望提供一个统一的框架能够处理不同或多种输入条件的 CAD 生成任务。

而另一方面,尽管多模态大模型(MLLMs)展现了跨模态生成的潜力,但在 CAD 领域依然面临挑战。尤其是在如何高效表征各种模态和 CAD 模型上,同时,数据集匮乏问题也一直是一大瓶颈。因此,我们提出了 CAD-MLLM,首个支持文本、图像和点云三种模态及其组合模态输入的以命令序列来表征的参数化 CAD 大模型,并搭配构建了一个超过 45 万条数据的多模态 CAD 数据集 Omni-CAD,推进该领域的研究。

技术创新

1. 首个支持多模态输入的参数化 CAD 生成多模态大模型

我们提出了一个能够同时处理文本、图像和点云,最多三种模态输入数据的模型。图像和点云输入首先通过一个冻结的编码器提取特征,经投影层对齐到大语言模型(LLM)的特征空间。随后,将各种模态的特征进行整合,并利用低秩适应(LoRA)对 LLM 进行微调,实现基于多模态输入数据的精确 CAD 模型生成。

文本、图像、点云任意模态输入,AI能够一键生成高质量CAD模型了

2. 首个多模态 CAD 数据集

为了支持模型训练,我们设计了一套全面的数据构造和标注管道,构建了包含 45 万条的多模态 CAD 模型数据集 Omni-CAD。每条数据包含对应的 CAD 模型构造命令序列,以及文本描述、8 个不同视角的图像(下图随机挑其中 4 个视角展示)以及点云数据,极大地填补了 CAD 多模态数据资源的空白,也有助于推动 CAD 生成领域的进一步发展。

文本、图像、点云任意模态输入,AI能够一键生成高质量CAD模型了

文本、图像、点云任意模态输入,AI能够一键生成高质量CAD模型了

3. 评估指标

在评估指标上,之前的工作更多聚焦在模型的重建质量和结构保真度上,而我们针对 CAD 模型的特性,基于最终生成的 CAD 模型的拓扑质量和空间封闭性,创新性地提出了四种量化指标。其中,Segment Error(SegE)检测 CAD 模型节点连接分段的准确性,Dangling Edge Length (DangEL) 评估悬边的比例来衡量生成模型流形的保真度,Self-Intersection Ratio (SIR) 检测生成模型中的自相交面问题。而 Flux Enclosure Error (FluxEE) 则通过高斯散度原理,计算常矢量场穿过生成表面的通量,评估模型的空间封闭性。

性能评估

1. 基于点云的 CAD 模型生成性能

我们与多个点云重建或者基于点云生成的基准工作进行比较,评测结果展示出我们的方法在重建精度上表现出色。而在拓扑完整性的评估上,我们模型生成的 CAD 模型大多数生成结果都能保持严格的流形结构,没有出现悬边,具有较高的拓扑完整性。相比之下,基准模型在重建结果中往往存在许多悬空边缘(如图中蓝线所示)。

文本、图像、点云任意模态输入,AI能够一键生成高质量CAD模型了

文本、图像、点云任意模态输入,AI能够一键生成高质量CAD模型了

文本、图像、点云任意模态输入,AI能够一键生成高质量CAD模型了

2. 鲁棒性测评

在基于点云生成 CAD 模型的比较实验中,我们针对两种受干扰的输入数据的情况进行了测评:添加噪声的点云数据及部分点缺失的点云数据。在从测试集中随机挑选的 1000 个样本上,使用 Chamfer Distance 来衡量生成结果,在两种情况下,CAD-MLLM 的性能均优于基线工作,特别是在一些极端条件下,依然展现出了良好的性能。

文本、图像、点云任意模态输入,AI能够一键生成高质量CAD模型了

文本、图像、点云任意模态输入,AI能够一键生成高质量CAD模型了

3. 多模态数据训练必要性测评

我们通过三个实际场景来展示多模态数据训练对于模型生成能力的辅助提升,1)裁剪的点云数据;2)带有噪声的点云数据;3)双视角图像输入。以上三种情况,单一模态数据的训练,会由于细节丢失或者视角限制使得输入信息的不准确,进而导致生成结果的不完整或者不精准,而加入完整的模型的文本描述,可有效弥补未观测到的部分,生成更为完整、精确的 CAD 模型。

文本、图像、点云任意模态输入,AI能够一键生成高质量CAD模型了

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-11-26 12:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

更快、更强、更可控:智谱“起舞弄清影”,视频生成卷出新高度!
...为视频数据生成高度吻合的文本描述,进而构建了海量的高质量视频文本对,使得训练出的模型指令遵循度高。比如,输入指令“猴子打工”,可以看到智谱对“猴子”主体和“打工”行为理解都十
2024-07-27 10:00:00
“图片生成领域的DeepSeek”!智象未来图像生成大模型全面开源 登顶全球权威榜单
...智能终端及行业应用的全产业生态体系。为了促进产业更高质量发展,高新区今年出台人工智能专项支持政策,创新采取“算力券”“语料券”和“模型券”等方式,打造金融保障体系,强化场景创
2025-04-17 10:54:00
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
...上之前所用的视觉创意、数据和代码作为prompt,生成多个高质量的除了为每个问题生成答案,作者还提示LLM生成能解释答案的「原理」(rationale)
2024-08-08 16:23:00
星环科技Sophon 3.2发布,通过“六易三仓两中心”实现新一代AI平民化
...供的样本仓功能模块,可实现对数据的精细化管理,输出高质量多模数据,驱动高质量模型的迭代。图:Sophon样本仓库样本仓库支持数据接入、智能标签和数据洞察。样本仓库支持文本、视
2023-05-31 16:00:00
... Model(扩散模型)上实现多模态,实现基于一个底层模型高质量地完成文生图、图生文、图文联合生成、图文改写等多种生成任务。唐家渝介绍,Unidiffuser前期训练所用数据
2023-06-19 09:03:00
科学家开发多模态音乐理解和生成大模型,兼具理解和创作音乐能力
...键。“如果未来我们能够与更多专业机构合作,得到更多高质量的音乐训练数据,并解决版权和标注数据质量的问题,就能完成对该模型性能和表现的更进一步迭代。”Sun Chenshuo
2024-04-09 10:25:00
不要小看「实而不华」的腾讯 AI
...创作引擎:基于腾讯混元的自研图像创作底层模型,输出高质量的 AI 图像生成和编辑能力,为企业客户提供 AI 写真、线稿生图、图像风格化等能力。视频创作引擎:基于多模态算法技术
2024-05-21 21:25:00
单卡算力对标英伟达A100,科大讯飞联手华为发布星火一体机
...判别器、隐私判别器、安全判别器等关卡,得到清洗后的高质量文本;为了解决“幻觉问题”,科大讯飞针对各类型任务构建专业知识库,以类搜索插件技术实现知识获取,基于大模型的理解和概括
2023-08-16 22:01:00
紧握根技术竞速大模型
...展的若干措施》等方案;深圳发布关于加快推动人工智能高质量发展高水平应用行动方案;上海市经信委表示,超大规模预训练模型是人工智能从专业智能走向通用智能的关键技术,未来将加快研究
2023-06-19 09:03:00
更多关于科技的资讯:
大皖新闻讯 3月30日,大皖新闻记者从中国科学技术大学获悉,该校自旋磁共振实验室彭新华教授、李兆凯副研究员与复旦大学李晓鹏教授等人合作
2026-03-30 20:39:00
名师公益课堂丨中国科大专家建议家长:用AI帮孩子提升信息检索能力
大皖新闻讯 3月29日,由安徽省图书馆联合安徽日报党媒云教育融、新安晚报共同打造的“名师公益课堂”推出《AI时代的超级玩家》专题讲座
2026-03-30 20:41:00
江南时报讯 为紧跟数字化营销发展趋势,近日,溧水农商银行举办AI短视频脚本创作专题培训,特邀外部专业讲师授课,各部室宣传骨干
2026-03-30 21:41:00
点燃乡村消费烟火气 3月28日京东“国补下乡焕新行”活动走进河北邯郸
河北新闻网讯(记者 李春炜)3月28日,京东“国补下乡焕新行”活动正式落地河北邯郸。当日,在位于丛台区环球中心美乐城广场的活动现场
2026-03-30 17:40:00
“眼镜会说话、盒子能写稿”——科技如何为媒体赋能
大河网讯(记者 娄恒 刘高雅) “盲人戴上眼镜,就能像普通人一样看书;找不到手机,眼镜会告诉你‘在你左方45度’;遇到红绿灯
2026-03-30 18:45:00
去年开年,DeepSeek横空出世,让全球见证了人工智能在脑力层面的突破。今年年初,OpenClaw再次点燃舆论场。不同于以往的对话式AI
2026-03-30 18:54:00
【宅男财经|专家面对面】3月29日,音乐人李荣浩公开指控单依纯未经授权在演出中演唱《李白》,相关事件持续发酵。目前,单依纯方面已就此事发布致歉声明
2026-03-30 19:22:00
“一人公司”是怎么运营的?
大皖新闻讯 今年以来,随着“养龙虾”的大热,一人公司(OPC)也成为社会关注的热点。位于合肥高新区中安创谷二期的合肥贝有科技有限公司
2026-03-30 19:33:00
闪耀春糖!四特酒全品系亮相,诠释中国特香魅力!
2026年3月26日,第114届全国糖酒商品交易会在成都世纪城新国际会展中心举办。作为中国特香型白酒开创者,四特酒携多款核心产品入驻江西白酒特装展厅
2026-03-30 19:57:00
金锣集团荣获“第六届中国餐饮产业红牛奖・2026 年度餐饮供应链百强企业!”
鲁网3月30日讯3月26日,由红餐网主办的“第六届中国餐饮产业红牛奖”颁奖盛典在杭州隆重举行。金锣集团凭借在餐饮供应链领域的突出综合实力
2026-03-30 15:40:00
青岛资本市场再添生力军 AI视觉大模型领军企业极视角成功登陆港交所
鲁网3月30日讯3月30日,山东极视角科技股份有限公司(以下简称“极视角”)在香港联合交易所主板挂牌上市,成为2026年山东省首家港交所IPO企业
2026-03-30 15:43:00
长白时评评论员 周军三月的北京春意盎然,2026中关村论坛年会如期拉开帷幕。“创新与发展”,是这一科技界盛会的永久主题
2026-03-30 15:56:00
机器人、新材料引领新质产业人才需求,职位数同比增速均超3成
在政策规划和产业发展共同作用下,新一代信息技术、高端装备与智能制造、新能源、新能源汽车、先进材料、生物技术与生命科学、航空航天与海洋工程
2026-03-30 16:28:00
【开局十五五 奋进正当时】中国联通(青岛)智算中心DC2全面冲刺保投产 打造绿色低碳算力基础设施新标杆
鲁网3月30日讯近日,中国联通(青岛)智算中心DC2机电配套工程建设现场呈现一片繁忙景象,机电、暖通、智能化等各专业正在全面赶工推进
2026-03-30 16:56:00
星途智联CEO刘宇中关村论坛发声:将技术转化为商业价值是卫星互联网产业的稀缺能力
3月27日,2026中关村论坛年会的重要活动之一——京津冀技术交易成果对接会在北京中关村国际技术交易中心成功举行。本次对接会聚焦“科技服务业驱动技术市场跃升
2026-03-30 14:17:00