• 我的订阅
  • 头条热搜
清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?
...并实现部分专利产学研转化落地应用。以GPT-4o为代表的多模态大语言模型(MLLMs)因其在语言、图像等多种模态上的卓越表现而备受瞩目。它们不仅在日常工作中成为用户的得力助手,还逐渐渗透到自动驾驶、医学诊断等各大应...……更多
迎战GPT-4V!谷歌PaLI-3视觉语言模型问世,更小、更快、更强
...像与语音识别能力。本月初,微软更是公布了 166 页的多模态版 GPT-4V 的相关文档,详细探讨了 GPT-4V 的功能和使用情况,这一举动引起了业界的广泛关注。然而,在视觉语言模型的角逐中,谷歌也不甘示弱。 近日,Google Research...……更多
最强多模态模型GTP-4o问世,OpenAI继续开启人工智能创新之路
...实力。该模型在平均320毫秒(最快232毫秒)的时间内响应音频输入,与人在会话中的反应时间相近,使得人机交流更加自然、顺畅。此外,GPT-4o还能处理50种不同的语言,让全球用户都能轻松享受智能服务。相比前代产品GPT-4 Turb...……更多
不够惊艳?还是更务实?谷歌对上OpenAI,能否打好翻身...
...最新多模态大模型GPT-4o(o代表omini,全能),支持文本、音频和图像的任意组合输入,并生成文本、音频和图像的任意组合输出,可实现人类级别响应。从已有的演示视频来看,谷歌AI助手的回应速度似乎比GPT-4o稍慢一些,语音...……更多
多款技术产品问世!山东省新型智慧媒体重点实验室亮点纷呈
...有主流价值观的党媒算法模型,能准确审校文本、图片、音频、视频、直播等多模态内容,为提高网络治理能力、营造清朗的网络空间提供了有力支撑和保障。此外,齐鲁壹点还相继打造了智能创作平台、智能爬取系统、智能媒...……更多
清华教授唐杰:Scaling Laws虽被质疑,但至今仍是提高大模型性能的重要方法
...于浅层。如何利用好互联网上海量的多模态语料(图片、音频、视频)进行大规模训练仍然具有挑战。2023年7月,OpenAI公布了由其首席科学家伊利亚·苏茨克维(Ilya Sutskever)和首席强化学习专家詹·雷克(Jan Leike)发起的超级对齐计划...……更多
支付宝发布多模态医疗大模型:支持千亿级视觉识别
...画”全方位的原生多模态能力,能够无缝衔接并深度解析音频、视频、图像、文本等多元化数据,展现出前所未有的数据处理与理解能力。为了进一步赋能医疗领域,支付宝医疗大模型深度融合了海量医疗数据资源,包括覆盖报...……更多
华为高清空间音频:营造身临其境的听觉体验
...拥有“双智天花板”级的智能体验。本次发布,华为空间音频首次“上车”,重构座舱沉浸听音体验,华为音乐也成为首个正式支持车载高清空间音频体验的平台。而全新升级的车载小艺智慧助手,带来多个智慧新功能,包括小艺智慧...……更多
无问芯穹开源全球首款端侧全模态理解模型 Megrez-3B-Omni
...-Omni 是一个为端而生的全模态理解模型,同时具备图片、音频、文本三种模态数据的处理能力:在图像理解方面,Megrez-3B-Omni 是目前 OpenCompass、MME、MMMU、OCRBench 等多个主流测试集上精度最高的图像理解模型之一。 在文本理解方...……更多
AI大模型行业报告:大模型发展迈入爆发期,开启AI新纪元(附下载)
...AI春季发布会,发布了新版旗舰模型GPT-4o。GPT-4o 将文本、音频和视觉集成到一个模型中,提供更快的响应时间、更好的推理能力以及在非英语语言中的更佳表现,不仅在传统文本能力上与GPT-4 Turbo性能相当,还在API方面更快速,...……更多
通义千问再放大招:720亿大模型开源,全尺寸赶上LLaMA-2,还有移动端可用的18亿模型
...量的模型已经完全能够胜任。另外,阿里云也首次开源了音频理解大模型Qwen-Audio,这是在多模态领域的一次探索。Qwen-Audio能够感知和理解人声、自然声、动物声、音乐声等各类语音信号。用户可以输入一段音频,要求模型给出...……更多
阿里多模态检索智能体,自带o1式思考过程!复杂问题逐步拆解
多模态检索增强生成(mRAG)也有o1思考推理那味儿了!阿里通义实验室新研究推出自适应规划的多模态检索智能体。名叫OmniSearch,它能模拟人类解决问题的思维方式,将复杂问题逐步拆解进行智能检索规划。随便上传一张图,...……更多
AIGC工具测评:生成式AI的产品表现如何
...并吸收任何类型的输入和输出,包括文本、代码、视频、音频和图像。Gemini 模型从大到小分为 Ultra,Pro,Nano 三个版本。其中 Pro 版本已经整合到谷歌的 Bard 平台中,但目前仅支持英文地区的用户使用。界面体验: Gemini的界面设...……更多
CybotStar——大模型一站式应用开发平台
...运营等环节中沉淀下大量数据,涵盖文本、表格、图片、音频和视频等多模态格式。知识库可以说是企业的“独家配方”,具有机密性、专业性和规模化的特点。知识库不仅是大模型发挥能力的核心“语料”,更是大模型真正在...……更多
文本、图像、点云任意模态输入,AI能够一键生成高质量CAD模型了
...同完成,是全球首个同时支持文本描述、图像、点云等多模态输入的计算机辅助设计(CAD)生成大模型。计算机辅助设计(Computer-Aided Design,简称 CAD)软件是工业软件的重要分支,也是工业设计流程中的核心工具。然而,目前...……更多
空间智能版ImageNet来了!李飞飞吴佳俊团队出品
...Gemini 1.5 Pro这样的原生多模态模型,在多模态数据(包括音频、视频、图像和文本)上联合训练,能够处理非常长的上下文长度*((2M +),适合直接对HourVideo进行端到端评估。为了与模型性能进行对比,实验人员从基准数据集...……更多
【科技早报】OpenAI 发布多模态预训练大模型 GPT-4;微软将推进1万人裁员计划
...通过简单的自然语言提示生成文本、图像、代码、视频、音频等多种内容”。据了解,PaLM 是一个大型语言模型,类似于 OpenAI 开发的 GPT 系列或 Meta 公司开发的 LLaMA 系列。谷歌于 2022 年 4 月首次公布了 PaLM。与其他 LLM 一样,PaLM...……更多
OpenAI发布免费新品GPT-4o:可对音频、视觉和文本实时推理,与人自然对话,功能秒杀Siri
GPT-4o的文本和图像功能开始在ChatGPT中免费推出,音频模式存在各种新风险而未公开,未来音频输出将仅限于选定的预设声音,并要遵守安全政策。GPT-4o生成图像:机器人正在输入日志条目,正文很大,清晰易读,机器人的手在...……更多
AIGC产业图谱发布 影谱科技打开AIGC垂直领域应用新思路
...的技术企业,其将AIGC技术广泛应用于覆盖文本、图像、音频、视频、3D模型、触觉等跨越多种模态的内容理解和转换生成业务中。据悉,其跨模态开放任务处理能力可为元宇宙会展、智慧媒体、智慧科教、智慧文娱、数字商业等...……更多
微软宣布Team Copilot发布,年内将推出初步预览版
...提供,并作为API提供。该多模态模型集成了文本、图像和音频处理能力,带来了全新的生成式和对话式AI体验。此外,由微软开发的Phi-3列AI小型语言模型(SLM)中的一种新型多模态模型Phi-3-vision现已在Azure中推出。Phi-3模型功能...……更多
AI重磅!“它太危险了,不能公开发布”
...VALL-E 2是一个文本转语音(TTS)生成器,只需利用几秒钟的音频就能重现说话人的声音。其效果非常逼真,以至于无法向公众发布。微软研究人员在6月17日发表在预印本文献库上的一篇论文中称,VALL-E 2能够“准确、自然地生成与原...……更多
多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开
...客之姿杀入江湖的Mistral AI,在9月份甩出了自家的首款多模态大模型Pixtral 12B,如今,报告之期已至,技术细节全公开。作为欧洲的OpenAI,Mistral最近压力不小。端侧小模型端不出来,对比评测的结果又遭到质疑。上个月震撼登场...……更多
科学家开发多模态音乐理解和生成大模型,兼具理解和创作音乐能力
...作为研究的切入点?据刘山松介绍,他在读博期间就从事音频研究,对音乐有着较为浓厚的兴趣。工作以后又发现许多用户都有配乐的实际需求。“比如,视频制作者要想快速积累粉丝,就要制作出一个爆款视频引流。其中,选...……更多
Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点
...灵奖得主Yoshua Bengio教授。博士期间的主要工作聚焦于多模态、GFlowNet、多智能体强化学习、AI于气候变化的应用。目前已在ICML、ICLR、ICASSP等机器学习顶会发表论文。代表作为Large-scale Contrastive Language-Audio Pretrai……更多
支付宝多模态医疗大模型正式亮相
...“说”会“画”的原生多模态能力,可以直接理解并训练音频、视频、图、文等多模态数据。在这个基础上,支付宝医疗大模型添加了包含报告、影像、药品等百亿级中英文图文、千亿级医疗文本语料及千万级高质量医疗知识图...……更多
生成式AI大爆发后,2024年人工智能行业有哪些新趋势
...文本“翻译”成图像,以及让图像变成视频、让文本变成音频等等。多模态模型自去年以来受到了热烈的关注,让用户与AI的互动变得更高效。这也就是为何谷歌在去年12月发布的大模型Gemini的宣传片引起了轰动:在片中,Gemini...……更多
视频应用或有惊喜!微软高管透露将于下周推出GPT-4
...推出GPT-4,它是一个多模态模型,可以处理文本、图像、音频和视频。他表示,大型语言模型(LLM)已经适用于几乎所有语言,可以在一种语言中提出问题,然后在另一种语言中得到答案。[#zolsplit_eca_zolecjd电商推广区域分隔符开...……更多
Meta首款多模态Llama 3.2开源!1B羊驼宝宝,跑在手机上了
【新智元导读】Meta首个理解图文的多模态Llama 3.2来了!这次,除了11B和90B两个基础版本,Meta还推出了仅有1B和3B轻量级版本,适配了Arm处理器,手机、AR眼镜边缘设备皆可用。Llama 3.1超大杯405B刚过去两个月,全新升级后的Llama 3....……更多
“寡姐”斯嘉丽·约翰逊怒怼OpenAI山寨其声音:连我的朋友都分辨不出来
...保留了之前的五种语音模式的基础上,大大提升了图像和音频理解方面的能力,能够进行实时语音通信,可以识别音调、说话的人和背景噪音,甚至可以输出笑声、歌唱声和表达情感。斯嘉丽怒怼ChatGPT语音模式:山寨!5月21日,...……更多
海康威视(002415)新增【人工智能大模型】概念
...监控产品研发、生产和销售,产品包括硬盘录像机(DVR)、视音频编解码卡等数据存储及处理设备,以及监控摄像机、监控球机、视频服务器(DVS)等视音频信息采集处理设备。海康威视2023一季报显示,公司主营收入162.01亿元,同比下...……更多
更多关于科技的资讯:
本文转自:人民网人民网北京12月29日电 (记者王绍绍)人工智能释放技术价值红利的同时带来复杂风险挑战,如何平衡发展与安全已成为牵动人类命运共同体的重大课题
2024-12-29 10:38:00
网安公司也中招!多家公司Chrome扩展被攻击对用户投毒
快科技12月29日消息,据媒体报道,近日,多家公司的Chrome浏览器扩展功能遭到黑客攻击,导致用户敏感数据面临泄露风险
2024-12-29 10:39:00
AMD看完无可奈何!NVIDIA新核弹RTX 5090、5080售价泄露:玩家要破产了
快科技12月29日消息,NVIDIA新一代旗舰显卡RTX 5090、5080即将于1月份的CES 2025大展期间官宣
2024-12-29 11:09:00
百万粉丝网红咖啡去世 年仅29岁:确诊直肠癌仅7个月
快科技12月29日消息,日前,在抖音拥有285万粉丝的网红绘画博主“咖啡”助理发讣告称:网红“咖啡”因直肠癌去世,年仅29岁
2024-12-29 11:09:00
小米SU7城市销量榜:杭州人买的最多 上海、深圳包揽亚季军
快科技12月29日消息,易车榜今日发布了小米SU7今年1-11月份的城市销量Top20榜单。榜单显示,小米SU7的主要受众为新一线及一线城市
2024-12-29 11:09:00
临沂推进工业企业数字化转型 前十月营收突破178亿
大众网记者 王艳彩 临沂报道12月27日上午,临沂市人民政府新闻办公室召开新闻发布会,向大家介绍临沂市制造业数字化转型工作相关情况
2024-12-29 11:26:00
雷克萨斯行驶中起火烧成壳!女车主:起火后全车车标被扣走
快科技12月29日消息,日前,有雷克萨斯女车主发布视频维权称,自己的车辆质保期内行驶中起火,事故发生后全车车标被扣走,4S店对起火一事不管不问
2024-12-29 11:39:00
本文转自:人民网今天,让我们跟随西班牙小伙湖长明,一起去认识他的机器人朋友。看看它们如何执行指令,在商超、家庭等多元化场景中发挥本领,在人机互动中感受科技的发展脉搏。
2024-12-29 11:44:00
2024年即将风驰电掣般过去。这两天很多人问:发生了那么多大事,究竟哪件才是“高光”?从年初拿到版号,到年中“破石出海”
2024-12-29 11:47:00
韩国载181人客机起火爆炸:179人遇难 2人生还
快科技12月29日消息,据央视最新报道,韩国全罗南道消防厅在务安机场,对济州航空7C2216航班乘客家属表示,事故客机上除2人幸存以外
2024-12-29 12:09:00
院士齐聚“科晚”盛典:比亚迪王传福与科大讯飞刘庆峰同台亮相 央视今晚开播
快科技12月29日消息,央视官方今日宣布,由总台社教节目中心精心筹备的首届《中国科技创新盛典》将于12月29日晚22:30在CCTV-1首播
2024-12-29 12:39:00
手心输入法更新:自动下载360相关软件是三年前遗留内容
快科技12月29日消息,手心输入法在前不久时隔六年后发布了Windows端v3.1版更新,不过此次更新却引发了用户热议
2024-12-29 12:39:00
资深机长解读韩国737客机失事:或因机组疲劳、遭鸟击后忙中出错 遗漏起落架放下程序
快科技12月29日消息,29日上午9时7分许,由泰国曼谷起飞的济州航空7C2216号航班在位于全罗南道的务安机场降落时坠落
2024-12-29 12:39:00
曝海信将在CES2025发布新型电视显示技术
2025年1月7日-10日,被誉为“科技春晚”的CES全球消费电子展将在美国拉斯维加斯如约举行,海信将以“AI Your Life”为主题亮相
2024-12-29 13:21:00
海信电视斩获“绿色设计国际大奖”
日前,海信ULED AI画质电视U8系列产品荣获了世界绿色设计组织(WGDO)颁发的“2024绿色设计国际大奖” ,海信作为唯一获此殊荣的中国彩电品牌
2024-12-29 13:22:00