• 我的订阅
  • 头条热搜
商汤又“夺金”!SuperCLUE-V多模态大模型基准发布10月榜单
...日新·商量”又拿了金牌!今日,中文多模态大模型测评基准SuperCLUE-V发布10月榜单:商汤日日新·商量多模态大模型(SenseChat-Vision5.5)凭借多个任务上的出色表现,总得分位列国内大模型第一梯队,智夺金牌。商量多模态大模型...……更多
全球第一款通用AI智能体!中国团队发布Manus震撼世界:人类休息时自主完成所有任务
...之间的相关性,Manus同样自己编写了Python代码,同时进行数据分析,同时还引入了金融相关的专业工具进行分析。最终通过数据可视化图表,搭配详尽的综合分析报告的方式,向用户反馈其中的因果关系。整个过程,非常像人类...……更多
多样任务真实数据,大模型在线购物基准Shopping MMLU开源
谁是在线购物领域最强大模型?也有评测基准了。基于真实在线购物数据,电商巨头亚马逊终于“亮剑”——联合香港科技大学、圣母大学构建了一个大规模、多任务评测基准Shopping MMLU,用以评估大语言模型在在线购物领域的...……更多
「学术版ChatGPT」登场!Ai2打造科研效率神器OpenScholar,让LLM帮你搞定文献综述
...构发布了最新的OpenScholar系统,使用检索增强的方法帮助科学家进行文献搜索和文献综述工作,而且做到了数据、代码、模型权重的全方位开源。LLM集成到搜索引擎中,可以说是当下AI产品的一个热门落地方向。前有Perplexity横空...……更多
用「AI人」模拟社会学实验,居然成功了?斯坦福、NYU用GPT-4模仿人类,准确度惊人!
...会学、社会政策、公共卫生、传播学)的77名社会和行为科学家设计,并测试了许多不同类型的实验治疗的效果(例如框架效应、显着性)主题、启动社会身份对一系列结果(如政治、文化和宗教态度、对少数群体的偏见、幸福...……更多
openai推出mle-bench新基准
...er"(特级大师)是不同的绩效层级,用于衡量和识别数据科学家在Kaggle平台上的技能水平和成就。许多任务具有现实世界的应用,例如预测COVID-19mRNA疫苗降解或解码古代卷轴等。MLE-bench专注于两个关键领域:选择具有挑战性的任...……更多
什么是AGI?人工智能的未来
...种场景细分的不利后果是:我们现在依然需要程序员或者数据分析师才能实现场景下特定的目标,而不是我们构建了类似智能人脑的系统。因此,【人工智能】的重点从系统内在智能,转移到利用外部环境中的智能,需要程序员...……更多
...模型读懂地图;将打造地理科研协作大平台,以期让每个科学家和科研团队都可以拥有专属的地理大模型,能够与数百万科学家通过共享数据、模型、研究思路等方式协同工作。 ……更多
谷歌新模型能识别人类情绪了!但不少人开始担心
...表现,并声称该模型在“毒性和粗俗程度”方面优于行业基准。 然而,谷歌并未公开其所使用的完整测试基准,也未明确披露具体的测试类型。唯一公开的基准是FairFace,一个包含数万张人头照的数据集。谷歌称PaliGemma 2在该基...……更多
Claude 3大模型引起学界关注,业内人士:或将开启科研新范式
...先的大模型。结果发现,前者在涉及需要深厚专业知识和数据分析的任务,以及可信度和透明度等方面,比后者更具优势。总的来看,Claude 3 的诞生是 AI 领域发展的一个重要进展,由它带来的潜在应用也值得我们期待。但与此...……更多
全自动组装家具! 斯坦福发布IKEA Video Manuals数据集:首次实现「组装指令」真实场景4D对齐
...书,为AI理解和执行复杂空间任务提供了新的挑战和研究基准,让机器人或AR眼镜指导家具组装不再是梦。随着人工智能技术的快速发展,让机器理解并执行复杂的空间任务成为一个重要研究方向。在复杂的3D结构组装中,理解和...……更多
媲美OpenAI事实性基准,这个中文评测集让o1-preview刚刚及格
...评测集的长期有效性,可以长期作为模型知识能力的评估基准 易于评估:评测数据的问题和答案非常简短,评测可以基于任意的模型,能够以较低成本和较快速度进行高一致性的评测。 有难度和区分度:我们评估了 40 + 国内外...……更多
自动化、可复现,基于大语言模型群体智能的多维评估基准
...)也越来越强。因此,在多样的应用场景中对其进行性能基准测试已成为了一项重大挑战。目前最受欢迎的基准测试是 Chatbot Arena,它通过收集用户对模型输出的偏好来对 LLM 进行综合排名。然而,随着 LLM 逐渐落地于众多应用场...……更多
隆重开幕丨第十届中国软件估算大会暨2025软件行业基准数据发布会在京隆重举行
...)共同主办的第十届BSCEA中国软件估算大会暨2025软件行业基准数据发布会(以下简称“大会”)在北京京仪大酒店成功召开。软件造价分会与联盟理事长王青致欢迎辞,工信部电子信息发展研究院原党委书记、中国计算机用户协...……更多
清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?
...的研究人员联合撰写百页长文,发布名为MultiTrust的综合基准,首次从多个维度和视角全面评估了主流多模态大模型的可信度,展示了其中多个潜在安全风险,启发多模态大模型的下一步发展。论文标题:Benchmarking Trustworthiness of ...……更多
全球首个多模态地理科学大模型“坤元”发布:可据指令生成专业地理图表
...系。此外,他们还将打造地理科研协作大平台,为每一位科学家和科研团队提供专属的地理大模型服务,通过共享数据、模型与研究思路等方式促进全球范围内的科研合作与知识交流,共同推动地理科学的繁荣发展。【本文结束...……更多
深度剖析:谷歌、微软等AI巨头承诺的“自愿监管”做到了吗?
...评估并对数据集进行分析。谷歌 DeepMind 在推出可以帮助科学家的人工智能工具方面有着良好的记录,例如,AlphaFold 3 可以预测几乎所有生命分子的结构和相互作用。AlphaGeometry 解决几何问题的水平可以与优秀的高中生相媲美。Gra...……更多
【产业互联网周报】字节回应被曝秘密利用OpenAI;英特尔预告Gaudi 3将超越H100;阿里云M7蔡英华离职;马斯克回应Grok抄ChatGPT作业
...汤科技官方微信公众号发布讣告,公司创始人、人工智能科学家、浦江实验室主任、上海人工智能实验室主任、香港中文大学教授汤晓鸥因病救治无效,于2023年12月15日23时45分去世。根据公开信息介绍,汤晓鸥出生于辽宁鞍山,...……更多
科学家研发AI睡眠模型,捕捉多导睡眠图数据特征,提升睡眠障碍
近日,澳门理工大学郭晶晶教授团队,提出一款名为 MSSC-BiMamba 的 AI 模型,能够捕捉多导睡眠图多模态数据特征,提升睡眠分期与睡眠障碍的诊断效率。图 | 郭晶晶(来源:郭晶晶)据介绍,考虑到多导睡眠监测的特点,该团...……更多
英伟达联手Zilliz发布全球首个GPU加速向量数据库
...公司阶跃星辰联合创办,前微软全球副总裁姜大昕任首席科学家。公司围绕金融信息服务、智能投顾、智能投研等场景,助力金融机构打造新质生产力。4、国家金融监督管理总局印发《银行保险机构数据安全管理办法》公开征...……更多
李飞飞最新报告:美去年AI领域私人投资是中国近9倍,中国仍是美最大竞争对手
...与现实世界相处。创建能够自主运行的人工智能系统,对科学家来说一直是挑战。新研究表明,人工智能自主运行性能正在不断提高,例如可以自主完成现实任务,包括在线购物和协助研究等。3.负责任的人工智能AI Index的最新...……更多
NeurIPS | 消除多对多问题,清华大规模细粒度视频片段标注新范式
...粒度标注系统 VERIFIED,并基于此系统构建新的细粒度 VCMR 基准数据集(Charades-FIG、DiDeMo-FIG 和 ActivityNet-FIG),以推动细粒度视频理解的发展。论文题目:VERIFIED: A Video Corpus Moment Retrieval Be……更多
OpenAI官宣下一代更接近AGI模型开始训练!成立新委员会把控 AI 安全
...科学主管)、Matt Knight(安全主管)和 Jakub Pachocki(首席科学家)也将加入该委员会。此外,OpenAI 将聘请并咨询其他安全、安保和技术专家来支持这项工作,包括前网络安全官员、为 OpenAI 提供安全建议的 Rob Joyce 和 John Carlin。 ...……更多
又慢又贵?OpenAI推理模型“草莓”来了,GPT-5还有多远
...s Conneau)突然宣布离职。而此前,OpenAI联合创始人、首席科学家伊尔亚·苏茨克韦(Ilya Sutskever),“超级对齐”团队负责人杨·莱克(Jan Leike),联合创始人约翰·舒尔曼(John Schulman),ChatGPT负责人Peter Deng等人都已先后离职….……更多
数字员工、超级个体、具身智能,AI Agent未来发展十大研究方向
...务,从而提高工作效率和质量。数字员工利用现代技术和数据分析能力,融合AI、RPA、大数据分析、数字人及机器人等多重技术,通过自动化和智能化手段,为企业提供了一种新的劳动力和工作效率提升的工具。数字员工可以代...……更多
开闭源模型「大乱斗」:看看哪个智能体最能窥见人类真实意图
...该工作首先引入了 Intention-in-Interaction(IN3)这一全新的基准测试,旨在通过与用户明确的交互来理解用户的隐式意图。以 Mistral-7B 为框架,基于 IN3 训练的 Mistral-Interact 能主动评估任务的模糊性,询问用户意图,并在启动下游智...……更多
“牵手”氮元素,中非学者共赴可持续研究之旅
...持下,今年,浙江大学环境与资源学院教授谷保静与非洲科学家展开合作,试图回答这一极具挑战性的问题。小元素 搭桥梁氮元素是地球大气中含量丰富的元素。它使天空变蓝、土壤肥沃,是形成人体蛋白质的基础。然而,环...……更多
从“智能涌现”到“超人类”,通往AGI巅峰的终极设想
...ind联合创始人谢恩·莱格(Shane Legg)将AGI的概念向计算机科学家们普及时[9],他将AGI定义为在认知任务上能取得类人表现的机器智能。但这一定义并未明确所指的任务类型和“类人”标准。除此之外,近期还有从学习任务或元认...……更多
安全强化学习方法、理论与应用综述,慕工大、同济等深度解析
...全的策略? 当前安全强化学习的应用进展如何? 有哪些基准测试可以用于评估安全强化学习的性能? 未来安全强化学习面临的挑战是什么?二、安全强化学习的研究方法研究者们提出了多种方法来处理安全强化学习的问题,可...……更多
环境DNA检测、查水质“指纹”……这些水利“黑科技”超给力
...和修复中,发挥着更大的作用。中国环境科学研究院首席科学家 国家长江生态环境保护修复联合研究中心副主任 宋永会:治理水污染,保护水环境是一项系统工程,通过科技创新解决难点问题,提供综合方案,支撑了长江保护...……更多
更多关于科技的资讯:
在杭州城西科创大走廊东首的西湖区紫金港科技城云谷中心,国内最大模型开源社区“魔搭社区”的首个线下实体空间——魔搭社区(杭州)开发者中心(以下简称“开发者中心”)
2025-12-05 08:13:00
眼下,养宠群体逐渐壮大,带来的刚需消费、悦己消费持续升温、充满潜力,宠物经济迅速崛起。最近,省农业农村厅联合省发改委、省商务厅等五部门印发《关于促进宠物经济发展的意见》
2025-12-05 08:13:00
海运到货 福州车厘子上新整体售价稳步回落4日,随着海运而来的智利车厘子到达福州,福州市场上车厘子全面上新,整体售价开始稳步回落
2025-12-05 08:13:00
苏州作为全国数字经济、数字金融的先行城市,始终以敢为人先的魄力,争当保险科技应用的“试验场”与“示范区”。苏州市数字金融高质量发展大会保险科技专题活动在苏州人保财险成功举办
2025-12-05 10:56:00
近日,2025系统医学与健康大会在苏州工业园区举行,四大慢病国家科技重大专项技术总师陈竺,创新药物研发国家科技重大专项技术总师曹雪涛
2025-12-05 11:45:00
《中国电影经济发展研究报告》在海南岛国际电影节首发
孙向辉解读《报告》。中青报·中青网记者 任明超/摄中国青年报客户端讯(李争艳 中青报·中青网记者 任明超)12月4日,《中国电影经济发展研究报告》(以下简称《报告》)在海南岛国际电影节主论坛首发
2025-12-05 11:50:00
近日,由市稳外贸专班主办,苏州市分公司、供应链数字治理研究中心、苏州世标检测有限公司共同承办的“新外贸‘涨’字诀:精通美国知产合规赋能企业竞强价增”活动
2025-12-05 11:54:00
南京企业奋战四季度
进入四季度,南京企业在新品发布与订单签订上成果显著,重点产业创新动能强劲 产业是城市经济发展的基石。进入四季度以来
2025-12-05 12:11:00
AI时代“一人公司”迎来发展良机AI应用爆发前夜,中国第二经济大省江苏的“双子星”——南京、苏州抢先布局“单人成军”的OPC新形态OPC的全称是One Person Company
2025-12-05 12:11:00
潮品、文创、黑科技一站式打卡!河南品牌“秀”出多元消费新体验
大河网讯 蜜雪冰城诠释着国民饮品的亲切感,河南博物院文创产品让厚重历史走入百姓日常生活,力量钻石折射出河南制造闪耀的科技光芒……12月5日
2025-12-05 12:12:00
“智”绘康养,AI上美味!看豫企如何玩“智”变
大河网讯(记者 刘高雅 王靖/文 杨鑫阳/图)12月5日,“供给焕新程 服务跃新阶——2025河南省新服务新供给品牌建设交流活动”在商丘市举行
2025-12-05 12:12:00
为提升团队惠民保展业能力,夯实业务根基,太湖人保财险成功开展新员工惠民保专项培训,各团队主管全程参与研讨推进,以多维度培训为全体坐席赋能
2025-12-05 12:40:00
解锁服务新玩法!河南品牌靠数智、跨界跑出加速度
大河网讯(记者 刘高雅 王靖/文 杨鑫阳/图)12月5日,“供给焕新程 服务跃新阶——2025河南省新服务新供给品牌建设交流活动”在商丘市举行
2025-12-05 13:13:00
文创爆品、网红奶茶齐出圈,河南新品牌如何撑起新供给?
大河网讯(记者 刘高雅 王靖/文 杨鑫阳/图)12月5日,“供给焕新程 服务跃新阶——2025河南省新服务新供给品牌建设交流活动”在商丘市举行
2025-12-05 13:13:00
在当前全球化格局深度调整与数字技术革命交汇的时代背景下,研究生国际联合培养模式的数字化转型,已成为国家教育战略的核心关切
2025-12-05 13:18:00