• 我的订阅
  • 头条热搜
openai推出mle-bench新基准
...r\"(特级大师)是不同的绩效层级,用于衡量和识别数据科学家在Kaggle平台上的技能水平和成就。许多任务具有现实世界的应用,例如预测COVID-19mRNA疫苗降解或解码古代卷轴等。MLE-bench专注于两个关键领域:选择具有挑战性的任...……更多
媲美OpenAI事实性基准,这个中文评测集让o1-preview刚刚及格
...评测集的长期有效性,可以长期作为模型知识能力的评估基准 易于评估:评测数据的问题和答案非常简短,评测可以基于任意的模型,能够以较低成本和较快速度进行高一致性的评测。 有难度和区分度:我们评估了 40 + 国内外...……更多
自动化、可复现,基于大语言模型群体智能的多维评估基准
...)也越来越强。因此,在多样的应用场景中对其进行性能基准测试已成为了一项重大挑战。目前最受欢迎的基准测试是 Chatbot Arena,它通过收集用户对模型输出的偏好来对 LLM 进行综合排名。然而,随着 LLM 逐渐落地于众多应用场...……更多
清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?
...的研究人员联合撰写百页长文,发布名为MultiTrust的综合基准,首次从多个维度和视角全面评估了主流多模态大模型的可信度,展示了其中多个潜在安全风险,启发多模态大模型的下一步发展。论文标题:Benchmarking Trustworthiness of ...……更多
全球首个多模态地理科学大模型“坤元”发布:可据指令生成专业地理图表
...系。此外,他们还将打造地理科研协作大平台,为每一位科学家和科研团队提供专属的地理大模型服务,通过共享数据、模型与研究思路等方式促进全球范围内的科研合作与知识交流,共同推动地理科学的繁荣发展。【本文结束...……更多
【产业互联网周报】字节回应被曝秘密利用OpenAI;英特尔预告Gaudi 3将超越H100;阿里云M7蔡英华离职;马斯克回应Grok抄ChatGPT作业
...汤科技官方微信公众号发布讣告,公司创始人、人工智能科学家、浦江实验室主任、上海人工智能实验室主任、香港中文大学教授汤晓鸥因病救治无效,于2023年12月15日23时45分去世。根据公开信息介绍,汤晓鸥出生于辽宁鞍山,...……更多
科学家研发AI睡眠模型,捕捉多导睡眠图数据特征,提升睡眠障碍
近日,澳门理工大学郭晶晶教授团队,提出一款名为 MSSC-BiMamba 的 AI 模型,能够捕捉多导睡眠图多模态数据特征,提升睡眠分期与睡眠障碍的诊断效率。图 | 郭晶晶(来源:郭晶晶)据介绍,考虑到多导睡眠监测的特点,该团...……更多
深度剖析:谷歌、微软等AI巨头承诺的“自愿监管”做到了吗?
...评估并对数据集进行分析。谷歌 DeepMind 在推出可以帮助科学家的人工智能工具方面有着良好的记录,例如,AlphaFold 3 可以预测几乎所有生命分子的结构和相互作用。AlphaGeometry 解决几何问题的水平可以与优秀的高中生相媲美。Gra...……更多
NeurIPS | 消除多对多问题,清华大规模细粒度视频片段标注新范式
...粒度标注系统 VERIFIED,并基于此系统构建新的细粒度 VCMR 基准数据集(Charades-FIG、DiDeMo-FIG 和 ActivityNet-FIG),以推动细粒度视频理解的发展。论文题目:VERIFIED: A Video Corpus Moment Retrieval Be……更多
英伟达联手Zilliz发布全球首个GPU加速向量数据库
...公司阶跃星辰联合创办,前微软全球副总裁姜大昕任首席科学家。公司围绕金融信息服务、智能投顾、智能投研等场景,助力金融机构打造新质生产力。4、国家金融监督管理总局印发《银行保险机构数据安全管理办法》公开征...……更多
李飞飞最新报告:美去年AI领域私人投资是中国近9倍,中国仍是美最大竞争对手
...与现实世界相处。创建能够自主运行的人工智能系统,对科学家来说一直是挑战。新研究表明,人工智能自主运行性能正在不断提高,例如可以自主完成现实任务,包括在线购物和协助研究等。3.负责任的人工智能AI Index的最新...……更多
开闭源模型「大乱斗」:看看哪个智能体最能窥见人类真实意图
...该工作首先引入了 Intention-in-Interaction(IN3)这一全新的基准测试,旨在通过与用户明确的交互来理解用户的隐式意图。以 Mistral-7B 为框架,基于 IN3 训练的 Mistral-Interact 能主动评估任务的模糊性,询问用户意图,并在启动下游智...……更多
数字员工、超级个体、具身智能,AI Agent未来发展十大研究方向
...务,从而提高工作效率和质量。数字员工利用现代技术和数据分析能力,融合AI、RPA、大数据分析、数字人及机器人等多重技术,通过自动化和智能化手段,为企业提供了一种新的劳动力和工作效率提升的工具。数字员工可以代...……更多
安全强化学习方法、理论与应用综述,慕工大、同济等深度解析
...全的策略? 当前安全强化学习的应用进展如何? 有哪些基准测试可以用于评估安全强化学习的性能? 未来安全强化学习面临的挑战是什么?二、安全强化学习的研究方法研究者们提出了多种方法来处理安全强化学习的问题,可...……更多
又慢又贵?OpenAI推理模型“草莓”来了,GPT-5还有多远
...s Conneau)突然宣布离职。而此前,OpenAI联合创始人、首席科学家伊尔亚·苏茨克韦(Ilya Sutskever),“超级对齐”团队负责人杨·莱克(Jan Leike),联合创始人约翰·舒尔曼(John Schulman),ChatGPT负责人Peter Deng等人都已先后离职….……更多
“牵手”氮元素,中非学者共赴可持续研究之旅
...持下,今年,浙江大学环境与资源学院教授谷保静与非洲科学家展开合作,试图回答这一极具挑战性的问题。小元素 搭桥梁氮元素是地球大气中含量丰富的元素。它使天空变蓝、土壤肥沃,是形成人体蛋白质的基础。然而,环...……更多
从“智能涌现”到“超人类”,通往AGI巅峰的终极设想
...ind联合创始人谢恩·莱格(Shane Legg)将AGI的概念向计算机科学家们普及时[9],他将AGI定义为在认知任务上能取得类人表现的机器智能。但这一定义并未明确所指的任务类型和“类人”标准。除此之外,近期还有从学习任务或元认...……更多
OpenAI官宣下一代更接近AGI模型开始训练!成立新委员会把控 AI 安全
...科学主管)、Matt Knight(安全主管)和 Jakub Pachocki(首席科学家)也将加入该委员会。此外,OpenAI 将聘请并咨询其他安全、安保和技术专家来支持这项工作,包括前网络安全官员、为 OpenAI 提供安全建议的 Rob Joyce 和 John Carlin。 ...……更多
人工智能训练师与数据科学家的区别
...主要职责是从数据中提取有价值的洞察和信息。他们通过数据分析和统计方法,发现数据中的模式和趋势,以支持决策制定。数据科学家通常需要具备强大的统计学知识和编程能力,熟练使用工具如Python、R、SQL等。他们的工作...……更多
环境DNA检测、查水质“指纹”……这些水利“黑科技”超给力
...和修复中,发挥着更大的作用。中国环境科学研究院首席科学家 国家长江生态环境保护修复联合研究中心副主任 宋永会:治理水污染,保护水环境是一项系统工程,通过科技创新解决难点问题,提供综合方案,支撑了长江保护...……更多
腾讯发布最大开源MoE模型,3890亿参数免费可商用
...化的微调模型。在开源社区掀起一阵热议,HuggingFace首席科学家Thomas Wolf墙裂推荐并总结了几个亮点。数学能力很强 用了很多精心制作的合成数据 深入探索了MoE训练,使用共享专家、总结了MoE的Scaling Law。 各路开发者中,有立...……更多
菲尔兹奖得主亲测GPT-4o,经典过河难题破解失败!最强Claude 3.5回答离谱,LeCun嘲讽LLM
...-4o开刀,去解决动物过河难题。在此,他给出了一个新的基准——废话比率(crapness ratio),即LLM给出的总答案与正确答案之间的比率。经过测试,Gowers发现大模型的废话比率可以达到5倍。一开始,他先给出了一个农民带2只鸡...……更多
NeurIPS 2024 | FaceChain团队新作,开源拓扑对齐人脸表征模型
...分布的变量:四、关键实验及分析1.1 训练数据集与测试基准我们分别采用 MS1MV2 (5.8M 图像,85K 类别),Glint360K (17M 图像,360K 类别) 以及 WebFace42M (42.5M 图像,2M 类别) 作为我们模型的训练集。利用 LFW, AgeDB-30, ……更多
北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba
....5 倍(如图 5 所示)。数据集评估本文在一系列标准学术基准测试中评估 Conba 性能,包括常识推理任务(如 HellaSwag、WinoGrande、ARC - E、ARC - Challenge)、阅读理解任务(如 BoolQ、QuAC)、聚合基准测试(如 MMLU、BBH),采用不同……更多
文本图格式大一统!首个大规模文本边基准TEG-DB发布 | NeurIPS 2024
...里大学等机构的研究人员首次提出了文本边图的数据集与基准,包括9个覆盖4个领域的大规模文本边图数据集,以及一套标准化的文本边图研究范式。该研究的发表极大促进了文本边图图表示学习的研究,有利于自然语言处理与...……更多
最新美国国家人工智能科学院院士介绍
...纽约大学。她专注于机器学习理论和应用,特别是在高维数据分析和统计推断方面。Ward的研究为机器学习模型的可解释性和稳健性提供了理论支持,为解决实际问题提供了更加可靠的方法。FedericoPinzi,来自麻省理工学院。他在...……更多
...进展,特别奖励将高性能计算应用于科学、工程和大规模数据分析的创新。奖项可能会授予在可扩展性和解决重要科学与工程问题时间方面的最高性能或特殊成就,表彰高性能计算应用领域所取得的杰出成果。2023年戈登·贝尔奖...……更多
田渊栋团队新作祭出Agent-as-a-Judge!AI智能体自我审判,成本暴跌97%
...论文地址:https://arxiv.org/abs/2410.10934v1研究人员提出了DevAI基准,为全新框架提供概念验证测试平台。包含55个真实的AI开发任务,带有详细的手动注释。通过对三个领先的智能体系统进行基准测试,发现它大大优于「LLM-as-a-Judge」...……更多
苹果AI震撼上线iPhone,进化版Siri却没有ChatGPT!47页技术报告揭秘自研模型
...示了AFM-server在HuggingFace OpenLLM排行榜V1,以及HELM-Lite v1.5.0基准上的结果。可以看到,AFM预训练模型有着强大的语言和推理能力,从而为后训练和特征微调提供了坚实的基础。后训练 人类评估对于苹果AI的应用场景来说,人类评估...……更多
医渡科技协办第四期CDO研讨活动召开,推进数字医疗安全建设
...附属医院信息中心主任周敏,医渡科技 CTO、首席人工智能科学家闫峻,华为上海政企医疗行业CIO朱紫筵,华为数据保护首席架构师孙思远。国家卫生健康委员会统计信息中心副主任胡建平、上海市卫生健康统计中心书记、主任陈雯...……更多
更多关于科技的资讯:
中国人平均智商全球第1!韩国第3 美国排名27
快科技1月6日消息,据媒体报道,国际智商登记处最新数据显示,中国国民的平均智商为107.43,位居全球首位。据了解,这一排名基于对全球近140万人的测试结果
2025-01-06 17:47:00
近几年,游戏市场飞速发展,爆款层出不穷,一些游戏凭借丰富的剧情吸引了一批忠实玩家。为了能够更好地体验游戏剧情,不少玩家夜以继日
2025-01-06 17:47:00
2024大模型年度“标王”诞生!科大讯飞中标金额超2-6名之和
快科技1月6日消息,近日,智能超参数发布了《中国大模型中标项目监测报告(2024)》,盘点了2024年全年大模型中标项目的整体情况及各厂商的表现
2025-01-06 17:47:00
销量突破20万!捷途旅行者纪念版正式上市:售19.39万元
快科技1月6日消息,捷途旅行者为庆祝销量突破20万辆,推出了限量3000台的20万纪念版车型,售价为19.39万元。这款纪念版车型在外观和内饰上均装饰有专属纪念标识
2025-01-06 17:47:00
男子意外触碰氢氟酸手指烂出黑洞:腐蚀性极强、可侵蚀人体骨骼
友情提示:本文配图或引发不适,情谨慎观看。快科技1月6日消息,使用化学物品时,一定要注意防护,不能心存侥幸,否则悔之晚矣
2025-01-06 17:47:00
仅1199元 小米发布米家净水器N1 800G:5年长效RO滤芯
快科技1月6日消息,今天小米发布了一款小米发布米家净水器N1 800G,原价1229元,新品到手价1199元。米家净水器N1 800G具备800G的大通量设计
2025-01-06 17:47:00
九测科技丨铁路安全防线再升级,闸机测酒仪严把岗前筛查关!
在繁忙的铁路系统中,每一位工作人员都肩负着保障乘客安全、维护铁路正常运行的重要职责。否则,任何一个微小的疏忽,尤其是酒后上岗这一行为
2025-01-06 17:57:00
九测科技丨地铁轻轨安全升级,应用闸机测酒仪筑起酒后上岗防火墙
在都市的脉络中,地铁与轻轨如同繁忙的血管,输送着城市的活力与希望。每天,数以万计的乘客通过这些交通工具穿梭于城市的每一个角落
2025-01-06 18:02:00
忠艺隆五金丨钣金外壳加工过程中产生划痕,该怎么办?
钣金外壳加工过程中,偶尔会产生划痕,这无疑是对产品质量的严峻挑战。毕竟,这些看似微不足道的划痕,却如同细微的瑕疵,在钣金外壳的华丽外衣上留下难以抹去的印记
2025-01-06 18:16:00
AOKZOE A1X掌机预热:锐龙AI 9 HX 370、配OCulink接口
快科技1月6日消息,掌机制造商AOKZOE现公布了一款型号为AOKZOE A1X新品,该机主打AMD锐龙AI 9 HX 370处理器
2025-01-06 18:17:00
女子买机票中奖近3万 第一反应误以为是诈骗险错过
快科技1月6日消息,据媒体报道,近日,浙江衢州的吴女士在跨年夜迎来了人生的惊喜时刻,她在飞猪平台预订机票时意外中得了免单大奖
2025-01-06 18:17:00
公司用消费券抵员工工资 负责人被约谈 律师:违反劳动法规定
1月6日消息,近日,吉林长春一公司用消费券抵工资的报道引发关注。最新消息显示,该公司负责人已被约谈,相关部门表示,如查实将第一时间责令公司改正违法行为
2025-01-06 18:17:00
雷军:小米SU7标准版是很多车型的天花板!
快科技1月6日消息,今日有博主分享了自己的小米SU7标准版用车感受。对此,雷军转发并评论道:“‘小米SU7标准版,不是低配
2025-01-06 18:17:00
全球首台!20MW级蒸发冷却半直驱永磁风力发电机下线
快科技1月6日消息,据报道,中车永济电机公司携手中国科学院赣江创新研究院,近期共同成功研发并下线了全球首台20兆瓦(MW)级别的蒸发冷却半直驱永磁风力发电机
2025-01-06 18:47:00
为什么感染甲流这么疼啊:现在打疫苗还来得及吗
近期,流感高发。据中国疾控中心最新数据,目前流感病毒阳性率持续上升,其中 99%以上为甲流。专家提醒:除了儿童、患有慢性基础疾病的人群外
2025-01-06 18:47:00