立新,数据分析,基准,科学家,模型,评估头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

openai推出mle-bench新基准

...r\"（特级大师）是不同的绩效层级，用于衡量和识别数据科学家在Kaggle平台上的技能水平和成就。许多任务具有现实世界的应用，例如预测COVID-19mRNA疫苗降解或解码古代卷轴等。MLE-bench专注于两个关键领域：选择具有挑战性的任...……更多

2024-10-12 20:06:00基准,机器,任务,学习,基准,自然语言

媲美OpenAI事实性基准，这个中文评测集让o1-previ

...评测集的长期有效性，可以长期作为模型知识能力的评估基准易于评估：评测数据的问题和答案非常简短，评测可以基于任意的模型，能够以较低成本和较快速度进行高一致性的评测。有难度和区分度：我们评估了 40 + 国内外...……更多

2024-11-21 09:43:00事实性,基准,中文,评测,事实,模型

自动化、可复现，基于大语言模型群体智能的多维评估基准

...）也越来越强。因此，在多样的应用场景中对其进行性能基准测试已成为了一项重大挑战。目前最受欢迎的基准测试是 Chatbot Arena，它通过收集用户对模型输出的偏好来对 LLM 进行综合排名。然而，随着 LLM 逐渐落地于众多应用场...……更多

2024-10-23 12:03:00多维,基准,群体,模型,自动化,评估

清华领衔发布多模态评估MultiTrust：GPT-4可信度

...的研究人员联合撰写百页长文，发布名为MultiTrust的综合基准，首次从多个维度和视角全面评估了主流多模态大模型的可信度，展示了其中多个潜在安全风险，启发多模态大模型的下一步发展。论文标题：Benchmarking Trustworthiness of ...……更多

2024-07-25 09:31:00模态,清华,可信度,领衔,可信,几何

全球首个多模态地理科学大模型“坤元”发布：可据指令生成专业地

...系。此外，他们还将打造地理科研协作大平台，为每一位科学家和科研团队提供专属的地理大模型服务，通过共享数据、模型与研究思路等方式促进全球范围内的科研合作与知识交流，共同推动地理科学的繁荣发展。【本文结束...……更多

2024-09-19 19:53:00坤元,地理,模态,图表,指令,生成

【产业互联网周报】字节回应被曝秘密利用OpenAI；英特尔预

...汤科技官方微信公众号发布讣告，公司创始人、人工智能科学家、浦江实验室主任、上海人工智能实验室主任、香港中文大学教授汤晓鸥因病救治无效，于2023年12月15日23时45分去世。根据公开信息介绍，汤晓鸥出生于辽宁鞍山，...……更多

2023-12-18 22:02:00马斯,英特,英华,马斯克,英特尔,阿里

科学家研发AI睡眠模型，捕捉多导睡眠图数据特征，提升睡眠障碍

近日，澳门理工大学郭晶晶教授团队，提出一款名为 MSSC-BiMamba 的 AI 模型，能够捕捉多导睡眠图多模态数据特征，提升睡眠分期与睡眠障碍的诊断效率。图 | 郭晶晶（来源：郭晶晶）据介绍，考虑到多导睡眠监测的特点，该团...……更多

2024-06-07 09:44:00睡眠,科学家,模型,障碍,特征,科学

深度剖析：谷歌、微软等AI巨头承诺的“自愿监管”做到了吗？

...评估并对数据集进行分析。谷歌 DeepMind 在推出可以帮助科学家的人工智能工具方面有着良好的记录，例如，AlphaFold 3 可以预测几乎所有生命分子的结构和相互作用。AlphaGeometry 解决几何问题的水平可以与优秀的高中生相媲美。Gra...……更多

2024-07-25 14:30:00微软,巨头,剖析,监管,深度,人工智能

NeurIPS | 消除多对多问题，清华大规模细粒度视频片段

...粒度标注系统 VERIFIED，并基于此系统构建新的细粒度 VCMR 基准数据集（Charades-FIG、DiDeMo-FIG 和 ActivityNet-FIG），以推动细粒度视频理解的发展。论文题目：VERIFIED: A Video Corpus Moment Retrieval Be……更多

2024-10-29 09:55:00大规,粒度,范式,清华,片段,大规模

英伟达联手Zilliz发布全球首个GPU加速向量数据库

...公司阶跃星辰联合创办，前微软全球副总裁姜大昕任首席科学家。公司围绕金融信息服务、智能投顾、智能投研等场景，助力金融机构打造新质生产力。4、国家金融监督管理总局印发《银行保险机构数据安全管理办法》公开征...……更多

2024-03-25 13:42:00英伟,向量,数据库,数据,全球,向量

李飞飞最新报告：美去年AI领域私人投资是中国近9倍，中国仍是

...与现实世界相处。创建能够自主运行的人工智能系统，对科学家来说一直是挑战。新研究表明，人工智能自主运行性能正在不断提高，例如可以自主完成现实任务，包括在线购物和协助研究等。3.负责任的人工智能AI Index的最新...……更多

2024-04-17 10:00:00中国,对手,私人,领域,竞争,报告

开闭源模型「大乱斗」：看看哪个智能体最能窥见人类真实意图

...该工作首先引入了 Intention-in-Interaction（IN3）这一全新的基准测试，旨在通过与用户明确的交互来理解用户的隐式意图。以 Mistral-7B 为框架，基于 IN3 训练的 Mistral-Interact 能主动评估任务的模糊性，询问用户意图，并在启动下游智...……更多

2024-08-14 09:39:00意图,模型,人类,智能,智能,任务

数字员工、超级个体、具身智能，AI Agent未来发展十大研

...务，从而提高工作效率和质量。数字员工利用现代技术和数据分析能力，融合AI、RPA、大数据分析、数字人及机器人等多重技术，通过自动化和智能化手段，为企业提供了一种新的劳动力和工作效率提升的工具。数字员工可以代...……更多

2024-02-02 17:00:00研究方向,个体,方向,员工,数字,智能

安全强化学习方法、理论与应用综述，慕工大、同济等深度解析

...全的策略？当前安全强化学习的应用进展如何？有哪些基准测试可以用于评估安全强化学习的性能？未来安全强化学习面临的挑战是什么？二、安全强化学习的研究方法研究者们提出了多种方法来处理安全强化学习的问题，可...……更多

2024-10-09 09:51:00同济,学习方法,深度,理论,方法,应用

又慢又贵？OpenAI推理模型“草莓”来了，GPT-5还有多

...s Conneau）突然宣布离职。而此前，OpenAI联合创始人、首席科学家伊尔亚·苏茨克韦（Ilya Sutskever），“超级对齐”团队负责人杨·莱克（Jan Leike），联合创始人约翰·舒尔曼（John Schulman），ChatGPT负责人Peter Deng等人都已先后离职….……更多

2024-09-13 15:28:00多远,推理,草莓,模型,模型,思维

“牵手”氮元素，中非学者共赴可持续研究之旅

...持下，今年，浙江大学环境与资源学院教授谷保静与非洲科学家展开合作，试图回答这一极具挑战性的问题。小元素搭桥梁氮元素是地球大气中含量丰富的元素。它使天空变蓝、土壤肥沃，是形成人体蛋白质的基础。然而，环...……更多

2023-10-30 07:07:00中非,牵手,学者,元素,之旅,研究

从“智能涌现”到“超人类”，通往AGI巅峰的终极设想

...ind联合创始人谢恩·莱格（Shane Legg）将AGI的概念向计算机科学家们普及时[9]，他将AGI定义为在认知任务上能取得类人表现的机器智能。但这一定义并未明确所指的任务类型和“类人”标准。除此之外，近期还有从学习任务或元认...……更多

2023-12-01 09:21:00巅峰,终极,人类,智能,人类,系统

OpenAI官宣下一代更接近AGI模型开始训练！成立新委员会

...科学主管）、Matt Knight（安全主管）和 Jakub Pachocki（首席科学家）也将加入该委员会。此外，OpenAI 将聘请并咨询其他安全、安保和技术专家来支持这项工作，包括前网络安全官员、为 OpenAI 提供安全建议的 Rob Joyce 和 John Carlin。 ...……更多

2024-05-29 15:08:00立新,下一代,模型,训练,委员会,委员

人工智能训练师与数据科学家的区别

...主要职责是从数据中提取有价值的洞察和信息。他们通过数据分析和统计方法，发现数据中的模式和趋势，以支持决策制定。数据科学家通常需要具备强大的统计学知识和编程能力，熟练使用工具如Python、R、SQL等。他们的工作...……更多

2024-06-29 02:26:00人工智能,科学家,人工,训练,智能,科学

环境DNA检测、查水质“指纹”……这些水利“黑科技”超给力

...和修复中，发挥着更大的作用。中国环境科学研究院首席科学家国家长江生态环境保护修复联合研究中心副主任宋永会：治理水污染，保护水环境是一项系统工程，通过科技创新解决难点问题，提供综合方案，支撑了长江保护...……更多

2024-03-24 17:44:00水质,指纹,水利,检测,环境,科技

腾讯发布最大开源MoE模型，3890亿参数免费可商用

...化的微调模型。在开源社区掀起一阵热议，HuggingFace首席科学家Thomas Wolf墙裂推荐并总结了几个亮点。数学能力很强用了很多精心制作的合成数据深入探索了MoE训练，使用共享专家、总结了MoE的Scaling Law。各路开发者中，有立...……更多

2024-11-07 09:54:00腾讯,商用,模型,参数,模型,数据

菲尔兹奖得主亲测GPT-4o，经典过河难题破解失败！最强Cl

...-4o开刀，去解决动物过河难题。在此，他给出了一个新的基准——废话比率（crapness ratio），即LLM给出的总答案与正确答案之间的比率。经过测试，Gowers发现大模型的废话比率可以达到5倍。一开始，他先给出了一个农民带2只鸡...……更多

2024-07-01 08:58:00菲尔,得主,难题,经典,农夫,模型

NeurIPS 2024 | FaceChain团队新作，开

...分布的变量：四、关键实验及分析1.1 训练数据集与测试基准我们分别采用 MS1MV2 (5.8M 图像，85K 类别)，Glint360K (17M 图像，360K 类别) 以及 WebFace42M (42.5M 图像，2M 类别) 作为我们模型的训练集。利用 LFW, AgeDB-30, ……更多

2024-10-18 09:46:00人脸,拓扑,新作,模型,团队,人脸

北大林宙辰团队全新混合序列建模架构MixCon：性能远超Ma

....5 倍（如图 5 所示）。数据集评估本文在一系列标准学术基准测试中评估 Conba 性能，包括常识推理任务（如 HellaSwag、WinoGrande、ARC - E、ARC - Challenge）、阅读理解任务（如 BoolQ、QuAC）、聚合基准测试（如 MMLU、BBH），采用不同……更多

2024-10-16 13:34:00序列,架构,北大,混合,团队,性能