立新,数据分析,基准,科学家,模型,评估头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

OpenAI新功能 “深度研究” 登场，人类终极考试的表现超

...制版本提供支持，该版本经过专门优化，适配网页浏览和数据分析场景。它能够运用推理能力，在互联网上搜索、解读和分析海量的文本、图像和PDF文件，并能根据所遇到的信息灵活调整研究方向。值得注意的是，在对这个智...……更多

2025-02-04 04:25:00新功能,终极,深度,人类,考试,研究

人工智能训练师与数据科学家的区别

...主要职责是从数据中提取有价值的洞察和信息。他们通过数据分析和统计方法，发现数据中的模式和趋势，以支持决策制定。数据科学家通常需要具备强大的统计学知识和编程能力，熟练使用工具如Python、R、SQL等。他们的工作...……更多

2024-06-29 02:26:00人工智能,科学家,人工,训练,智能,科学

苹果开源7B模型，训练过程数据集一口气全给了，网友：很不像苹

...正的科学研究需求。而苹果这次竟然来真的！！就连NLP科学家、AutoAWQ创建者也发出惊叹：Apple发布了一个击败Mistral 7B的模型，但更棒的是他们完全开源了所有内容，包括预训练数据集也引来网友在线调侃：至于这次开源的意义...……更多

2024-07-23 09:33:00苹果,一口,模型,一口气,训练,过程

腾讯发布最大开源MoE模型，3890亿参数免费可商用

...化的微调模型。在开源社区掀起一阵热议，HuggingFace首席科学家Thomas Wolf墙裂推荐并总结了几个亮点。数学能力很强用了很多精心制作的合成数据深入探索了MoE训练，使用共享专家、总结了MoE的Scaling Law。各路开发者中，有立...……更多

2024-11-07 09:54:00腾讯,商用,模型,参数,模型,数据

菲尔兹奖得主亲测GPT-4o，经典过河难题破解失败！最强Cl

...-4o开刀，去解决动物过河难题。在此，他给出了一个新的基准——废话比率（crapness ratio），即LLM给出的总答案与正确答案之间的比率。经过测试，Gowers发现大模型的废话比率可以达到5倍。一开始，他先给出了一个农民带2只鸡...……更多

2024-07-01 08:58:00菲尔,得主,难题,经典,农夫,模型

NeurIPS 2024 | FaceChain团队新作，开

...分布的变量：四、关键实验及分析1.1 训练数据集与测试基准我们分别采用 MS1MV2 (5.8M 图像，85K 类别)，Glint360K (17M 图像，360K 类别) 以及 WebFace42M (42.5M 图像，2M 类别) 作为我们模型的训练集。利用 LFW, AgeDB-30, ……更多

2024-10-18 09:46:00人脸,拓扑,新作,模型,团队,人脸

北大林宙辰团队全新混合序列建模架构MixCon：性能远超Ma

....5 倍（如图 5 所示）。数据集评估本文在一系列标准学术基准测试中评估 Conba 性能，包括常识推理任务（如 HellaSwag、WinoGrande、ARC - E、ARC - Challenge）、阅读理解任务（如 BoolQ、QuAC）、聚合基准测试（如 MMLU、BBH），采用不同……更多

2024-10-16 13:34:00序列,架构,北大,混合,团队,性能

阿里+Manus，最新消息

...体概念股掀涨停潮。在Manus官网上的视频中，其团队首席科学家季逸超演示了Manus的功能，譬如用Manus筛选简历，筛选纽约房产并生成详细报告，或者进行股票相关分析。Manus可通过API获得权威数据，然后自动编写代码对数据进行...……更多

2025-03-12 07:15:00阿里,最新消息,消息,通义,团队,模型

把准高性能计算时代脉动

...进展，特别奖励将高性能计算应用于科学、工程和大规模数据分析的创新。奖项可能会授予在可扩展性和解决重要科学与工程问题时间方面的最高性能或特殊成就，表彰高性能计算应用领域所取得的杰出成果。2023年戈登·贝尔奖...……更多

2024-02-07 03:42:00高性能,时代,高性能,计算机,领域,人工智能

最新美国国家人工智能科学院院士介绍

...纽约大学。她专注于机器学习理论和应用，特别是在高维数据分析和统计推断方面。Ward的研究为机器学习模型的可解释性和稳健性提供了理论支持，为解决实际问题提供了更加可靠的方法。FedericoPinzi，来自麻省理工学院。他在...……更多

2024-03-24 08:39:00人工智能,美国,院士,科学院,人工,智能

文本图格式大一统！首个大规模文本边基准TEG-DB发布 |

...里大学等机构的研究人员首次提出了文本边图的数据集与基准，包括9个覆盖4个领域的大规模文本边图数据集，以及一套标准化的文本边图研究范式。该研究的发表极大促进了文本边图图表示学习的研究，有利于自然语言处理与...……更多

2024-11-09 13:34:00大规,本图,基准,大规模,文本,格式

田渊栋团队新作祭出Agent-as-a-Judge！AI智能

...论文地址：https://arxiv.org/abs/2410.10934v1研究人员提出了DevAI基准，为全新框架提供概念验证测试平台。包含55个真实的AI开发任务，带有详细的手动注释。通过对三个领先的智能体系统进行基准测试，发现它大大优于「LLM-as-a-Judge」...……更多

2024-10-28 09:52:00审判,新作,团队,成本,智能,评估

清华团队提出大模型“密度定律”；足球领域首个视觉语言基础模型

...entGoogle DeepMind：利用运动轨迹控制视频生成大模型数学新基准：成功率最高 2%Meta 推出「高效追踪一切」模型SOLAMI：首个端到端社交视觉-语言-动作建模框架RevThink：使用逆向思维增强 LLM 推理想要第一时间获取每日最新大模型热...……更多

2024-12-10 09:53:00模型,语言基础,清华,定律,密度,团队

苹果AI震撼上线iPhone，进化版Siri却没有ChatG

...示了AFM-server在HuggingFace OpenLLM排行榜V1，以及HELM-Lite v1.5.0基准上的结果。可以看到，AFM预训练模型有着强大的语言和推理能力，从而为后训练和特征微调提供了坚实的基础。后训练人类评估对于苹果AI的应用场景来说，人类评估...……更多

2024-08-01 09:40:00进化,模型,苹果,报告,技术,苹果

医渡科技协办第四期CDO研讨活动召开，推进数字医疗安全建设

...附属医院信息中心主任周敏,医渡科技 CTO、首席人工智能科学家闫峻,华为上海政企医疗行业CIO朱紫筵,华为数据保护首席架构师孙思远。国家卫生健康委员会统计信息中心副主任胡建平、上海市卫生健康统计中心书记、主任陈雯...……更多

2024-04-26 11:00:00研讨,医疗,数字,活动,安全,建设

Meta提出“可持续思维链”，让大模型在连续潜空间中推理

...了新颖的视觉条件 3D 生成框架。他们在单一和稀疏重建基准上进行的数值和视觉比较表明，See3D 在经济高效且可扩展的视频数据上经过训练后，实现了显著的零样本和开放世界生成能力，明显优于在昂贵且受限的 3D 数据集上...……更多

2024-12-13 09:19:00推理,模型,思维,空间,模型,生成

面向实际应用评估系统性能《服务器算力算效评价规范》立项

...等前沿技术的广泛应用，服务器应用场景日益丰富，从大数据分析到深度学习模型训练，任务类型日趋多样化。与此同时，降低能源成本和数据中心碳排放的压力不断增加，服务器能效提升成为必然趋势，从而引导服务器厂商提...……更多

2024-11-23 14:03:00实际,评估,性能,评价,服务器,应用

基于卫生统计学的疾病传播模型与实证研究

...异会导致模型的预测结果与实际情况出现偏差。随着新型数据分析技术的发展，现有疾病传播模型的计算复杂度和数据处理能力也面临挑战。传统模型在大规模数据处理方面的局限性限制了其在大数据时代的应用。如何将海量数...……更多

2024-09-20 04:57:00统计学,实证,模型,疾病,传播,统计

“AI+数据”护肤时代来临！瑷尔博士“叩门”智能护肤时代

...理想皮肤数据库，用于建设“IdealSkin Match”这一理想皮肤数据分析平台。目前，该数据平台涵盖超过960万条高质量面部菌群基因序列（样本平均约40,000条，序列长度416–559 bp）、1.9万余项（每位志愿收集80+项皮肤生理参数指标）...……更多

2025-08-26 20:08:00时代,博士,智能,数据,皮肤,理想

一秒究竟有多长，中国光钟团队将有自己的答案

...确定度达到了1×10-16左右之后，再提高已经很困难了。科学家想减小不确定度，就要寻找更高的跃迁频率。光学原子钟的跃迁频率在1014Hz以上，超过微波钟４个量级，具有巨大的发展潜力。早在1973年，就有人提出过采取光学频...……更多

2024-02-05 10:14:00中国,团队,答案,晶格,原子,原子钟

游戏bug帮大模型学物理！准确率超GPT4o近4个百分点

...识的大型视频语言模型PhysVLM，开源了！它不仅在 PhysGame 基准上展现出最先进的性能，还在通用视频理解基准上（Video-MME, VCG）表现出领先的性能。在这项研究之前，想让AI像人类儿童一样，通过观察世界理解基本的物理常识，是...……更多

2024-12-07 09:53:00准确率,百分点,百分,模型,物理,视频

全球首个！西电“玄知”密码大模型问世！

...源。西安电子科技大学同步发布全球首个密码学专业测评基准 CryptoBench，填补领域空白。该基准覆盖密码算法/协议/工程三大板块、12个核心方向、74个细分领域，包含 10,000+道精编题目，实现能力边界精准探测。建立版本迭代流...……更多

2025-08-20 09:45:00西电,模型,密码,全球,密码学,密码

李德仁：苍穹之上，擦亮“东方慧眼”

...力等详细数据，完成了最精细的三维数字高程模型。根据数据分析结果，他们认为唐家山堰塞湖虽险，但依然是稳固的，可以用明渠导流的办法排除风险。团队将这些数据呈报给抗震救灾指挥部，为正确处置险情提供了科学依据...……更多

2024-06-11 06:15:00李德,李德仁,慧眼,苍穹,李德,李德仁

限定120分钟科研挑战，o1和Claude表现超越人类

...情是这样的——人类 VS AI科研能力大比拼，也有新的评估基准了。代号“RE-Bench”，由非营利研究机构METR推出，目的是搞清：当前AI智能体在自动化科研方面有多接近人类专家水平。注意看，一声令下之后，AI和50多位人类专家开...……更多

2024-11-26 09:46:00科研,人类,人类,专家,任务,评估

OpenAI直播最后一天放出“王炸”：下一代推理模型o3亮相

...表现究竟能有多强大呢？根据OpenAI的介绍，o3模型在ARC-AGI基准上获得了破纪录的分数。ARC-AGI由Keras之父Fran ? ois Chollet开发，主要是通过图形逻辑推理来测试模型的推理能力。以100%为最高分的ARC-AGI评估结果显示，在低计算场景中...……更多

2024-12-21 17:02:00下一代,推理,模型,直播,模型,推理

大模型是否有推理能力？DeepMind数月前的论文让AI社区

...不过，这种解读也引来了一些争议。比如，Meta FAIR 研究科学家主任田渊栋指出，论文采用的评估方法 ——「blitz」可能存在一些局限。「blitz」字面意思是闪电战，在国际象棋中指超快棋。在这种棋赛中，对局每方仅有几分钟的...……更多

2024-10-23 12:05:00推理,模型,能力,论文,社区,模型

开启精准医疗的“钥匙”

...提速的人工智能应用，还将鼓励生物学家、医生、计算机科学家和数据科学家之间更紧密的合作，从而推动跨学科研究的发展。 ……更多

2024-03-15 05:43:00钥匙,医疗,甲状,罗定,甲状腺,天南

全模态对齐框架align-anything来啦：实现跨模态指

... 支持多种开、闭源对齐评估：支持了 30 多个多模态评测基准，包括如 MMBench、VideoMME 等多模态理解评测，以及如 FID、HPSv2 等多模态生成评测训练框架北大对齐小组设计了高度模块化、扩展性以及简单易用的对齐训练框架，支持...……更多

2024-10-18 09:47:00模态,指令,框架,模态,模型,数据

第一个100%开源的MoE大模型，7B的参数，1B的推理成本

...和偏好调优，该研究还创建了 OLMoE-1B-7B-INSTRUCT，它在常见基准 MMLU、GSM8k、HumanEval 等上超越了各种更大的指令模型，包括 Llama2-13B-Chat 、OLMo-7B-Instruct (0724) 和 DeepSeekMoE-16B。受控实验强调了……更多

2024-09-06 10:01:00推理,模型,成本,参数,模型,训练