立新,数据分析,基准,科学家,模型,评估头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

文本图格式大一统！首个大规模文本边基准TEG-DB发布 |

...里大学等机构的研究人员首次提出了文本边图的数据集与基准，包括9个覆盖4个领域的大规模文本边图数据集，以及一套标准化的文本边图研究范式。该研究的发表极大促进了文本边图图表示学习的研究，有利于自然语言处理与...……更多

2024-11-09 13:34:00大规,本图,基准,大规模,文本,格式

田渊栋团队新作祭出Agent-as-a-Judge！AI智能

...论文地址：https://arxiv.org/abs/2410.10934v1研究人员提出了DevAI基准，为全新框架提供概念验证测试平台。包含55个真实的AI开发任务，带有详细的手动注释。通过对三个领先的智能体系统进行基准测试，发现它大大优于「LLM-as-a-Judge」...……更多

2024-10-28 09:52:00审判,新作,团队,成本,智能,评估

苹果AI震撼上线iPhone，进化版Siri却没有ChatG

...示了AFM-server在HuggingFace OpenLLM排行榜V1，以及HELM-Lite v1.5.0基准上的结果。可以看到，AFM预训练模型有着强大的语言和推理能力，从而为后训练和特征微调提供了坚实的基础。后训练人类评估对于苹果AI的应用场景来说，人类评估...……更多

2024-08-01 09:40:00进化,模型,苹果,报告,技术,苹果

医渡科技协办第四期CDO研讨活动召开，推进数字医疗安全建设

...附属医院信息中心主任周敏,医渡科技 CTO、首席人工智能科学家闫峻,华为上海政企医疗行业CIO朱紫筵,华为数据保护首席架构师孙思远。国家卫生健康委员会统计信息中心副主任胡建平、上海市卫生健康统计中心书记、主任陈雯...……更多

2024-04-26 11:00:00研讨,医疗,数字,活动,安全,建设

面向实际应用评估系统性能《服务器算力算效评价规范》立项

...等前沿技术的广泛应用，服务器应用场景日益丰富，从大数据分析到深度学习模型训练，任务类型日趋多样化。与此同时，降低能源成本和数据中心碳排放的压力不断增加，服务器能效提升成为必然趋势，从而引导服务器厂商提...……更多

2024-11-23 14:03:00实际,评估,性能,评价,服务器,应用

基于卫生统计学的疾病传播模型与实证研究

...异会导致模型的预测结果与实际情况出现偏差。随着新型数据分析技术的发展，现有疾病传播模型的计算复杂度和数据处理能力也面临挑战。传统模型在大规模数据处理方面的局限性限制了其在大数据时代的应用。如何将海量数...……更多

2024-09-20 04:57:00统计学,实证,模型,疾病,传播,统计

一秒究竟有多长，中国光钟团队将有自己的答案

...确定度达到了1×10-16左右之后，再提高已经很困难了。科学家想减小不确定度，就要寻找更高的跃迁频率。光学原子钟的跃迁频率在1014Hz以上，超过微波钟４个量级，具有巨大的发展潜力。早在1973年，就有人提出过采取光学频...……更多

2024-02-05 10:14:00中国,团队,答案,晶格,原子,原子钟

限定120分钟科研挑战，o1和Claude表现超越人类

...情是这样的——人类 VS AI科研能力大比拼，也有新的评估基准了。代号“RE-Bench”，由非营利研究机构METR推出，目的是搞清：当前AI智能体在自动化科研方面有多接近人类专家水平。注意看，一声令下之后，AI和50多位人类专家开...……更多

2024-11-26 09:46:00科研,人类,人类,专家,任务,评估

李德仁：苍穹之上，擦亮“东方慧眼”

...力等详细数据，完成了最精细的三维数字高程模型。根据数据分析结果，他们认为唐家山堰塞湖虽险，但依然是稳固的，可以用明渠导流的办法排除风险。团队将这些数据呈报给抗震救灾指挥部，为正确处置险情提供了科学依据...……更多

2024-06-11 06:15:00李德,李德仁,慧眼,苍穹,李德,李德仁

大模型是否有推理能力？DeepMind数月前的论文让AI社区

...不过，这种解读也引来了一些争议。比如，Meta FAIR 研究科学家主任田渊栋指出，论文采用的评估方法 ——「blitz」可能存在一些局限。「blitz」字面意思是闪电战，在国际象棋中指超快棋。在这种棋赛中，对局每方仅有几分钟的...……更多

2024-10-23 12:05:00推理,模型,能力,论文,社区,模型

开启精准医疗的“钥匙”

...提速的人工智能应用，还将鼓励生物学家、医生、计算机科学家和数据科学家之间更紧密的合作，从而推动跨学科研究的发展。 ……更多

2024-03-15 05:43:00钥匙,医疗,甲状,罗定,甲状腺,天南

全模态对齐框架align-anything来啦：实现跨模态指

... 支持多种开、闭源对齐评估：支持了 30 多个多模态评测基准，包括如 MMBench、VideoMME 等多模态理解评测，以及如 FID、HPSv2 等多模态生成评测训练框架北大对齐小组设计了高度模块化、扩展性以及简单易用的对齐训练框架，支持...……更多

2024-10-18 09:47:00模态,指令,框架,模态,模型,数据

第一个100%开源的MoE大模型，7B的参数，1B的推理成本

...和偏好调优，该研究还创建了 OLMoE-1B-7B-INSTRUCT，它在常见基准 MMLU、GSM8k、HumanEval 等上超越了各种更大的指令模型，包括 Llama2-13B-Chat 、OLMo-7B-Instruct (0724) 和 DeepSeekMoE-16B。受控实验强调了……更多

2024-09-06 10:01:00推理,模型,成本,参数,模型,训练

谷歌王者归来？最新推出的大模型到底有多强，能否挑战GPT-4

...左）和Gemini（右）的成绩。来源：X随后，谷歌DeepMind首席科学家杰夫·迪恩（JeffDean）在X平台上的一处讨论中对这个质疑作出了回应，写道：“我们报道了这两种方法。我们认为让社区看到我们新开发的CoT方法、并了解它与其他...……更多

2023-12-07 18:27:00王者,模型,模型,视频,微软,测试

AI诊断抑郁症，准确率高达97.53%的秘诀何在？

...新的、更客观的诊断方法，希望将来大家都能用得上。”科学家们发现，虽然以前很多抑郁症诊断研究都是只看一种数据，但这种新的多模式方法能够更全面地了解一个人的情绪状态。结合语音和大脑活动数据后，这个模型在...……更多

2024-11-23 14:12:00准确率,抑郁症,秘诀,高达,数据,抑郁症

AI落地千行百业，存储痛点凸显，浪潮信息如何助力AI向实？

...AI应用场景的契合度。这一点，也是全球唯一的AI/ML存储基准测试——MLPerf所关注的本质。MLPerf存储基准测试面向AI/ML用户的痛点，即存储和计算的平衡及两者的有效利用。然而测试中存储架构的多样与存算节点的非标准化，导致...……更多

2024-11-08 09:46:00浪潮信息,痛点,浪潮,百业,落地,存储

谷歌AlphaFold 3在《自然》杂志刊登：准确率超50%

...洛斯·阿拉莫斯国家实验室研究员、新墨西哥州联盟高级科学家ThomasC.Terwilliger在去年11月发表于《自然》杂志上的论文中称，尽管AlphaFold的预测并非全部准确，但其提供了可信的假说，可以用作提示机制。所有这些能力很可能只...……更多

2024-05-12 23:11:00准确率,自然,杂志,结构,蛋白质,蛋白

硅谷大模型“价格战”上演，一味“卷”价格会有未来吗？

...以来，硅谷各大模型的能力正在趋同。LiquidAI的机器学习科学家MaximeLabonne在X平台上表示，表现最好的闭源模型（GPT-4级别）和开源模型在性能上的差距正在越来越小。图片来源：X平台与此同时，随着企业对定制化大模型的需求...……更多

2024-05-27 15:27:00硅谷,价格,价格战,一味,模型,模型

谷歌推出其最先进AI模型Gemini，希望击败GPT-4

...LLM）训练工作负载的速度提高了两倍。”谷歌DeepMind首席科学家杰夫·迪恩（Jeff Dean）写道，“对机器学习框架（JAX、PyTorch、TensorFlow）和编排工具的强大支持使我们能够在v5p上更高效地扩展。通过第二代SparseCores，我们还看到嵌...……更多

2023-12-07 10:21:00最先,模型,比斯,模型,哈萨,人工智能

还在人工炼丹？自动提示工程指南来了，还带从头实现

...程对于 LLM 的输出结果，现在已经有了很多标准化的评估基准和机制。以代码生成为例：可以通过在编译器或解释器中运行代码来检查语法错误和功能，从而即时评估生成的代码的准确性。通过测量成功编译的代码所占的百分比...……更多

2024-09-10 13:39:00从头,人工,提示,指南,工程,提示

o1金牌团队揭秘AI超越人类惊人时刻！22分完整版视频全公开

...过人类时，AGI的未来变得更加明朗」。来自艾伦研究所的科学家Nathan Lambert对这个视频，做了一个精彩亮点的总结。一共有8点：1 强化学习加持的o1，比人类更善于发现新的CoT推理步骤2 自我批评的涌现，是o1最强有力的时刻3 让o1...……更多

2024-09-23 09:50:00整版,金牌,团队,人类,时刻,视频

他汀立新功！研究发现：这3种他汀，能精准清除血管内皮衰老细胞

...是高血脂患者的主要控制手段之一。但随着研究的进步，科学家通过实验发现他汀的作用被低估，除了降脂以外，他汀可能还还有其他健康益处。一、多项权威研究发现，他汀不只是降脂！维也纳医科大学的Johannes M. Breuss 教授...……更多

2024-10-26 05:06:00立新,内皮,衰老,血管,细胞,研究

阿里推出AI数据科学家，全流程自动化，科研小白也能用

...有了它，我们只需给需求，这个助手就能自己跑完探索性数据分析（EDA）、数据预处理、特征工程、模型训练，模型评估等步骤。当然，除了本文将重点提到的DS Assistant，它背后的Modelscope-Agent框架也值得说道。这个框架由阿里...……更多

2024-08-08 09:40:00小白,阿里,科学家,流程,自动化,科研

长上下文能力只是吹牛？最强GPT-4o正确率仅55.8%，开

...过不断增加上下文长度（干扰图片的数量），将现有的VQA基准和简单图像识别集 (MNIST) 扩展为测试长上下文「提取推理」的示例。结果在简单VQA任务上，VLM的性能呈现出惊人的指数衰减。——LLM：原形毕露了家人们。而与实际研...……更多

2024-07-23 17:12:00正确率,长上,下文,模型,只是,能力

开辟内地与澳门科技创新合作新模式（科技视点）

...航天工程项目，如探月工程、天问一号火星任务等，进行数据分析和相关研究工作。2018年7月，在各方支持下，我们还成立了月球与行星科学国家重点实验室，这些都为‘澳门科学一号’卫星的研究奠定了坚实的科学基础。”张...……更多

2024-02-05 06:52:00澳门,科技,科技创新,视点,模式,合作

OpenAI安全优先级下降引担忧，多名高管离职

...I董事会成员BretTaylor、AdamD’Angelo和NicoleSeligman，以及首席科学家JakubPachocki、OpenAI早期筹备团队的AleksanderMadry、安全系统负责人LilianWeng、安保负责人MattKnight和“人工智能对齐”（AIAlignment）负责人JohnSchulman……更多

2024-05-29 23:49:00优先级,多名,安全,安全,委员会,委员