多维,基准,群体,模型,自动化,评估头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

文本图格式大一统！首个大规模文本边基准TEG-DB发布 |

...里大学等机构的研究人员首次提出了文本边图的数据集与基准，包括9个覆盖4个领域的大规模文本边图数据集，以及一套标准化的文本边图研究范式。该研究的发表极大促进了文本边图图表示学习的研究，有利于自然语言处理与...……更多

2024-11-09 13:34:00大规,本图,基准,大规模,文本,格式

Bengio团队提出多模态新基准，直指Claude 3.5和

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报...……更多

2024-06-29 09:37:00模态,基准,弱点,团队,模型,任务

meta推出ai检测套件，可帮助开发者检测自家AI安全性

...公司合作，计划将PurpleLlama评估套件整合进行业模型评估基准中。 ……更多

2023-12-09 11:07:00检测,套件,开发者,安全性,帮助,安全

OpenAI-o1思考替代法火了！焦剑涛高徒一作提出思考偏好

...提升基模型的性能。进一步加入TPO，在AlpacaEval、Arena-Hard基准测试中，性能比基线再提升约4%。网友纷纷表示这项研究很有意思，简单而又实用。如果你已经在进行DPO，那么采用这种方法几乎就是不二之选了。所以，TPO到底长啥...……更多

2024-10-29 09:58:00高徒,偏好,模型,过程,基线,偏好

遥遥领先！阿里Qwen-2成全球开源大模型排行榜第一

...Llama-3、Mixtral、Phi-3等，在BBH、MUSR、MMLU-PRO、GPQA等严格的基准测试集上进行了全面而深入的评估。这次重新评估的初衷在于，许多开发者过于追求排行榜的名次，导致在模型训练过程中过度依赖评估集数据，并且过去的评估标准...……更多

2024-06-27 11:53:00阿里,模型,领先,排行榜,模型,中国

o1规划能力首测！已超越语言模型范畴，preview终于赢m

...为了评估o1系列模型的规划能力，作者使用了PlanBench评估基准。该基准的提出者中也正好包含了本文三名作者中的两名——共同一作Karthik Valmeekam，以及他的导师Subbarao Kambhampati。PlanBench专门为评估大模型规划能力而设计，任务类...……更多

2024-09-29 09:51:00范畴,模型,能力,语言,规划,模型

首届空天信息技术大会开幕，发布全球首个百亿级遥感解译基础模型

...拓展至航空遥感飞机、无人机等不同航空平台观测数据的自动化、高精度解译处理。尤其是航空大倾角成像过程中，极易出现畸变、遮挡、缺失等干扰，模型对此依然可以保持高精度的识别能力。目前“空天·灵眸”3.0版在覆盖...……更多

2024-09-23 11:53:00空天,遥感,首届,模型,大会,基础

国产ai大模型首批评估名单公布

...盖6大通用能力场景、7大专用能力场景、3大服务成熟度，多维度验证研发大模型在研发场景能力和人效优化效果方面的场景丰富度，重点考察研发大模型在代码理解、代码生成和补全、研发问答、单元测试用例生成等方面的能力...……更多

2024-06-12 09:54:00模型,评估,国产,名单,模型,能力

深度势能核心开发者团队发布“大原子模型计划”

...型针对自己的体系进行微调优化部署、使用具体场景中的自动化工作流，加速解决科研场景中的具体问题。同时可共享数据、模型，进行成果展示，通过首页看板直观感受到自己的贡献价值，也可看到目前共建的成果。科研人员...……更多

2023-12-05 16:20:00大原,势能,开发者,深度,模型,团队

面向实际应用评估系统性能《服务器算力算效评价规范》立项

...基础性能不同，《规范》是一款面向实际应用场景的评价基准，以服务器整机为评测对象，构建20多个基础性能和应用性能评测指标，其中应用性能涵盖数据库、大数据、虚拟化、AI等多种场景。近年来，随着大数据、人工智能...……更多

2024-11-23 14:03:00实际,评估,性能,评价,服务器,应用

江苏：多维赋能开创工业新前景

...术产品。在国家电网公司直属产业单位南瑞集团有限公司自动化设备电磁兼容实验室，科研人员在进行辐射发射实验准备工作（2023年7月7日摄）。设在江苏神马电力股份有限公司的国家能源电力绝缘复合材料重点实验室里，科研...……更多

2023-12-04 20:58:00多维,江苏,前景,工业,江苏,工业

中国电信人工智能研究院携手智源研究院推动开源社区发展

...-72（通义千问1.5-72）。经过微调的对话模型进行了客观、自动化的能力评测，评测结果显示，总分上Tele-FLM完成了对GPT-3.5-Turbo的超越。在分项得分中，Tele-FLM在总共的11个分项中有十项达到或超过GPT-3.5-Turbo水平。仅今年，中国电...……更多

2024-04-30 20:00:00研究院,中国电信,研究,人工智能,中国,人工

最强国产多模态刚刚易主！腾讯混元把GPT-4/Claude-

...很多。（这个榜单旨在为中文领域提供一个多模态大模型多维度能力评估参考，GPT-4o等国外模型仅作对比参考，不参与排名哦）hunyuan-vision也就是腾讯混元大模型的多模态版本了，除了开发者调用API之外，其实在腾讯元宝APP里免...……更多

2024-08-09 09:38:00模态,腾讯,国产,模态,腾讯,元宝

GPT-4最强对手出现！Claude-3 AI模型发布

...处理那些需要快速反应的任务，例如知识检索和销售流程自动化等。Claude3OpusClaude3Opus是系列中的高端型号，具备与市场上其他顶尖模型相匹敌的复杂视觉处理能力，能够处理多种视觉格式，包括照片、图表、图形以及技术图解...……更多

2024-03-10 18:27:00模型,对手,模型,处理,能力,前代

基于统计学方法的消费者行为分析研究

...为分析中的应用统计学方法在消费者行为分析中的应用是多维度且深入的。通过收集消费者在不同时间点上的购买记录、浏览历史、社交网络互动等数据，构建出一个全面的消费者行为数据库。分析这些数据能够帮助企业了解消...……更多

2024-06-24 11:32:00分析研究,统计学,消费者,行为,统计,消费

业界：大模型赋能汽车智能化发展推动行业向高效率产业链转型

...为汽车行业带来了新的机遇，其所提供的不仅仅是简单的自动化工具，更是通过集成先进的机器学习和自然语言处理技术，为汽车行业带来了前所未有的效率提升和个性化体验。“过去几年，AI在汽车领域的机会主要体现在自动...……更多

2024-04-13 09:53:00高效率,产业链,模型,业界,智能,产业

全球首位AI程序员爆火，背后公司成立仅4个月，CEO才27岁

...开发编码工具，以及抽象程度越来越高的人工监督，都为自动化软件工程指明了一条可能的方向。“无论如何，软件工程都将发生重大变化。”他在最后这样说。Web3基金的顾问，著名投资人packy mccormick使用Devin开发了一种餐厅评...……更多

2024-03-15 09:21:00程序员,背后,程序,全球,公司,程序员

老年综合评估：多维度了解老年人的身心健康

...的广泛关注。老年综合评估作为一种系统性的方法，通过多维度的评估手段，全面了解老年人的健康状况，以便制定个性化的护理和干预方案。一、老年综合评估的必要性老年人群体的健康问题往往是复杂且多样的，单一的健康...……更多

2024-10-30 14:25:00多维度,多维,身心健康,老年人,身心,评估

开源版OpenAI再出「神作」，小模型吊打Llama 3！M

...ral行列，成为Mistral一员。别看仅有30亿参数，在指令跟随基准上，完全超越了Llama 3 8B，以及前辈模型Mistral 7B。而且Ministral 3B和Ministral 8B在大模型竞技场中的测试，均拿下了媲美Gemma 2、Llama 3.1开源模型的成绩。世界上最好……更多

2024-10-23 09:56:00模型,边缘,革命,模型,指令,性能