框架,评估,数据,模型,基准,查询头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

...总结历史上的定义，并在此基础上提出了他们对AGI的定义框架[12]。从理论到实践：定义AGI的六大原则从这些过去定义AGI的尝试中，研究人员发现了一些共同特征，并从中提取出定义AGI所必须满足的六大原则：1.注重能力，而非过...……更多

2023-12-01 09:21:00巅峰,终极,人类,智能,人类,系统

精准狙击Llama 3.1？Mistral AI开源Larg

...途，必须提前获取 Mistral AI 商业许可证。性能表现在多项评估指标上，Mistral Large 2 刷新了性能和服务成本的新标准。特别是在 MMLU 上，预训练版本实现了 84.0% 的准确率。代码与推理Mistral AI 基于此前 Codestral 22B 和 Codestra……更多

2024-07-26 09:36:00模型,基准,多语,测试,性能,生成

$多个中国团队斩获EMNLP\'24最佳论文！UCLA华人学者中三篇杰出论文$

多个中国团队斩获EMNLP'24最佳论文！UCLA华人学者中

...完成，论文共同一作Wei Fan、Haoran Li。团队提出了一个新框架，基于情境完整性理论来调整大语言模型使其符合隐私法律，提高其在不同情境下检测隐私风险的能力。Formality is Favored: Unraveling the Learning Preferences of Lar……更多

2024-11-18 09:59:00论文,中国,学者,多个,团队,华人

加州大学团队开发异构编程新模型，开辟提升处理器性能新路径

...（Hung-Wei Tseng）领导的研究团队，提出了一种以新的软件框架提高现有计算机处理速度的方法，为我们提供了一种新的性能提升思路。图丨曾宏伟（来源：加州大学河滨分校）为了处理不同类型的数据，现代计算机大都集成了多...……更多

2024-03-04 10:23:00加州,路径,处理器,模型,团队,性能

苹果让大模型学会偷懒：更快吐出第一个token，准确度还保住

... 对比了标准 LLM 与 LazyLLM。LazyLLM图 4 展示了 LazyLLM 的整体框架。从完整上下文开始，LazyLLM 会逐渐对 token 进行剪枝，从而逐渐减少得到最终模型所使用的计算数量。请注意，LazyLLM 允许模型在不同的生成步骤选取不同的 token 子集...……更多

2024-08-05 09:35:00准确度,更快,模型,苹果,缓存,模型

360集团携手中国信通院共促人工智能安全发展

...产业应用、选型参考”原则，采用科学严谨的测试方法，评估大模型在内容安全、数据安全和科技伦理等方面的表现。该体系将覆盖合法合规、隐私保护、文明健康、人工智能自主意识等27个维度的中文评测数据集，为行业提供...……更多

2024-04-09 01:58:00信通,人工智能,中国,人工,智能,集团

单卡搞定Llama 3.1 405B，让大模型轻松瘦身！超强

...型相当的精度表现。LLMC：一站式大模型瘦身工具包△LLMC框架图支持多种算法。LLMC 支持多种压缩算法，包括 16 种不同的量化方法，涵盖仅权重、权重激活和混合精度量化。这种多样性允许对不同方法进行公平比较和深入分析。...……更多

2024-08-05 09:34:00工具包,模型,工具,模型,算法,工具

建筑业碳排放占37%，奥雅纳呼吁建立数据生态体系

...内权威检测机构国检测试控股集团上海有限公司签署战略框架协议，合作开发建筑隐含碳测算及认证服务。其将建筑分为六大层级，可在项目设计或完成阶段针对每个层级的隐含碳以及减碳量进行测算评估。对企业而言，拥有隐...……更多

2024-05-09 20:57:00奥雅,建筑业,生态,体系,数据,奥雅

不花一分钱！GPT-4o微调限时免费开放，每日附赠百万训练t

...了分层安全缓解措施，例如不断对微调模型运行自动安全评估并监控使用情况。网友：微调比不上提示词缓存一片热闹之际，有网友认为微调仍然比不上提示词缓存。微调很酷，但它仍然不如提示词缓存…… 之前量子位也介绍...……更多

2024-08-22 09:52:00训练,开放,缓存,提示,模型,训练

多模态LLM视觉推理能力堪忧，浙大领衔用GPT-4合成数据构

...正确性，发现数据集的质量有一定的保证。为了能进一步评估合成数据的质量，作者还为图表、表格和路线图这三个任务构建了额外的训练集，共包含62,476条指令（图1）。基准测试论文共对12个模型进行了测试，详细结果如表A1...……更多

2024-08-08 16:23:00模态,领衔,基准,推理,视觉,能力

CMU清华教LLM练成数学高手，LeanSTaR训练模型边思

...学水平不及小学生怎么办？CMU清华团队提出了Lean-STaR训练框架，在语言模型进行推理的每一步中都植入CoT，提升了模型的定理证明能力，成为miniF2F上的新SOTA。如果想训练LLM证明定理的能力，你会怎么做？既然模型可以通过海量...……更多

2024-08-10 09:47:00顶新,成数,清华,模型,训练,高手

智能体首达Kaggle Grandmaster,华为结构化推

...他们将这个智能体称为Agent K v1.0，这是他们的结构化推理框架 Pangu-Agent 的一个扩展，但它也是专门为应对数据科学挑战设计的。该团队为 Agent K v1.0 引入了新的内部函数类别，以便在自动解决数据科学任务之前自动设置它们。他...……更多

2024-11-09 09:53:00华为,结构化,推理,思维,结构,智能

神仙打架！谷歌新款大模型Gemini 和GPT-4谁能笑到最

...4谁能笑到最后？谷歌对 Gemini 模型进行了严格的测试，并评估了它们在各种任务中的表现。从自然图像、音频和视频理解，到数学推理等任务。数据上看，Gemini Ultra是首个在 MMLU（大规模多任务语言理解数据集）任务表现上优于...……更多

2023-12-07 16:15:00神仙,模型,观察,科技,模型,任务

3人干翻谷歌！免费学术搜索比谷歌学术相关性高5倍，已获YC投

...c Scholar和谷歌学术搜索结果的相关性和精确度。直接检测评估了每个搜索引擎的前10个搜索结果，对比如下：在基础搜索模式下（Lumina Base），Lumina搜索结果的相关性比谷歌学术高4.8倍，比Semantic Scholar高8倍，评估基于生成的约2...……更多

2024-08-19 09:34:00学术,相关性,已获,投资,搜索,搜索

菲尔兹奖得主亲测GPT-4o，经典过河难题破解失败！最强Cl

...的智商相去甚远，但把它们放在极端的测试中不会很好地评估它们。还有人劝诫道，朋友们，现在辞职太早了。加大难度：100、1000只鸡如何？为了得到较大的比率，Gowers这次给出了100只鸡过河的问题。这里虽没有放出具体的解...……更多

2024-07-01 08:58:00菲尔,得主,难题,经典,农夫,模型

昆仑万维发布开源13B高质量商用大模型领先Llama2和B

...集之一。除此之外，Skywork-13B系列还公开了模型中使用的评估方法、数据配比研究和训练基础设施调优方案等。希望这些开源内容能够进一步启发社区对于大型模型预训练的认知，并推动人工智能通用智能（AGI）的实现。五大特...……更多

2023-10-30 15:35:00万维,昆仑,商用,高质量,模型,领先

挑战Scaling Law，Meta发布移动端350M小模型

...选择了即时块间层共享（immediate block-wise sharing，图6b）。评估实验作者构建了125M和350M参数的MobileLLM/MobileLLM-LS模型，并在1T的数据集上进行训练。预训练后的模型在多个数据集上进行零样本测试，包括ARC-easy、ARCchalle……更多

2024-07-23 09:39:00模型,性能,移动,模型,参数,架构

初创公司推出全球首个ai软件工程师devin

...技术：只需阅读文档，Devin就能快速掌握不熟悉的工具和框架。开发端到端应用：构建并部署功能齐全的网络应用程序，根据用户反馈逐步增加功能。自动化查找BUG：Devin擅长识别、调试和修复代码问题，同时为开源和生产级软...……更多

2024-03-13 10:52:00工程师,工程,全球,公司,软件,工程

富国基金旗下富国长期成长掌舵人谢家乐的投资之旅

...到想要买的标的或行业景气度。具体而言，谢家乐的投研框架，可以通过以下四张图来展示。一、投资理念：遵循价值顺应周期遵循价值，评估价值中枢和安全边际、价值变化的时点、量级和速率。顺应周期，分析周期嵌套，...……更多

2024-11-26 14:48:00富国,谢家,掌舵人,旗下,之旅,基金

北大林宙辰团队全新混合序列建模架构MixCon：性能远超Ma

...为单独令牌。模型架构图如下所示：三、MixCon 的实验与评估实施细节选择特定配置适应单块 80GB A800 NVIDIA GPU 的计算能力，实现质量和吞吐量的优化。序列由 4 个 MixCon 块组成，每个 MixCon 块含 8 层 L = 8，注意力层和 Conba 层比例...……更多

2024-10-16 13:34:00序列,架构,北大,混合,团队,性能

RAG没有银弹！四级难度，最新综述覆盖数据集、解决方案，教你

...容易出错，主要难点在于开发出高效准确的检索机制。3. 评估困难：如果评估RAG系统的性能，特别是组件级别的性能，是一项复杂的任务，需要开发出能够准确评估数据检索和响应生成质量的指标。由于RAG已经算是一个相对成熟...……更多

2024-11-22 09:54:00银弹,数据,姿势,难度,解决方案,方案

谷歌CEO皮查伊深度解析谷歌史上最强大模型Gemini及即将

...你会想尽一切办法让它快速发展。但你肯定需要社会制定框架来适应，无论是深度造假还是取代工作等等。这将成为一个前沿领域，与气候变化没有什么不同。这将是我们所有人在未来十年努力解决的最大问题之一。问：另一个...……更多

2023-12-07 17:28:00人工智能,人工,深度,模型,智能,时代

限定120分钟科研挑战，o1和Claude表现超越人类

...。事情是这样的——人类 VS AI科研能力大比拼，也有新的评估基准了。代号“RE-Bench”，由非营利研究机构METR推出，目的是搞清：当前AI智能体在自动化科研方面有多接近人类专家水平。注意看，一声令下之后，AI和50多位人类专...……更多

2024-11-26 09:46:00科研,人类,人类,专家,任务,评估

企业数据治理现状与神策数据解决方案全面解析

...么是数据治理数据治理是一个组织内部管理和使用数据的框架和实践的集合。它涉及到数据的创建、存储、访问、共享、保护和销毁等多个方面。数据治理的主要目的是确保数据的质量、可用性、一致性、安全性和合规性。数据...……更多

2024-08-23 11:04:00数据,现状,解决方案,方案,企业,数据

从未见过现实世界数据，MIT在虚拟环境中训练出机器狗，能跑酷

...一小部分使用 3D 高斯泼溅来模拟创建的真实世界场景中评估学习到的控制器性能。这些基准环境的示例如下图 9 所示。此外，研究者进行了以下基线比较：需要特权地形数据（障碍）的专家策略；使用相同 pipeline 训练的深度学...……更多

2024-11-19 09:50:00从未,现实,机器,训练,环境,数据

文本图格式大一统！首个大规模文本边基准TEG-DB发布 |

...了TEGs研究的标准化流程，涵盖数据预处理、加载和模型评估等关键阶段。3. 研究人员进行了广泛的基准实验，并对基于TEGs的方法进行了全面分析，深入探讨了不同模型及不同规模pre-trained language models（PLMs）生成的嵌入的效果、...……更多

2024-11-09 13:34:00大规,本图,基准,大规模,文本,格式

谷歌「诚意之作」，开源9B、27B版Gemma2，主打高效、

... 2允许开发者和研究人员共享和商业化创新成果。广泛的框架兼容性：Gemma 2兼容主要的AI框架，如Hugging Face Transformers，以及通过Keras 3.0、vLLM、Gemma.cpp、Llama.cpp和Ollama原生支持的JAX、PyTorch和TensorFl……更多

2024-06-29 09:37:00诚意,经济,模型,训练,性能,注意力