• 我的订阅
  • 头条热搜
精准狙击Llama 3.1?Mistral AI开源Large 2,123B媲美Llama 405B
...所未有的速度加速,继 Meta 昨天推出其新的开源 Llama 3.1 模型之后,法国 AI 初创公司 Mistral AI 也加入了竞争。刚刚,Mistral AI 宣布其旗舰开源模型的下一代产品:Mistral Large 2,该模型拥有 1230 亿个参数,在代码生成、数学、推理...……更多
迈向多语言医疗大模型:大规模预训练语料,开源模型与全面基准测试
...这是该团队在继 PMC-LLaMA 后,在持续构建开源医疗语言大模型的最新进展。该项目受到科创 2030—“新一代人工智能” 重大项目支持。在医疗领域中,大语言模型已经有了广泛的研究。然而,这些进展主要依赖于英语的基座模型...……更多
指令跟随大比拼!Meta发布多轮多语言基准Multi-IF:覆盖8种语言,超4500种任务
...面揭示了当前LLM在复杂多轮、多语言场景中的挑战。所有模型在多轮对话中表现显著衰减,表现最佳的o1-preview模型在三轮对话的准确率从87.7%下降到70.7%;在非拉丁文字语言上,所有模型的表现显著弱于英语。在大语言模型(LLMs...……更多
文生图参数量升至240亿!Playground v3发布:深度融合LLM,图形设计能力超越人类
【新智元导读】Playground Research推出了新一代文本到图像模型PGv3,具备240亿参数量,采用深度融合的大型语言模型,实现了在图形设计和遵循文本提示指令上甚至超越了人类设计师,同时支持精确的RGB颜色控制和多语言识别。自...……更多
开源大模型新的里程碑!Llama 3.1 模型准时发布
...KER科技7月24日消息,今日凌晨,Meta官方正式发布了Llama3.1模型。本次Llama3.1模型共有三个版本,分别是8B、70B和405B。从基准测试结果来看,超大杯Llama3.1405B与OpenAI的GPT-4o和Claude3.5Sonnet在多个项目上能够媲美。在GSM8K任……更多
87.8%准确率赶超GPT-4o登顶!谷歌DeepMind发布自动评估模型FLAMe
【新智元导读】谷歌DeepMind推出LLM自动评估模型FLAMe系列,FLAMe-RM-24B模型在RewardBench上表现卓越,以87.8%准确率领先GPT-4o。大语言模型都卷起来了,模型越做越大,token越来越多,输出越来越长。那么问题来了,如何有效地评估大...……更多
openai发布多语言大规模多任务语言理解
...言大规模多任务语言理解(MMMLU)数据集。背景随着语言模型日益强大,评估其在不同语言、认知和文化背景下的能力已成为当务之急。OpenAI决定推出MMMLU数据集,通过提供强大的多语言和多任务数据集,来评估大型语言模型(LL...……更多
微软连发3款Phi-3.5模型:128K上下文,首用MoE架构,部分性能超GPT-4o mini
...东西8月21日消息,今天,微软一口气甩出3款超强轻量级模型!微软本次发布的轻量级模型系列名为Phi-3.5,适合在内存和算力受限的环境中运行,均支持128k上下文长度。Phi-3.5-mini-instruct主要面向基础快速推理任务,Phi-3.5-MoE-instru...……更多
全球最强开源大模型Llama 3发布:使用15T数据预训练,最大模型参数将超4000亿
就在刚刚,Meta 发布了其最先进开源大型语言模型的下一代产品——Llama 3。据介绍,Llama 3 在 24K GPU 集群上训练,使用了 15T 的数据,提供了 8B 和 70B 的预训练和指令微调版本,可以支持广泛的应用。同时,Llama 3 在广泛的行业...……更多
谷歌史上最强大模型!Gemini 2.0正式发布
...今天凌晨,谷歌正式发布了为新智能体时代构建的下一代模型——Gemini 2.0。这是谷歌迄今为止功能最强的AI模型,带来了更强的性能、更多的多模态表现(如原生图像和音频输出)和新的原生工具应用。Gemini 2.0关键基准测试中...……更多
GPT-4最强对手出现!Claude-3 AI模型发布
...凌晨Anthropic公司宣布Claude-3正式发布,带有三个高性能的模型形态,并宣布在AI逻辑基准测试中超过了ChatGPT-4。可能国内的小伙伴很少知道Claude,这是一个在海外备受关注且用户基数较大的一个AI模型,其从诞生以来就一直与GPT相...……更多
谷歌推出其最先进AI模型Gemini,希望击败GPT-4
...谷歌公司宣布推出其规模最大、功能最强大的新大型语言模型Gemini,其最强大的TPU(张量处理单元)系统“Cloud TPU v5p”以及来自谷歌云的人工智能超级计算机。v5p是今年早些时候全面推出的Cloud TPU v5e的更新版本,谷歌承诺其速...……更多
阿里大模型,再次开源大放送
阿里大模型,再次开源大放送——发布Qwen1.5版本,直接放出六种尺寸。最大的Qwen1.5-72B-Chat模型,在MT-Bench和Alpaca-Evalv2上,超越Claude-2.1、GPT-3.5-Turbo-0613。甚至在部分任务中,得分已经超过前几个版本的GPT-4。各地的开发者前……更多
LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学
...动创建大量、多样化的合成数据。经过合成数据微调后的模型Orca-3,在多项基准上刷新了SOTA。全世界高质量数据几乎枯竭。AI科学家们为了解决这一难题,可谓是绞尽脑汁。目前来看,合成数据或许就是大模型的未来,也成为业...……更多
代码模型自我进化超越GPT-4o蒸馏!UIUC伯克利等提出自对齐方法 | NIPS 2024
【新智元导读】代码模型可以自己进化,利用自身生成的数据来进行指令调优,效果超越GPT-4o直接蒸馏!LLM作为智能的基座,可以衍生出各种能力。代码能力就是其中一种:程序补全、注释、优化、修bug、测试等等。而想要充...……更多
关于LLM-as-a-judge范式,终于有综述讲明白了
...往无法判断精妙的属性并提供令人满意的结果。大型语言模型 (LLM) 的最新进展启发了 “LLM-as-a-judge” 范式,其中 LLM 被用于在各种任务和应用程序中执行评分、排名或选择。本文对基于 LLM 的判断和评估进行了全面的调查,为推...……更多
史上最严中文真实性评估:OpenAI o1第1豆包第2,其它全部不及格
新的大语言模型(LLM)评估基准对于跟上大语言模型的快速发展至关重要。近日,淘宝天猫集团的研究者们提出了中文简短问答(Chinese SimpleQA),这是首个全面的中文基准,具有“中文、多样性、高质量、静态、易于评估”五...……更多
LLM仍然不能规划,刷屏的OpenAI o1远未达到饱和
实验证明,大模型的 System 2 能力还有待开发。规划行动方案以实现所需状态的能力一直被认为是智能体的核心能力。随着大型语言模型(LLM)的出现,人们对 LLM 是否具有这种规划能力产生了极大的兴趣。最近,OpenAI 发布了 o1 ...……更多
无一大模型及格! 北大/通研院提出超难基准,评估长文本理解生成
在长文本理解能力这块,竟然没有一个大模型及格!北大联合北京通用人工智能研究院提出了一个新基准数据集:LooGLE,专门用于测试和评估大语言模型(LLMs)长上下文理解能力。该数据集既能够评估LLMs对长文本的处理和检索...……更多
RTX 40系GPU AI性能首测
...把玩家输入的语音转化为文字,然后上传至云端的大语言模型给出对应的对话回复,接着在云端把这答复转换为语音回传本地,在本地利用NVIDIAAudio2Face为游戏角色创建脸部表情动画,让嘴型对得上声音,最后通过游戏引擎输出...……更多
AI落地千行百业,存储痛点凸显,浪潮信息如何助力AI向实?
AI时代,存储不仅是数据的栖息之地,更是AI模型训练、落地过程中的坚实底座。在AI开启的存储行业新周期中,众多厂商已将带宽等性能指标卷至新的高度。然而,这种追求似乎将AI这一复杂应用场景简单地“存储化”了。实际...……更多
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
...的关注,但最近浙大、中科院等机构的学者们提出,先进模型在视觉推理方面同样不足。为此他们提出了一种多模态的视觉推理基准,并设计了一种新颖的数据合成方法。无论是语言模型还是视觉模型,似乎都很难完成更抽象层...……更多
CMU&清华:让LLM自己合成数据来学习,特定任务性能同样大幅提升
...赵晨阳,卡内基梅隆大学硕士生贾雪莹。虽然大规模语言模型(LLM)在许多自然语言处理任务中表现优异,但在具体任务中的效果却不尽如人意。为了提升模型在特定自然语言任务上的表现,现有的方法主要依赖于高质量的人工...……更多
GPT-4劲敌,谷歌进入高能+高产模式
...争相拼臂力秀肌肉。Gemini 1.5 Pro的横空出世,将多模态大模型的标准提到了一个新高度。一、极致性能背后的模型架构当地时间2月15日,Alphabet与Google公司首席执行官Sundar Pichai携首席科学家Jeff Dean等众高管在X平台发布了多模态模...……更多
openai更新gpt-4turbo预览模型
1月27日消息,OpenAI近日发布新闻稿,在更新GPT-4Turbo预览模型之外,还下调API调用价格,优化现有模型性能,并发布全新嵌入性模型。OpenAI今天一口气宣布了5个新模型,包括两个文本嵌入模型、升级的GPT-4Turbo预览版和GPT-3.5Turbo...……更多
「世界开源新王」跌落神坛?重测跑分暴跌实锤造假,2人团队光速「滑跪」
...后,开发者们甚至还发现,Reflection可能就是个「套壳」模型,而且还是连套三家的那种(Claude/GPT/Llama)。这下子,Reddit和X等平台上,立刻掀起了质疑的声浪。 左右滑动查看为此,Shumer承诺将和Glaive创始人Sahil Chaudhary一起调查...……更多
OpenAI o1 模型 PlanBench 规划能力实测:准确率 97.8%
...州立大学的科研团队利用 PlanBench 基准,测试了 OpenAI o1 模型的规划能力。研究结果表明 o1 模型取得了长足的进步,但仍然存在很大的局限性。PlanBench 基准简介PlanBench 开发于 2022 年,用于评估人工智能系统的规划能力,包括 600 ...……更多
GPT-4o:“更像人”的人工智能模型
...基准测试,GPT-4o的性能对比GPT-4 Turbo处于优势,对比其他模型更是大幅领先。GPT-4o可通过呼吸来辨别情绪,它甚至可以指导使用者怎么深吸慢呼平复心情,在分析用户喘气声后进行呼吸指导。 GPT-4o响应时间越来越短。它可以在...……更多
什么影响大模型安全?NeurIPS\'24新研究提出大模型越狱攻击新基准
全新大语言模型越狱攻击基准与评估体系来了。来自香港科技大学(Guangzhou)USAIL研究团队,从攻击者和防御者的角度探讨了什么因素会影响大模型的安全。提出攻击分析系统性框架JailTrackBench。JailTrackBench研究重点分析了不同...……更多
PyTorch官宣:告别CUDA,GPU推理迎来Triton加速新时代
...0%的Triton内核Pytorch最近发表了一篇技术博客,他们以两个模型——Llama3-8B和IBM的Granite-8B Code为例,100%使用Triton内核实现了FP16推理。Granite-8B Code是由IBM开发的一种仅限解码器的代码模型,专为代码生成任务设计。仓库地址:……更多
更多关于科技的资讯:
重构交付逻辑,激活产品价值——装库科技副总经理赵世佳解读“团装模式”的时代意义
在“好房产品力峰会暨数字化赋能创新大会”上,装库科技副总经理赵世佳以《重构好房子的交付逻辑,装库团装打造效率与体验兼备的产品交付闭环》为题
2025-07-04 20:30:00
淄博淄川:“智能测评+专业指导” 为求职者“精准画像”“量体裁衣”
鲁网7月4日讯(记者 陈珊珊 通讯员 司芮良 齐秀华)近日,“淄川就业”小程序再添新功能,全面推出“职业素质测评”模块
2025-07-04 21:08:00
淄博市淄川区:“智”造简历 助您打造“求职利器”
鲁网7月4日讯(记者 陈珊珊 通讯员 李玉玺 司书杰)简历是求职的敲门砖,更是求职者的“门面”。它不仅是对个人职业经历
2025-07-04 21:41:00
支易:着力培养“数字工匠”
以人工智能、云计算、区块链等为代表的新一代数字技术,凭借其高创新性、强渗透性和泛时空性,深刻革新了生产工具与生产方式,实现了对经济社会各领域全方位
2025-07-04 21:52:00
烟火经济新引擎!快手直播大舞台遍地开花,打造现象级文旅新爆款
夜幕降临,河北唐山迁安天元谷景区内,泡泡龙大舞台灯光亮起,一场别开生面的文化盛宴准时上演。线上,快手直播间涌入数百万粉丝
2025-07-04 22:10:00
移动5G直播 让樱桃“红”遍全国
近日,又到了樱桃成熟的季节,在东营广饶稻庄的樱桃种植园里,红彤彤的樱桃挂满枝头,果香四溢,果农们迎来了忙碌而喜悦的采摘季
2025-07-04 21:35:00
2025品牌强国论坛在京举行 屈凌霄获邀出席共话品牌新机遇
2025年6月,由中国商报社、中国工业报社联合主办的“2025品牌强国发展高峰论坛暨第八届品牌强国人物大会”在北京国家会议中心顺利举行
2025-07-04 08:23:00
刘众博士荣获“2025年度AI行业杰出人物”称号
2025年,AI时代以迅雷不及掩耳之势来到我们身边,年轻的科技新锐正在以一项项前所未有的创新AI成果改变世界。刘众博士就是其中的一员
2025-07-04 08:24:00
厦门:为低空经济人才插上高飞之翼
集美工业学校学生在调试参赛无人机的尾翼结构件。学生在校内进行无人机飞行训练。厦门网讯(本版文/厦门日报记者 何无痕 本版图/厦门日报记者 林铭鸿)虽然已放暑假
2025-07-04 08:49:00
【多彩新论】别让字典背负不该承受之“累”
近期,《新华字典》第12版中的一些内容引发了争议,像“累”字“孩子小,成了累赘”的造句,“玩”字“戏弄,玩弄女性”的释义等
2025-07-04 17:10:00
与辉同行开新号兰知春序,粉丝量已超27万,董宇辉任公司董事
7月4日,@与辉同行 发文“【兰知春序】抖音账号特别推出《主创请开麦》节目!”据悉,该栏目将以电影为主题,带领观众一起走进电影的世界
2025-07-04 17:39:00
宇树科技入选《时代周刊》2025年\
近日,国际权威媒体《时代周刊》正式发布2025年度"全球100大最具影响力企业"榜单,宇树科技凭借在机器人领域的突破性创新和全球市场影响力成功入选
2025-07-04 17:47:00
触摸数智生活、深度感受元宇宙……2025数博会专业展设置六大展馆提前剧透
据中国国际大数据产业博览会(简称数博会)执委会最新消息,2025数博会专业展将于8月27日在贵阳国际会议展览中心启幕,规划6万平方米展区
2025-07-04 18:04:00
中国民营企业数量庞大,其中绝大多数是中小企业。中小企业已是推动创新、产业升级、促进就业、改善民生和稳定增长的重要力量。截至2025年5月底
2025-07-04 18:12:00
培育壮大十大千亿级产业集群丨湖北长收农业:产品产线双提升 顺利实现“双过半”
十堰广电讯(丹江口融媒记者 周鹏)今年以来,湖北长收农业科技有限公司将传统酱菜工艺与现代科技结合,用科技创新传承老味道
2025-07-04 19:36:00