• 我的订阅
  • 头条热搜
微软连发3款Phi-3.5模型:128K上下文,首用MoE架构,部分性能超GPT-4o mini
...Phi-3.5,适合在内存和算力受限的环境中运行,均支持128k上下文长度。Phi-3.5-mini-instruct主要面向基础快速推理任务,Phi-3.5-MoE-instruct可胜任复杂推理任务,Phi-3.5-vision-instruct则兼具文本与视觉能力。性能最强大的Phi-3……更多
GPT-4劲敌,谷歌进入高能+高产模式
...内的大模型而言,只有Minimax采用了MoE架构。二、扩容的上下文窗口意味着什么?虽然Gemini 1.5 Pro是 Gemini 1.5 系列的初代版本,但初代便表现不俗。扩大上下文窗口后的高水平性能是Gemini 1.5 Pro的一大亮点。多模态大模型卷到今日...……更多
AMD MI300绝杀英伟达H100?跑GPT-4性能超25%,AI芯片大决战一触即发
...希望一举打破英伟达的垄断地位。而AMD的MI300,在部署32K上下文窗口的GPT-4模型时,居然比H100效果更好?AI芯片大决战,即将来临!AI硬件开发商初创公司的未来会怎样?Tenstorrent CEO David Bennett直言不讳地表示,在我们这个行业,...……更多
北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba
...层,相比 Mamba 可将 KV 缓存减少 32 倍。例如,在 256K 令牌上下文环境中,MixCon 仍能保持较小的 KV 缓存优势(如表 1 所示)。在吞吐量方面,处理长序列时,Conba 层计算效率更高,增加其比例可提高整体吞吐量。基本配置单位是 ...……更多
林达华谈大模型发展之路:未来会有更高效的模型结构出现
大模型的上下文长度快速增长,超长上下文解锁新应用,但推理计算代价高昂,上下文本身对于信息不会进行压缩,不能直接捕捉其中的深层知识和规律。上海人工智能实验室领军科学家林达华。过去一年,人工智能领域风起...……更多
微软宣布Team Copilot发布,年内将推出初步预览版
...此类新功能构建的Copilot现在可以利用内存和知识来获取上下文信息、推理操作和输入、根据用户反馈进行学习并在遇到不知道如何处理的情况时寻求帮助,从而独立管理复杂、长期运行的业务流程。AzureAIStudio现已支持提供GPT-4oA...……更多
OpenAI掀小模型血战!苹果DCLM强势登场,碾压Mistral 7B全开源
...T的DCLM,DCLM-7B模型又进一步过滤出其中的2.5T用于训练。 上下文长度为2048,小于Mistral 7B和Gemma 2 9B的8k长度。性能方面,作者直接使用评估套件LLM Foundry,测试了模型在53个基准任务上的分数。与其他模型进行比较时,除了MMLU分...……更多
挑战Scaling Law,Meta发布移动端350M小模型MobileLLM,性能比肩7B LLaMA-v2
...层的参数占到了相当大的比例。比如,125M模型中要使用上下文长度32k、维度512的编码,输入和输出编码层就包含了16M的参数,占比达到20%。相较之下,大模型的编码层参数量显得微不足道。比如LLaMA-7B中,这个比例就下降到了3.7...……更多
Mamba再次挑战霸主Transformer!首个通用Mamba开源大模型一鸣惊人
...有效地捕获其关系。这种通过比较文本中每个token来理解上下文的方式,需要更多的计算能力和内存来处理不断增长的上下文窗口。如果资源没有相应扩展,推理速度会变慢,最终无法处理超过某个固定长度的文本。为了解决这...……更多
王小川公布最新大模型,号称全球最长上下文,是GPT-4的14倍|钛媒体焦点
...模型公司“百川智能”宣布,推出Baichuan2-192K大模型,其上下文窗口长度高达192K,能够处理约35万个汉字。百川智能称,Baichuan2-192K是目前全球最长的上下文窗口,也是目前支持长上下文窗口最优秀大模型Claude2(支持100K上下文窗...……更多
OpenCity大模型预测交通路况,零样本下表现出色,来自港大百度
...任务中展现了广泛的适用性。模型只需快速微调就能适应上下文,可以无缝部署在各种场景中。 可扩展性:OpenCity展示了有希望的缩放定律,表明该模型有潜力在最小的额外训练或微调需求下有效地扩展和适应新的、以前未见过...……更多
非Transformer架构站起来了!首个纯无注意力大模型,超越Llama 3.1
...每个单词(或 token)与文本中的每个单词进行比较来理解上下文,它需要更多的计算能力和内存需求来处理不断增长的上下文窗口。但是如果不相应地扩展计算资源,模型推理速度就会变慢,超过一定长度的文本就没法处理了。...……更多
零一万物大模型Yi-34B夺得全球开源评测“双料冠军”,已在阿里云魔搭开源
...代码能力和数学能力专项的继续训练模型。全球最长200K上下文窗口Yi-34B模型将发布全球最长、可支持200K超上下文窗口(contextwindow)版本,可以处理约40万汉字超文本输入。上下文窗口是大模型综合运算能力的金指标之一,对于理...……更多
微软一夜干翻苹果Mac!GPT-4o装进全家桶,微软把全世界PC都AI了
...工作信息,开不完的会议。而现在,通过Recall,提供几句上下文,就可以迅速找到桌面上任何内容。比如寻找自己与好友Renat乘车旅行的照片,在搜索栏中,给出提示,Recall便会提供相匹配的结果。不仅仅是电脑的文件,包括你...……更多
AGI一日要闻:台积电预测2040年GPU芯片性能提升1000倍;Scale估值高达130亿美金
...k。如今,马斯克更新到Grok 1.5模型。新一代模型实现了长上下文理解和高级推理能力,计划将在未来几天内向早期测试人员和 X 平台(前 Twitter)上的现有 Grok 用户提供。具体来说,首先,Grok-1.5 最明显的改进之一是其在代码和...……更多
infini-attention:谷歌大内存机制
谷歌大改Transformer,“无限”长度上下文来了。现在,1B大模型上下文长度可扩展到1M(100万token,大约相当于10部小说),并能完成Passkey检索任务。8B大模型在500K上下文长度的书籍摘要任务中,拿下最新SOTA。这就是谷歌最新提...……更多
AI大模型行业报告:大模型发展迈入爆发期,开启AI新纪元(附下载)
...以带来大幅的模型性能提升。同时,GPT-3论文正式提出“上下文学习”,建立了以提示学习方法为基础技术路线的任务求解范式。ChatGPT:一举成为现象级应用,引入RLHF算法改进训练数据GPT系列模型的技术演变(ChatGPT):在GPT-3...……更多
本周AI不得了!OpenAI的Sora“模拟世界”、Gemini 1.5“10M上下文”、Mistral的开源新贵同日出现
...质量令人着迷。总结:谷歌可能找到了某种新方法,将长上下文的架构理念与他们的 TPU 计算堆栈相结合,并取得了很好的效果。据 Gemini 长语境的负责人之一Pranav Shyam说,这个想法几个月前才刚刚萌芽。如果以小版本(v1.5)而...……更多
谷歌「诚意之作」,开源9B、27B版Gemma2,主打高效、经济!
...发者提供了前段时间在I/O大会上官宣的Gemini 1.5 Pro的200万上下文窗口访问权限、Gemini API的代码执行功能,并在Google AI Studio中添加了Gemma 2。在最新的博客中,谷歌宣布向所有开发者开放了Gemini 1.5 Pro的200万token上下文窗口访……更多
马斯克打脸OpenAI!全球最大模型Grok-1开源
...antization) 最大序列长度为8,192个数据单元,以处理更长的上下文信息纽约时报点评道,开源Gork背后的原始代码,是这个世界上最富有的人控制AI未来战斗的升级。Meta CEO扎克伯格刚刚也对Grok做出了评价:“并没有给人留下真正深...……更多
开源社区分水岭:Meta大模型Llama 3发布,参数最高或达4000亿
...ama 3已经开放了80亿(8B)和700亿(70B)两个小参数版本,上下文窗口为8k。Meta表示,通过使用更高质量的训练数据和指令微调,Llama 3比前代Llama 2有了“显著提升”。未来,Meta将推出Llama 3的更大参数版本,其将拥有超过4000亿参...……更多
高通甩两大芯片王炸!AI大模型联手腾讯智谱,小米15抢首发,荣耀剧透新机
...重头戏之一,其新的Hexagon NPU支持了端侧多模态,支持4k上下文窗口。值得一提的是,高通在发布会上宣布了跟腾讯混元和智谱的合作,腾讯混元大模型7B和3B版本、智谱的GLM-4V端侧视觉大模型都会在搭载骁龙8 Elite的手机上落地。...……更多
全面叫板OpenAI!谷歌发布多模态大模型全家桶:从AI助手到文生视频模型
...将具备多步骤推理能力。来源:谷歌谷歌的Gemini以超长的上下文窗口而出名。在大会上,谷歌重点强调了大模型Gemini 1.5 Pro的多模态和长文本能力,为其推出一系列更新。谷歌将向全球150多个国家地区的Gemini Advanced订阅者提供最...……更多
OpenAI史诗级更新!最强大模型炸场,128K上下文、价格暴降2/3
...大方面更新重点值得关注和思考。1、GPT-4 Turbo:支持128k上下文,相当于300页文档,输入价格大降2/3,速率限制翻倍,知识更新到2023年4月,改进指令跟随和JSON Mode,更新多个函数调用能力。这意味着比GPT-4更强、更便宜、开发成...……更多
微软开源 OmniParser 纯视觉 GUI 智能体:让 GPT-4V秒懂屏幕截图
...当前屏幕解析技术中的空白。该工具并不需要依赖额外的上下文数据,可以理解更复杂的图形用户界面(GUI),是智能 GUI 自动化领域的一项令人兴奋的进展。 OmniParser 结合可交互区域检测模型、图标描述模型和 OCR 模块等,不...……更多
支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频
现在,长上下文视觉语言模型(VLM)有了新的全栈解决方案 ——LongVILA,它集系统、模型训练与数据集开发于一体。现阶段,将模型的多模态理解与长上下文能力相结合是非常重要的,支持更多模态的基础模型可以接受更灵活...……更多
鄂维南院士领衔新作:大模型不止有RAG、参数存储,还有第3种记忆
...LM 中,显式记忆是继隐式记忆(模型参数)和工作记忆(上下文键值)之后的第三种记忆形式。 具体而言,本文引入了一种新的记忆格式,即显式记忆,其特点是写入成本和读取成本相对较低。如图 1 所示,模型首先将知识库...……更多
微软终于对win11右键纠错了,修复右键菜单性能问题
...的改动最受不了的应该就是右键了,win11是大改了,改成上下文层叠式的,很多选项需要第二次点击才会出现,整体体验让人很不爽。上下文菜单是微软win11系统的一项核心改进,但是改了之后它会导致性能下降,部分硬件上点...……更多
Mamba作者新作:将Llama3蒸馏成混合线性 RNN
...nsformer 的模型关注与输入序列相关的部分,实现了更好的上下文理解。然而,注意力机制的缺点是计算开销大,会随输入规模而二次增长,Transformer 也因此难以处理非常长的文本。前段时间,Mamba 的出现打破了这一局面,它可以...……更多
无一大模型及格! 北大/通研院提出超难基准,评估长文本理解生成
...据集:LooGLE,专门用于测试和评估大语言模型(LLMs)长上下文理解能力。该数据集既能够评估LLMs对长文本的处理和检索能力,又可以评估其对文本长程依赖的建模和理解能力。结果不评不知道,一评估发现这些模型在复杂的长...……更多
更多关于科技的资讯:
理想MEGA高速跑123km/h车主被扣12分罚200:或因错误识别
快科技12月25日消息,通常而言,在限速120km/h的高速路上,开小型客车如果超速在10%以内通常不会面临罚款或扣分
2024-12-25 18:06:00
《黄仁勋:英伟达之芯》作者:他内心仍把自己当中国人
快科技12月25日消息,近日腾讯科技采访了《黄仁勋:英伟达之芯》一书的作者斯蒂芬·威特,其中探讨了英伟达创始人黄仁勋的个人品质及其与企业文化的关系
2024-12-25 18:06:00
你去玩吗!日本面向中国公民新设10年旅游签:可停留天数延长至30天
12月25日消息,据报道,日本外相岩屋毅于12月25日在访问北京期间,表示针对中国公民签证的放宽措施。具体包括设立有效期10年的旅游签证
2024-12-25 18:06:00
变废为宝!全球最大甲酸钙装置投产
快科技12月25日消息,据报道,全球单套规模最大的甲酸钙生产装置日前在山东顺利开车投产。该装置为钢厂尾气高值化利用制甲酸钙装置
2024-12-25 18:06:00
《白雪公主》真人电影新剧照:邪恶皇后照魔镜
近日迪士尼《白雪公主》真人电影新剧照曝光,邪恶皇后出现在魔镜前。还有张剧照中,白雪公主和男主角乔纳森牵手。该片由瑞秋·泽格勒(《饥饿游戏
2024-12-25 18:06:00
男子为省停车费网购假车牌 结果行拘20天、罚款6000元
快科技12月25日消息,安徽警方今日披露了一起使用网购假号牌省停车费的案例。据介绍,近日,芜湖无为交警在开展日常路面整治工作中
2024-12-25 18:06:00
一箭11星!力箭一号冲击中国航天2024最后一发 淘宝88VIP冠名
12月25日,中科宇航官方宣布,力箭一号遥六运载火箭即将执行一箭11星发射任务,命名为“淘宝88VIP探索号”,并公布了任务徽章
2024-12-25 18:06:00
飞机上哪个座位最安全:后排中间
快科技12月25日消息,今日,阿塞拜疆航空公司的一架Embraer 190型飞机在哈萨克斯坦阿克套机场降落时与地面相撞
2024-12-25 18:36:00
九州风神推出FL12R系列机箱反叶风扇:配备36颗第二代ARGB灯珠
快科技12月25日消息,据报道,九州风神宣布推出FL12R系列机箱反叶风扇,提供了黑色和白色版本。售价139元起。FL12R机箱反叶风扇搭载了36颗第二代ARGB灯珠
2024-12-25 18:36:00
脑洞大开!小伙研发冬季防静电装置:我给自己接了跟地线
快科技12月25日消息,近日,一小伙自主研发了一个防静电装置的视频在网络走红。视频中,起因是小伙天天被静电电的哇哇叫,于是他脑洞大开
2024-12-25 18:36:00
柔宇资产二拍降价2.5亿又流拍!每月维护费用都要500万
快科技12月25日消息,柔宇显示公司资产12.3亿元起拍流拍后,又进行了降价二拍,起拍价仅9.8亿,目前已经结束,再次流拍
2024-12-25 18:36:00
全国统一心理援助热线:12356即将开通
内心烦恼,无人倾诉?现在好了,你可以直接拨打“12356”,咨询心理健康的相关知识,自有人替你排忧解难。据国家卫生健康委
2024-12-25 18:36:00
贵州首次!南航在黔开启空客A320飞机拆解工作
“吊起来,慢一点……好,放下……”2024年12月24日,南航贵州飞机维修厂(以下简称“维修厂”)机库内,一架空客A320飞机的拆解工作正在逐项有序开展
2024-12-25 22:44:00
突破行业局限,东郊到家如何打通健康与科技的无缝连接?
随着科技的不断进步和人们对健康关注度的提高,传统按摩行业正面临着新的挑战与机遇。如何将健康服务与现代科技结合,突破行业固有局限
2024-12-25 22:46:00
网友意外钓到“水老虎”:能吃的不像话 同类都不放过
最近在江西省,有位幸运的钓友成功钓起了一条大鱼,目测大概有七公斤半。从视频中看,这条鱼有着巨大且较尖的头部,上半身呈灰色
2024-12-25 18:36:00