• 我的订阅
  • 头条热搜
高能技巧!60 行 NumPy 代码 从头实现一个 GPT
...,一名工程师 Jay Mody 在一篇文章汇总将用 60 行 NumPy 代码从头实现一个 GPT。并把 GPT-2 模型权重加载到实现中,从而生成文本。原文链接:https://jaykmody.com/blog/gpt-from-scratch/作者 |Jay Mody译者| 禾木木出品 ……更多
还在人工炼丹?自动提示工程指南来了,还带从头实现
...了自动提示词工程的概念、原理和工作流程,并通过代码从头实现了这一方法。自动提示词工程是什么?自动提示词工程(APE)是指自动生成和优化 LLM 提示词的技术,目标是提升模型在特定任务上的性能。其基于提示词工程的...……更多
PyTorch官宣:告别CUDA,GPU推理迎来Triton加速新时代
...调试器和性能分析工具组成的工具链,,帮助开发者优化代码简而言之,CUDA使GPU加速LLM训练变为现实,大幅缩短了训练时间。100%的Triton内核Pytorch最近发表了一篇技术博客,他们以两个模型——Llama3-8B和IBM的Granite-8B Code为例,100...……更多
以假乱真,天工音乐大模型带来颠覆式AI体验
...性能提升,其模型技术知识能力提升超过20%,数学/推理/代码/文创能力提升超过30%。同时,「天工3.0」新增了搜索增强、研究模式、调用代码及绘制图表、多次调用联网搜索等能力,并针对性地训练了模型的Agent能力,使得「天...……更多
2022生成模型进展有多快,新论文盘点9类生成模型代表作
...atGPT一个,光是基于文本输入的就有7种——图像、视频、代码、3D模型、音频、文本、科学知识……尤其2022年,效果好的AI生成模型层出不穷,又以OpenAI、Meta、DeepMind和谷歌等为核心,发了不少达到SOTA的模型。这不,立刻有学者...……更多
史上最快AI芯片「Sohu」,速度10倍于B200,哈佛辍学生打造
... GPU 和 TPU 上,软件是一场噩梦。处理任意 CUDA 和 PyTorch 代码需要极其复杂的编译器。第三方 AI 芯片(如 AMD、Intel、AWS 等)在软件上总共花费了数十亿美元,但收效甚微。而 Sohu 只运行 transformer,因此只需要为 transformer 编写……更多
商汤升级“日日新5.0”大模型,对标GPT-4Turbo
...窗口达200K左右。本次更新主要增强知识、数学、推理及代码能力,全面对标GPT-4 Turbo。在文科能力方面,“日日新5.0”的创意写作能力、推理能力及总结能力均有提升,相同的中文知识注入后,可获得更好的理解总结及问答,为...……更多
微软开源爆火1bit大模型推理框架!千亿参数模型量化后单CPU可跑
...Net b1.58将每个参数仅用三元值表示,但是所有这些都需要从头开始训练模型,并不是谁都有预算来进行LLM预训练。而Huggingface Transformers最近整合了BitNet b1.58,运用了一些技巧,使得现有模型可以直接微调到1.58bit。感兴趣的童鞋...……更多
比LoRA更高效!上交大&哈佛推出新微调框架,瞄准特定任务方向
...的潜力,提出新的高效微调方法LoRA-Dash。来看具体内容。从头搭建特定任务方向的框架随着大型语言模型的发展,针对特定任务微调模型往往需要大量计算资源。为了解决这一问题,参数高效微调(PEFT)策略应运而生,像LoRA等...……更多
微调大模型,AMD MI300X就够了!跟着这篇博客微调Llama 3.1 405B
...8 张 AMD MI300X GPU 和 JAX 微调 LLaMA 3.1 405B 模型的方法,所有代码现已开源。Github 链接:https://github.com/felafax/felafax 机器之心对博客内容进行了不改变原意的编译、整理,以下是博客内容:JAX 尤其适合非英伟……更多
Token化一切,甚至网络!北大&谷歌&马普所提出TokenFormer
...size 的 scaling。Scaling model 是通常改变模型结构,往往需要从头训练整个模型,带来了过多的资源消耗,使其越来越不切实际。在本文中,研究团队使用 token 这一概念建模所有的计算,即将 model parameters 也视为一种 token,网络的...……更多
万字技术干货!LLM工程师必读量化指南,可视化图解揭秘大模型如何压缩
...十亿个值,从而尽可能减少存储参数所需的空间。让我们从头开始,探索数值是如何表示的,然后再进行优化。如何表示数值数值存储的形式通常是浮点数(floting point number,或简称为floats):一个带有小数点的正数或负数。这...……更多
3D大模型助力,15分钟即可训练高质量、个性化的数字人模型
...界主流的个性化精品数字人通常属于在单个目标人数据上从头训练的小模型,虽然这种小模型能够有效地学到说话人的外表和说话风格,这种做法存在低训练效率、低样本效率、低鲁棒性的问题。相比之下,近年来许多工作专注...……更多
...已支持一半以上蚂蚁工程师的日常开发工作,他们提交的代码中10%由AI生成。 ……更多
GPT-4不仅性能更强也更贵了:单次输出7.5万单词需6美元,是此前的30倍
...个深度学习堆栈,并与微软Azure云平台一起为其工作负载从头开始共同设计了一台超级计算机。一年前,OpenAI训练GPT-3.5作为系统的第一次“试运行”,发现并修复了一些错误并改进了其理论基础。结果GPT-4训练运行前所未有地稳...……更多
3天把Llama训成Mamba,性能不降,推理更快!
...了整个模型的推理速度。为什么要把Llama变成Mamba?因为从头开始训练一个大模型太贵了。Mamba也火了这么长时间了,相关的研究每天都有,但自己训练大尺寸Mamba模型的却很少。目前比较有名的是AI21的Jamba(进化到了1.5版本,最...……更多
商汤科技sensetime推出“云端边”全栈大模型体系
...200K左右。本次更新主要聚集增强了知识、数学、推理及代码能力,全面对标GPT-4Turbo,主流客观评测上达到或超越GPT-4Turbo。在文科能力方面,“日日新5.0”的创意写作能力、推理能力以及总结能力均大幅提升,相同的中文知识注...……更多
Transformer打破三十年数学猜想!Meta研究者用AI给出反例,算法杀手攻克数学难题
...新的训练集上微调Transformer。请注意,每次迭代都不需要从头开始训练。通过再进行5次循环,模型很快学会只生成完整的二分图,而且这些二分图中的大多数都具有相等的两部分大小,见图4。可以直观地发现,随着迭代的代数...……更多
旷视开源的AI人像视频生成太炸了!输入照片即可模仿任意表情包
...的开源数据集,配合开源代码,使得感兴趣的从业者可以从头开始完整复现这些令人惊艳的效果。为了完全复刻原始视频的表情和动作,MegActor 采用了原始图像进行驱动,这与多数厂商使用 sketch、pose、landmark 的中间表示皆然不...……更多
工程师解读GPT-4:基于草图10秒内生成代码令人惊艳,或将优先挑战AI行业从业者
...的指令。“最惊艳的是它通过一张网页草图在10秒内生成代码”与此前的GPT系列模型相比,GPT-4最大的突破之一是在文本之外还能够处理图像内容。OpenAI表示,用户同时输入文本和图像的情况下,它能够生成自然语言和代码等文...……更多
GPU训Llama 3.1疯狂崩溃,竟有大厂用CPU服务器跑千亿参数大模型?
...源2.0」在通用服务器上跑起来了!面对用Java编写程序的代码任务,「源2.0」非常迅速地给出了结果。再给它上一道推理题——船边挂着软梯,离海面2米,海水每小时涨半米,几小时海水能淹没软梯? 同样,AI几乎0延迟给出了...……更多
...动正式告一段落。在过去的一周里,DeepSeek每天开源一个代码库,堪称公开了一个“技术全家桶”。业内人士分析,这一系列的技术组件看似独立,实则共同构建成了一套精密协同的系统,让DeepSeek在有限算力之下最大程度地“...……更多
chatgpt的“越狱”技巧:用死亡威胁使其回答违禁问题
...人工智能可以回答各种问题,无论是历史事实还是计算机代码,令人们眼花缭乱,并引发了一波人工智能投资潮。现在,有用户似乎找到了利用ChatGPT黑暗一面的方法,通过强制手段迫使其违反自己的规则,回答一些违禁问题。Ch...……更多
00后华裔小哥哈佛辍学组团挑战英伟达,史上最快AI芯片Sohu推理性能超H100二十倍!
...U和还是TPU上,软件都是一场噩梦。处理任意的CUDA和PyTorch代码,需要的编译器极其复杂。为此,AMD、英特尔、AWS这些第三方AI芯片,都在软件上投入了数十亿,但效果依然不佳。这里,Sohu的好处就体现出来了——因为它只运行Tra...……更多
1890美元,就能从头训练一个还不错的12亿参数扩散模型
...。现阶段,视觉生成模型擅长创建逼真的视觉内容,然而从头开始训练这些模型的成本和工作量仍然很高。比如 Stable Diffusion 2.1 花费了 200000 个 A100 GPU 小时。即使研究者使用最先进的方法,也需要在 8×H100 GPU 上训练一个多月的...……更多
上交大推出“可进化游戏引擎”!虚拟世界演化无需预设
...引擎结合,能够被被特定的条件触发,自动地成长出新的代码。选择宝可梦题材做实验,是因为团队中大部分成员都是宝可梦粉丝,目前相关论文已上传ArXiv平台。「失控玩家」走进现实研究团队用电影《失控玩家》中的主人公 ...……更多
探秘IOT领域中神奇的“状态机”
...性,以避免重复编写相似的状态机模型,提高开发效率和代码质量。具有较好的可维护性和可扩展性,以方便后期的升级和维护。安全需求能够保护IOT设备的数据安全和隐私安全,避免因状态机模型漏洞而导致的数据泄露和攻击...……更多
腾讯混元大模型批量上新:10秒生成AI图像,超过180个腾讯业务接入 | 最前线
...数据。而最近一个多月,混元大模型能力提升比较大的在代码能力以及数据推理,效果较此前有20%的提升。并且,对话上下文窗口,也从原来的4K,中小模型可以长至16K。而第三季度,可以说是国内大模型领域的关键节点——包...……更多
...确。同时,它还附上了正确做法。聚集增强数学、推理及代码能力商汤生成式AI产品系列的突破性表现,得益于其最新发布的日日新5.0版本大模型。记者了解到,自去年4月首次发布,商汤“日日新SenseNova”大模型体系已正式推出...……更多
HuggingFace工程师亲授:如何在Transformer中实现最好的位置编码
...了一个单独的向量来表示绝对位置,并使用一些三角函数技巧来编码相对位置。 当我们试图理解这些句子时,这个单词是这篇博文的第 2149 个单词重要吗?还是我们关心它与周围单词的关系?一个单词的绝对位置对其意义来说...……更多
更多关于科技的资讯:
vivo智能戒指专利公布:能自动定位最佳动脉监测点
快科技4月12日消息,近日,vivo公司获得了一项智能戒指专利,通过传感器能够自动寻找到最佳的动脉监测点。专利文件显示
2025-04-12 18:20:00
网友体验REDMI K80一碰秒传功能:手机PC互联秒速搞定
快科技4月12日消息,有博主发视频分享了REDMI K80的一秒碰传功能,仅需将K80碰一碰REDMI Book触控板
2025-04-12 18:50:00
水中大熊猫 超22万尾子二代中华鲟放归长江
快科技4月12日消息,“2025年中华鲟增殖放流活动”今天在宜昌、荆州两地同步举行,超22万尾子二代中华鲟放归长江。该活动由三峡集团联合湖北省农业农村厅举办
2025-04-12 18:50:00
关税提高别怕 东方甄选启动“外贸优品入驻”专项行动
快科技4月12日消息,东方甄选今日发布公告称,即日起正式启动“外贸优品入驻”专项行动,让更多优质外贸产品走进直播间,服务国内消费者
2025-04-12 18:50:00
江西定南:设备更新助力民营企业降本增效
本文转自:人民网-江西频道赣州市定南县的一家新材料有限公司智能制造车间内,机器人手臂在来回循环作业,工人忙着加工光伏玻璃面板
2025-04-12 18:56:00
在人工智能技术加速革新、数字经济与实体经济深度融合的背景下,4月11日,山西转型综改示范区入区企业山西数据流量谷发布全省第一家AI应用服务平台
2025-04-12 19:11:00
京东进军外卖遭美团高管炮轰!刘强东回应:不打口水仗 产生不了社会价值
快科技4月12日消息,针对美团核心本地商业CEO王莆中的吐槽,刘强东也是第一时间回应。王莆中在社交媒体上发文,谈到京东入局外卖赛道一事
2025-04-12 19:20:00
“一盘货”助力出口转内销,鲁商集团开启“国货直通车”
齐鲁晚报·齐鲁壹点记者 张頔 孙佳琪 尹睿在全球贸易形势风云变幻的当下,“出口转内销”正成为我国经济领域的一个关键议题
2025-04-12 19:43:00
荣耀平板GT真机照泄露:经典大LOGO设计再现
快科技4月12日消息,荣耀GT系列即将迎来一款新款平板,从曝光的信息来看,这款平板在外观设计上延续了荣耀GT系列风格。据悉
2025-04-12 19:50:00
理想第一款车型你见过吗 车长2.5米 车内前排只有一个驾驶座
快科技4月12日消息,理想汽车现在的上街率极高,普遍是理想L系和ONE车型,车身又大又宽,但你见过理想首款车型吗?车身尺寸MINI到可能出乎你的意料
2025-04-12 19:50:00
洞察高敏人群隔音之痛,皇派门窗416隔音日品牌发布会即将开启
据生态环境部《中国噪声污染防治报告(2024)》显示,2023年全国受理的噪声投诉举报案件约570.6万件,比上年增加120
2025-04-12 20:04:00
演算光线的偏折,《张朝阳的物理课》走进天文馆讲解光的运动方程
正值广义相对论诞生110周年之际,《张朝阳的物理课》来到科普基地北京天文馆,讲解光线偏折角这一广义相对论重要的实验验证
2025-04-12 20:11:00
全球首发天玑9400!vivo Pad5 Pro跑分曝光:顶配16GB内存
快科技4月12日消息,vivo旗下旗舰平板vivo Pad5 Pro(型号PA2573)现身GeekBench跑分库,以单核2721分
2025-04-12 20:20:00
酷狗音乐发布蝰蛇AI音质:比黑胶唱片更清晰
快科技4月12日消息,酷狗音乐与联发科合作,正式发布蝰蛇音质AI超分音频引擎。官方介绍称,蝰蛇音质的创新之处在于构建了"物理重建+轻量计算"的双引擎架构
2025-04-12 20:50:00
碰撞瞬间座椅自动回调 气囊千人千面!广汽智驾安全上了四把保险
快科技4月12日消息,广汽集团今日晚间举办“2025广汽科技日 暨昊铂HL上市发布会”。会上,广汽介绍,虽然当前智驾功能可大幅降低事故率
2025-04-12 20:50:00