• 我的订阅
  • 头条热搜
高能技巧!60 行 NumPy 代码 从头实现一个 GPT
...,一名工程师 Jay Mody 在一篇文章汇总将用 60 行 NumPy 代码从头实现一个 GPT。并把 GPT-2 模型权重加载到实现中,从而生成文本。原文链接:https://jaykmody.com/blog/gpt-from-scratch/作者 |Jay Mody译者| 禾木木出品 ……更多
PyTorch官宣:告别CUDA,GPU推理迎来Triton加速新时代
...调试器和性能分析工具组成的工具链,,帮助开发者优化代码简而言之,CUDA使GPU加速LLM训练变为现实,大幅缩短了训练时间。100%的Triton内核Pytorch最近发表了一篇技术博客,他们以两个模型——Llama3-8B和IBM的Granite-8B Code为例,100...……更多
还在人工炼丹?自动提示工程指南来了,还带从头实现
...了自动提示词工程的概念、原理和工作流程,并通过代码从头实现了这一方法。自动提示词工程是什么?自动提示词工程(APE)是指自动生成和优化 LLM 提示词的技术,目标是提升模型在特定任务上的性能。其基于提示词工程的...……更多
以假乱真,天工音乐大模型带来颠覆式AI体验
...性能提升,其模型技术知识能力提升超过20%,数学/推理/代码/文创能力提升超过30%。同时,「天工3.0」新增了搜索增强、研究模式、调用代码及绘制图表、多次调用联网搜索等能力,并针对性地训练了模型的Agent能力,使得「天...……更多
2022生成模型进展有多快,新论文盘点9类生成模型代表作
...atGPT一个,光是基于文本输入的就有7种——图像、视频、代码、3D模型、音频、文本、科学知识……尤其2022年,效果好的AI生成模型层出不穷,又以OpenAI、Meta、DeepMind和谷歌等为核心,发了不少达到SOTA的模型。这不,立刻有学者...……更多
史上最快AI芯片「Sohu」,速度10倍于B200,哈佛辍学生打造
... GPU 和 TPU 上,软件是一场噩梦。处理任意 CUDA 和 PyTorch 代码需要极其复杂的编译器。第三方 AI 芯片(如 AMD、Intel、AWS 等)在软件上总共花费了数十亿美元,但收效甚微。而 Sohu 只运行 transformer,因此只需要为 transformer 编写……更多
商汤升级“日日新5.0”大模型,对标GPT-4Turbo
...窗口达200K左右。本次更新主要增强知识、数学、推理及代码能力,全面对标GPT-4 Turbo。在文科能力方面,“日日新5.0”的创意写作能力、推理能力及总结能力均有提升,相同的中文知识注入后,可获得更好的理解总结及问答,为...……更多
微软开源爆火1bit大模型推理框架!千亿参数模型量化后单CPU可跑
...Net b1.58将每个参数仅用三元值表示,但是所有这些都需要从头开始训练模型,并不是谁都有预算来进行LLM预训练。而Huggingface Transformers最近整合了BitNet b1.58,运用了一些技巧,使得现有模型可以直接微调到1.58bit。感兴趣的童鞋...……更多
比LoRA更高效!上交大&哈佛推出新微调框架,瞄准特定任务方向
...的潜力,提出新的高效微调方法LoRA-Dash。来看具体内容。从头搭建特定任务方向的框架随着大型语言模型的发展,针对特定任务微调模型往往需要大量计算资源。为了解决这一问题,参数高效微调(PEFT)策略应运而生,像LoRA等...……更多
微调大模型,AMD MI300X就够了!跟着这篇博客微调Llama 3.1 405B
...8 张 AMD MI300X GPU 和 JAX 微调 LLaMA 3.1 405B 模型的方法,所有代码现已开源。Github 链接:https://github.com/felafax/felafax 机器之心对博客内容进行了不改变原意的编译、整理,以下是博客内容:JAX 尤其适合非英伟……更多
万字技术干货!LLM工程师必读量化指南,可视化图解揭秘大模型如何压缩
...十亿个值,从而尽可能减少存储参数所需的空间。让我们从头开始,探索数值是如何表示的,然后再进行优化。如何表示数值数值存储的形式通常是浮点数(floting point number,或简称为floats):一个带有小数点的正数或负数。这...……更多
...已支持一半以上蚂蚁工程师的日常开发工作,他们提交的代码中10%由AI生成。 ……更多
GPT-4不仅性能更强也更贵了:单次输出7.5万单词需6美元,是此前的30倍
...个深度学习堆栈,并与微软Azure云平台一起为其工作负载从头开始共同设计了一台超级计算机。一年前,OpenAI训练GPT-3.5作为系统的第一次“试运行”,发现并修复了一些错误并改进了其理论基础。结果GPT-4训练运行前所未有地稳...……更多
3天把Llama训成Mamba,性能不降,推理更快!
...了整个模型的推理速度。为什么要把Llama变成Mamba?因为从头开始训练一个大模型太贵了。Mamba也火了这么长时间了,相关的研究每天都有,但自己训练大尺寸Mamba模型的却很少。目前比较有名的是AI21的Jamba(进化到了1.5版本,最...……更多
商汤科技sensetime推出“云端边”全栈大模型体系
...200K左右。本次更新主要聚集增强了知识、数学、推理及代码能力,全面对标GPT-4Turbo,主流客观评测上达到或超越GPT-4Turbo。在文科能力方面,“日日新5.0”的创意写作能力、推理能力以及总结能力均大幅提升,相同的中文知识注...……更多
旷视开源的AI人像视频生成太炸了!输入照片即可模仿任意表情包
...的开源数据集,配合开源代码,使得感兴趣的从业者可以从头开始完整复现这些令人惊艳的效果。为了完全复刻原始视频的表情和动作,MegActor 采用了原始图像进行驱动,这与多数厂商使用 sketch、pose、landmark 的中间表示皆然不...……更多
工程师解读GPT-4:基于草图10秒内生成代码令人惊艳,或将优先挑战AI行业从业者
...的指令。“最惊艳的是它通过一张网页草图在10秒内生成代码”与此前的GPT系列模型相比,GPT-4最大的突破之一是在文本之外还能够处理图像内容。OpenAI表示,用户同时输入文本和图像的情况下,它能够生成自然语言和代码等文...……更多
科大讯飞入局大模型混战,刘庆峰:10月底将赶超ChatGPT
...文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力以及多模态能力。“这将对整个人类的生产和生活方式带来巨大的颠覆,产生全新的机会。”“认知大模型成为通用人工智能的曙光,科大讯飞有信心实现智能涌...……更多
GPU训Llama 3.1疯狂崩溃,竟有大厂用CPU服务器跑千亿参数大模型?
...源2.0」在通用服务器上跑起来了!面对用Java编写程序的代码任务,「源2.0」非常迅速地给出了结果。再给它上一道推理题——船边挂着软梯,离海面2米,海水每小时涨半米,几小时海水能淹没软梯? 同样,AI几乎0延迟给出了...……更多
chatgpt的“越狱”技巧:用死亡威胁使其回答违禁问题
...人工智能可以回答各种问题,无论是历史事实还是计算机代码,令人们眼花缭乱,并引发了一波人工智能投资潮。现在,有用户似乎找到了利用ChatGPT黑暗一面的方法,通过强制手段迫使其违反自己的规则,回答一些违禁问题。Ch...……更多
腾讯混元大模型批量上新:10秒生成AI图像,超过180个腾讯业务接入 | 最前线
...数据。而最近一个多月,混元大模型能力提升比较大的在代码能力以及数据推理,效果较此前有20%的提升。并且,对话上下文窗口,也从原来的4K,中小模型可以长至16K。而第三季度,可以说是国内大模型领域的关键节点——包...……更多
探秘IOT领域中神奇的“状态机”
...性,以避免重复编写相似的状态机模型,提高开发效率和代码质量。具有较好的可维护性和可扩展性,以方便后期的升级和维护。安全需求能够保护IOT设备的数据安全和隐私安全,避免因状态机模型漏洞而导致的数据泄露和攻击...……更多
00后华裔小哥哈佛辍学组团挑战英伟达,史上最快AI芯片Sohu推理性能超H100二十倍!
...U和还是TPU上,软件都是一场噩梦。处理任意的CUDA和PyTorch代码,需要的编译器极其复杂。为此,AMD、英特尔、AWS这些第三方AI芯片,都在软件上投入了数十亿,但效果依然不佳。这里,Sohu的好处就体现出来了——因为它只运行Tra...……更多
上交大推出“可进化游戏引擎”!虚拟世界演化无需预设
...引擎结合,能够被被特定的条件触发,自动地成长出新的代码。选择宝可梦题材做实验,是因为团队中大部分成员都是宝可梦粉丝,目前相关论文已上传ArXiv平台。「失控玩家」走进现实研究团队用电影《失控玩家》中的主人公 ...……更多
...确。同时,它还附上了正确做法。聚集增强数学、推理及代码能力商汤生成式AI产品系列的突破性表现,得益于其最新发布的日日新5.0版本大模型。记者了解到,自去年4月首次发布,商汤“日日新SenseNova”大模型体系已正式推出...……更多
1890美元,就能从头训练一个还不错的12亿参数扩散模型
...。现阶段,视觉生成模型擅长创建逼真的视觉内容,然而从头开始训练这些模型的成本和工作量仍然很高。比如 Stable Diffusion 2.1 花费了 200000 个 A100 GPU 小时。即使研究者使用最先进的方法,也需要在 8×H100 GPU 上训练一个多月的...……更多
一行代码训练成本再降30%,AI大模型混合精度训练再升级
...流的BF16(O2) + FP8(O1)的新一代混合精度训练方案。仅需一行代码,即可对主流LLM模型能够获得平均30%的加速效果,降低相应大模型开发成本,并保证训练收敛性。无需引入额外的手写CUDA算子,避免了较长的AOT编译时间和复杂的编...……更多
OpenAI“断供”,谁才是最大赢家
...DiT模型已部署到Hugging Face官方模型库Diffusers中,仅用三行代码即可调用,无须下载原始代码库,大大降低了使用门槛。开源仅一个月,腾讯混元在开源社区Github Star数(关注数)达到2400个,高居社区热门DiT模型前列。如腾讯公司...……更多
进迭时空宣布开源RISC-V芯片的AI核心技术
...研RISC-VAICPU上的核心技术,包括AI扩展指令和全部AI软件栈代码,助力RISC-V生态建设。为了RISC-V开发者们便捷使用这些AI代码,进迭时空正在做代码整理,预计最晚将在今年Q4季度开源所有AI软件栈代码。“我们将开源我们在AI上的...……更多
科大讯飞背上抄袭OpenAI的骂名,冤吗?
...然语言处理科研领域是很常见的的做法:“高校不可能都从头开始训练”。对企业来说也是如此,目前互联网公司和AI公司都在大模型上较劲,晚推出一个月,都有可能影响自己的股价。既然GPT1和GPT2和已经开源,那么在已有的...……更多
更多关于科技的资讯:
釜山国际艺术节开幕,70个国家艺术家参与
2024年10月30日,备受瞩目的韩国釜山国际艺术节(BusanInternationalArtFestival,简称BIAF)在釜山广域市厅展厅盛大开幕
2024-11-01 10:45:00
大江东|走近科学大咖⑥莱维特:探索边界,“像个7岁孩子一样提问”
本文转自:人民日报大江东-复旦融媒体创新工作室 张蓓玫 许子睿 陈方迪 赵鲁哲 季觉苏与迈克尔·莱维特(Michael Levitt)的采访是提前40分钟才敲定的
2024-11-01 10:51:00
大江东丨走近科学大咖⑤迈克尔·I·乔丹:我一直在追随“下一步是什么”
本文转自:人民日报大江东-复旦融媒体创新工作室 刘畅 朱寿富 刘唱 陆柳10月25日下午5时许,采访间的大门缓缓打开,所有人的目光立刻聚焦在了一个身影上——“机器学习之父”
2024-11-01 10:51:00
Souq平台介绍——中东电商的崛起与发展
随着全球电子商务的蓬勃发展,各种在线购物平台如雨后春笋般涌现。在中东地区,Souq以其独特的市场定位和创新的商业模式,成为中东领先的电商平台
2024-11-01 10:53:00
借助个人IP的力量:李俊瑶(小渔)如何推动初寻品牌的招商战略
近年来,随着零售的兴起,品牌的招商战略正在发生深刻的变化。传统渠道招商模式逐渐被灵活和多样化方式所取代。尤其是个人IP的崛起
2024-11-01 10:59:00
第84届中国教装展举办 海亮科技特邀专家共享行业实践
10月25至27日,第84届中国教育装备展示会在昆明滇池国际会展中心举办。海亮科技集团展示三大场景创新方案与全矩阵产品成为焦点
2024-11-01 11:00:00
面板大厂群创4.5亿元出售南京工厂:2400名员工资遣、转职
快科技11月1日消息,中国台湾面板大厂群创日前发布公告,其子公司南京群志光电已将位于南京市江宁区的不动产及使用权资产出售
2024-11-01 11:04:00
森马休闲百搭圆领卫衣清仓!2件仅59元
森马休闲舒适百搭圆领卫衣平时要卖150元,今日下单2件,再领取191元大额优惠券,叠加满减,2件到手价仅59元。产品规格
2024-11-01 11:04:00
大差价速囤!认养一头牛纯奶/低脂奶3箱到手69.9元
天猫认养一头牛旗舰店,认养一头牛酸奶/纯奶/低脂奶3箱日常标价100.9元,今日可领取20优惠券,叠加满减优惠,到手69
2024-11-01 11:04:00
苹果M4 Pro跑分出炉:单核拳打M3 Max 多核脚踢M2 Ultra
快科技11月1日消息,日前,苹果M4 Pro芯片发布,采用第二代3nm工艺制程,性能号称超越AI PC芯片。目前,苹果M4 Pro的跑分已在Geekbench 6平台现身
2024-11-01 11:04:00
曝蔚来第三品牌将用增程动力!蔚来总裁秦力洪回应:仍为纯电路线
快科技11月1日消息,据财联社报道,针对今日有关“蔚来第三品牌将采用混合动力 产品有望2026年面世”的报道,蔚来汽车总裁秦力洪回应称
2024-11-01 11:04:00
差点没破万 智己汽车10月销量出炉:全系卖了10001台
快科技11月1日消息,智己汽车发布了10月的最新“成绩单”,当月全系销售10001台,堪堪破万,作为对比,智己去年同期销量为4018台
2024-11-01 11:04:00
上海:1批次“纽曼”投影仪不合格 或干扰其他电子产品
近期,上海市市场监督管理局对本市生产、销售的投影机产品质量进行了监督抽查。本次抽查了30批次产品。经检验,不合格1批次
2024-11-01 11:10:00
小米全新米家中央空调pro开启预售,可选两款配置
10月31日消息,小米全新米家中央空调风管机Pro今日开启预售,可选1.5匹、3匹两款配置,到手价分别为 4999元、6999元
2024-11-01 11:15:00
华为家庭存储,解决手机聊天记录全量备份问题
在如今这个信息化时代,每个人每天都在产生大量的数据,手机就是这些数据的重要“原产地”。而其中,手机App中的各种数据,可以说占据了很大一部分比例
2024-11-01 11:25:00