• 我的订阅
  • 头条热搜
容联云入选IDC生成式AI图谱,多个案例被评典型应用
...的上线效果。AIGC方面的尝试基于pre-training大模型的自动语料扩展、小样本数据训练、分布式机器学习、强化学习,利用模型能力的数据聚类、智能纠错、主题抽取、知识图谱、文档生成等很多智能化任务的研究。在智能化应用...……更多
北大字节VAR最佳论文、厦大清华亚军,NeurIPS 2024最佳论文出炉
...的作者首先做出了一个假设:「对于语言模型训练,并非语料库中的所有 token 都同等重要」。然后,他们分析了语言模型的 token 级训练动态,结果发现不同 token 有着不同的损失模式。基于这些见解,他们开发了一种新模型 RHO-1...……更多
Sora爆火,2024年或成中国AI“应用之年”
...文训练集占比较少且质量不高。”韩健表示,高质量训练语料和大规模人工标注成本决定了只有大型机构或领军企业才具备相应大模型开发能力,成长型企业盲目跟风将导致大量投资失败,出现过多泡沫。近日,国务院国资委召...……更多
...,依托国家权威机构,汇聚多模态制造业数据,构建行业语料库,降低预训练门槛,提升大模型的准确性和稳定性。促进制造业数据高效流通,加快数据交易市场建设,培育一批面向制造业大模型的服务商和交易所,有效盘活制...……更多
...共性、公益性数据共同空间,构建面向行业的高质量中文语料数据库,推动典型行业数据汇集、访问、共享、处理和使用。基于隐私计算支撑样本数据流通安全,搭建可信数据标注和模型训练环境。鼓励在依法设立的数据交易机...……更多
...“沙盒”,支持大模型企业、科研机构在安全区域内开展语料训练,确保教育大模型输出的稳定性、合规性和适切性,为教育领域大模型落地应用提供有力的数据支撑。《方案》还提出,将搭建教育领域人工智能大模型测试场。...……更多
厦大教授团队自主研发的思源大模型“霸榜”权威榜单,“优等生”是怎样炼成的?
...通过学习海量的文本来积累知识。思源大模型的预训练的语料达1万亿token,也就是说,它阅读并记住了1万亿字的信息。对于一个普通人而言,一辈子不断阅读,所积累的阅读量也仅有3亿—5亿字。大模型的预训练语料基本覆盖了...……更多
恒生电子:金融大模型技术升级,国内AI芯片危机互现
...力训练难、质量控制难。目前大模型还面临哪些挑战?在语料大数据上,如何做好成本和质量上的平衡?此前,有数据行业人士提出一种方案:在相对垂直的领域,能不能通过提升语料的精度,优化大模型运行所需算力消耗?对...……更多
AI搜索的知乎方案,以专业答主和优质语料减少AI幻觉
...觉成为了用户痛点。对此知乎直答发挥了知乎高质量中文语料的优势,依靠大量专业答主的可信内容给出了社区解决方案。(知乎直答产品负责人 马奎)2024年以来,AI搜索渐成大模型创业的关键词。国外AI搜索引擎Perplexity 受到...……更多
...和数据建设质量。司法大模型:基于海量中文无监督司法语料(法律法规、案件卷宗、判决文书等)的预训练和有监督司法数据的微调,提供法条检索、案件分析、判决推理、法律知识问答等能力。企业知识大模型:利用大模型...……更多
「AI数据荒」雪上加霜!MIT:网页数据的公开共享正走向衰落
...意图的工具存在效率低下的问题。从网络爬取的公开训练语料中,头尾内容的特征存在差异这些语料中有相当高比例的用户生成内容、多模态内容和商业变现内容(俗称带货广告),敏感或露骨内容的比例仅仅略少一些。排名靠...……更多
...建了藏文百科知识、新闻、经济、文化艺术等多领域文本语料40G以上,藏语语音数据15000小时、各类文化资源近2万件,规模达到1600GB,是目前国内外最大的基于国标的大型标注语料库,对中国涉藏地区教育、语言研究以及社会文...……更多
360智脑7b参数模型采用3.4万亿tokens训练
...脑7B(70亿参数模型)。360智脑大模型采用3.4万亿Tokens的语料库训练,以中文、英文、代码为主,开放4K、32K、360K三种不同文本长度。360表示,360K(约50万字)是当前国产开源模型文本长度最长的。360表示,他们在OpenCompass的主流...……更多
NeurIPS 2024 Oral | 小参数,大作为!揭秘非对称 LoRA 架构性能
...存在显著的性能差距,尤其在处理更多样化或异质的训练语料库时,这一差距会进一步扩大。语料库的异质性意味着数据集的多样性,由于内容和风格各异,往往会引入干扰。PEFT 方法对此尤为敏感,在异构情况下性能损失更为...……更多
...基地试点,致力打造集高性能算力设施、高质量人工智能语料库和训练数据集、高价值应用场景为一体的“人工智能+”新质生产力引擎。前期,北京市政务服务和数据管理局组织北京软件和信息服务业协会,遴选出首批14个行业...……更多
人工智能为了游戏获胜会“说谎”
...障大模型的安全。只需要构造一个完全利用违规或违法的语料去构造、训练出这样的小模型,就可以把它放到大模型内部,对它的输入输出进行判断,核心技术是“以模制模”。 ……更多
英伟达最新技术分享:手把手教你用Llama 3.1合成数据改进模型!附代码
...么新变化呢?从「需求端」来看,由于模型需要大量训练语料,合成数据的动机被大大增强。而在「供给端」,生成式语言模型也为合成数据技术带来了质的改变。用合成数据微调基座模型,可以更好地应用于实际场景。例如,...……更多
工业机器人炫技有点酷
...机器人拥有语言理解和文本生成能力,会通过链接大量的语料库来训练模型,这些语料库包含了真实世界中的对话,使得机器人具备上知天文下知地理,还能根据聊天的上下文进行互动的能力,做到与人类几乎无异的聊天场景进...……更多
腾讯钟学丹:人工智能成为汽车行业新质生产力 推动数智化升级
...—混元大模型,达到千亿级参数规模,超2万Tokens预训练语料,是目前国内最大的中文大语言模型之一。前两天,混元团队也带来了最新的图片生成视频模型。基于混元,我们推出了汽车行业大模型,并与十多家车企展开了应用...……更多
...有限公司研发训练的大语言模型,采用1.5万亿Tokens中英文语料进行训练。星辰语义大模型在业界首次提出缓解多轮幻觉的解决方案,通过关键信息注意力增强、知识图谱强化、多轮知识强化、知识溯源能力四大技术,将AI大模型...……更多
全面开源 浪潮信息发布千亿参数基础大模型“源2.0”
...得更高的模型精度和涌现能力;数据方面,降低了互联网语料内容占比,通过使用中英文书籍、百科、论文等资料,结合高效的数据清洗流程,为大模型训练提供了高质量的学科专业数据集和逻辑推理数据集。作为千亿级基础大...……更多
人民中科董事长张丹:用技术为基层减负 运用人工智能“为民服务”
...中科董事长张丹发表主题演讲。主办方供图一是主流价值语料库。针对大模型普遍答不了、答不好的重大、敏感、疑难问题,人民网建设了包括基础语料、重点领域语料、敏感问答语料在内的主流价值语料库,目前已完成12万道...……更多
“唤醒”甲骨文 厦大团队尝试用AI破译古老文字
...史晓东收集了很多古文字资料,之后,他采用大规模古籍语料+人工智能办法,编写了一本异体字字典,收字接近9万字,应该是目前大陆最详尽的异体字字典。在此之前,台湾也有一本异体字字典,100多位语言学家花费十几年编...……更多
B站公布了多项自主研发的AI技术成果和AIGC多元创意
...基座模型,具有19亿非词嵌入参数量,在2.8T中英文为主的语料上预训练,多个评测基准上与同级别模型比处于领先Index-1.9Bpure:基座模型的对照组,与base具有相同的参数和训练策略,不同之处在于过滤了该版本语料中所有指令相...……更多
“保险智能专家”在复旦诞生
...专用大语言模型。基于复旦保险多年沉淀积累的中文保险语料库,通过引入专家知识、构建思维链与LLM数据蒸馏的方式,构建了以保险知识问答、保险知识检索、保险案例分析、保险个性化服务等为基础任务的大语言模型训练数...……更多
标注员:AI狂飙下的“电子民工”
...的标注有很多\'作为人的输出\',人和模型会比较谁写的语料更好,从这角度看标注师更像AI的陪练。”露比补充说,“我们内部都叫同学,也不刻意区分正职和外包。”曼曼并不希望自己的工作被归入传统的数据标注行业,这让...……更多
东方财富董事长其实:建议进一步推动股权投资支持科技创新
...机制。垂直大模型方面,其实建议,加快推动高质量垂类语料数据开放共享,进一步完善垂直大模型评测标准体系,并积极打造垂直大模型创新应用场景。支持链主企业开展早期风险投资其实表示,科技创新作为引领现代化产业...……更多
中新经纬10月18日电 (孙庆阳) “基础大模型多数从通用语料训练生成,通识能力强,可作聊天对话,但缺少行业专业知识,需要大模型提供方与垂直行业合作开发行业大模型。”10月17日,中国工程院院士、原中国互联网协会理...……更多
ChatGPT一周年|炼制大模型芯片短缺数据有限,何以解忧?
...方式是怎么让现实世界中复核和验证的数据源能够参与到语料数据的生产或处理中,在良莠不齐的数据中帮助我们更好把握哪些数据源是更加可信的。比如判断分析师的水平,就是看他的预测跟市场发展的一致性有多高。所以怎...……更多
CMU清华教LLM练成数学高手,LeanSTaR训练模型边思考边证明,登顶新SOTA
...LLM证明定理的能力,你会怎么做?既然模型可以通过海量语料学会生成文本,那如果我们能喂给它足够数量的形式证明数据,定理证明能力自然水到渠成?然而,我们看到的事实是,无论用符号形式还是自然语言,GPT等大模型的...……更多
更多关于科技的资讯:
鸿蒙微信正式版终于发布!腾讯:不到一年走完微信14年的路
快科技1月10日消息,9日晚,鸿蒙原生版微信正式上架华为纯血鸿蒙应用市场,该版本支持视频号、折叠消息转发、群红包、转账
2025-01-10 00:20:00
CES 2025:六大手机厂商缺席 一加和TCL成明星
备受瞩目的CES 2025已在美国拉斯维加斯盛大开幕。作为全球最具影响力的消费电子展会之一,CES吸引了来自世界各地的头部科技企业
2025-01-10 00:20:00
用GPT总结2024年的人 全破防了
2024 年过去了,你有被各种软件的年终总结刷屏吗?有的软件的总结对你来说无关痛痒:来到某鱼的第七年,卖出了 0 元的物品
2025-01-10 00:20:00
试完老板的秘密武器 我觉得年终奖有救了
每每到了年末,有人期盼着年终奖,有人在掰手指等放假,而有的人,却到了被剥层皮的时候。古话说得好,一年之计在于年终汇报。辞旧迎新的一场 “ 职场狂欢 ”
2025-01-10 00:50:00
记账App都这么多了 为啥还有程序员想写
最近世超发现一个现象。就是问大家点外卖、听歌用什么 App ,答案往往就在那几个里面选。可一旦问到 “ 记账用什么 App ”
2025-01-10 00:50:00
苹果副总裁憾别印尼!谈判尾声印尼部长竟重申iPhone 16禁令
苹果与印尼政府的交易在周三出现反转。据知情人士透露,苹果公司全球事务副总裁Nick Amman已经在周三离开印尼,但其余团队成员将继续与当地部门进行谈判
2025-01-10 01:20:00
任天堂Switch 2全新高清渲染图公布:屏幕、手柄更大了!
快科技1月10日消息,日前,科技媒体91mobiles根据已知外观泄露,制作了任天堂Switch 2全新高清渲染图,展示了大量细节
2025-01-10 01:20:00
24.98万起 比亚迪这次想把MPV包圆了
昨天 1 月 8 日,中大型插混 MPV 比亚迪夏正式上市,共有 4 款配置,售价 24.98-30.98 万元,外观大气
2025-01-10 01:20:00
放射诊断技术涵盖X射线、计算机断层扫描(CT)、磁共振成像(MRI)等,是现代医学领域中用于诊断肺部疾病的关键方法之一
2025-01-10 05:07:00
摘要:笔者在幼儿园大班开展实践活动,采用观察、访谈、案例分析等研究方法,深入剖析户外自主游戏中幼儿的行为表现、兴趣倾向
2025-01-10 05:07:00
本文转自:人民日报本报记者  白元琪近年来,新加坡航天产业发展势头强劲,以太空经济为核心的新业态已成为推动经济增长的重要引擎
2025-01-10 06:19:00
美国双头连体人怀孕!腰部以下身体共享 谁才是孩他妈
姐姐艾比和妹妹布列塔尼,是美国最有名的连体双胞胎,她们最大的特点就是:有2个头,但腰部以下是共享的。早年因参加真人秀节目一举成名
2025-01-10 06:50:00
699元起!大疆发布DJI O4 Air Unit系列高清图传:最高可拍4K/120fps
快科技1月10日消息,大疆发布DJI O4 Air Unit系列高清图传,包括DJI O4 Air Unit和DJI O4 Air Unit Pro
2025-01-10 07:20:00
B站大会员服务调整!首次增加使用限制:同一时间最多可登录2台设备
快科技1月10日消息,日前,B站大会员服务协议进行了更新,将于2025年1月16日生效。此次调整主要是新增了三项“使用限制”
2025-01-10 07:50:00
彻底告别刘海、药丸屏!iPhone 18 Pro系列变成单挖孔
快科技1月10日消息,从iPhone 14 Pro开始,苹果引入了灵动岛挖孔,终于开始抛弃刘海屏。其实一直以来,苹果的终极目标就是打造一款完全无开孔的手机
2025-01-10 07:50:00