• 我的订阅
  • 头条热搜
史上最严中文真实性评估:OpenAI o1第1豆包第2,其它全部不及格
...易于评估”五个特性,用于评估语言模型回答简短问题的真实性能力。研究人员表示,中文简短问答能够指导开发者更好地理解其模型的中文真实性能力,并促进基础模型的发展。人工智能发展中的一个重大挑战是确保语言模型...……更多
智源评测体系发布 国内外“百模”评估结果出炉
...指标无法完全捕捉模型生成的质量,更无法对生成视频的真实性、图文语义一致性等进行量化。因此,需要系统化构建针对文生视频模型的主观评价体系。该评价体系,由智源研究院与中国传媒大学基于双方在大模型评测领域和...……更多
豆包学会“写字”了!秒出海报漫画表情包,运营神器get
豆包支持在图片里面直接生成中文了。国内首家!我们火速上手试玩了一波,效果真的很不错。先来自制一张抽象表情包:或者设计一张迎接圣诞节的面包店海报:还有社交媒体运营经常需要的横版封面图:和竖版封面图:类...……更多
字节开源全栈AI编程基准,不小心曝光豆包代码大模型
豆包代码大模型,不小心给曝光了!在字节开源的代码大模型评估基准FullStack Bench里面,出现了此前字节未披露过的Doubao-Coder。不过目前还只是Preview版,还并没有上线。它在多种编程语言上的性能表现如下,可以看到在闭源模...……更多
...容,阿里通义千问、百度文心一言、腾讯混元、字节跳动豆包、书生·浦语等20款国产大模型出战,角逐中国大模型“最强王者”。当下,“百模大战”厮杀正酣,各类榜单也层出不穷,其中国际开放研究组织LMSYS Org(Large Model Sy...……更多
全面透视豆包:功能、版本、价格、优势、应用
本文将深入探讨豆包的功能特点、应用场景、费用结构以及企业应用优势和注意事项,帮助读者全面了解并合理利用这一AI工具,提升个人和企业的效率与竞争力。一、豆包介绍豆包是字节跳动公司基于云雀模型开发的 AI 工具...……更多
AI大模型参加高考 GPT-4o文科成绩最好 理科普遍不行
...以562分排名文科总分第一。国内产品中,字节跳动旗下的豆包拔得头筹,成绩是542.5分。根据介绍,本次大模型高考评测与河南省考卷完全相同,而河南高考录取分数线显示,文科本科一批录取分数线为521分,豆包等三款国产AI...……更多
GPT-4撞上文心一言,百度压力骤增:多模态和中文能力受关注,或多种方式落地
...演示,其“看图说话”的能力毫不逊色。在此前被诟病的真实性、准确性、不会做数学和物理题等方面,GPT-4也通过训练和调校得到了一定程度的改善。即将发布的文心一言,基于百度拥有2600亿参数的文心大模型打造,其参数规...……更多
谁是苹果AI的“中国合伙人”?
...在大模型一途上搞得有声有色。以字节跳动为例,旗下的豆包大模型,在MMLU、BBH、GSM8K、HumanEval、DROP、CMMLU、CEval等11个业界主流的公开评测集上,是同期整体得分最高的国产模型。另外,豆包大模型也为小米、荣耀和OPPO提供大...……更多
Sora概念盘中拉升,字节跳动或将与OpenAI短兵相接
...4日,字节跳动旗下火山引擎在深圳举办AI创新巡展,发布豆包视频生成-PixelDance、豆包视频生成-Seaweed两款大模型,面向企业市场开启邀测。火山引擎总裁谭待表示,“视频生成有很多难关亟待突破。豆包两款模型会持续演进,...……更多
借助大模型能力,晓多科技智能客服的效率与服务双提升
...多科技不仅自研“晓模型 XPT”,还携手火山引擎,依托豆包大模型,进一步提升“AI 训练场”与“全渠道智能知识库”的智能化,全面升级智能客服能力。成都晓多科技有限公司成立于 2014 年,是以智能对话为核心的认知智能 S...……更多
媲美OpenAI事实性基准,这个中文评测集让o1-preview刚刚及格
...MLU 和 C-Eval 等选择题形式的评测集。为了进一步同步推进中文社区对模型事实正确性的研究,淘天集团算法技术 - 未来生活实验室团队提出了Chinese SimpleQA,这是第一个系统性地全面评估模型回答简短事实性问题能力的中文评测...……更多
昆仑万维发布开源13B高质量商用大模型 领先Llama2和Baichuan2
...k-13B系列,并配套开源了600GB、150B Tokens的超大高质量开源中文数据集。昆仑万维「天工」Skywork-13B系列目前包括130亿参数的两大模型:Skywork-13B-Base模型、Skywork-13B-Math模型,它们在CEVAL, GSM8K等多个权威评测与基准测试……更多
AI出图更快、更懂你心意,高美感文生图模型修炼了哪些技术秘籍?
...员持之以恒的付出。第六期的《AIGC体验派》就邀请到了豆包文生图技术专家李亮、NVIDIA 解决方案架构师赵一嘉,为我们深入剖析了文生图模型出图更美、更快、更懂用户心意背后的技术链路。直播开始,李亮首先详细拆解了近...……更多
火山引擎丢出视频大模型「王炸」,云厂商从「价格战」回归「卷性能」
...下火山引擎在深圳举办 AI 创新巡展,一举发布了包括「豆包视频生成大模型」「音乐生成大模型」在内的多款模型。在此之前,海内外不少现象级的同类模型产品相继发布,包括字节跳动相继发布的即梦、海绵音乐,和剪映(...……更多
GPT-4就是冲着赚钱来的!
...问题,经过多次迭代和改进后,它在 OpenAI 的内部对抗性真实性评估中得分比最新的 GPT-3.5 模型高 40%。对此,笔者利用ChatGPT Plus的GPT-4通道对“胡编乱造”的问题进行了一个“小测验”。尝试向GPT-4提出了几个类似“林黛玉倒拔...……更多
Mac装上字节豆包 艾玛!一下变AI PC了
万万没想到,Mac变成AI PC,原来就差了一个豆包电脑版。例如想要在B站上学习科技新进展,现在的打开方式是这样的——在豆包电脑版里,用AI看视频:将近15分钟的视频,“啪的一下”,各种重点内容全部给你总结好了:当然...……更多
中文大模型最新评测出炉:腾讯混元国内第一!
快科技8月5日消息,在最新发布的中文多模态大模型SuperCLUE-V基准评测中,腾讯混元大模型获国内排名第一,稳居卓越领导者象限。此次评测聚焦于大模型理解复杂现实世界的关键能力,即多模态理解,俗称“图生文”。多模态...……更多
11项指标击败GPT-4o!360攒局让16家大模型联手作战
...成写作类任务的时候,AI助手就会给我们分配擅长文案的豆包。遇到编程问题,就会召唤代码能力较强的DeepSeek。以逻辑推理为主的问题,可能会让智谱来应对。当然界面中所展示的任务分类比较具有概括性,实际运行过程中AI助...……更多
重磅|标贝科技非平衡专业语料上线 助推GPT大模型技术应用落地
...资源。而摆在“中国ChatGPT”面前的问题,首当其中就是中文语料库的不足。当前GPT大模型主流数据集和评估基准多以英文为主,缺少中文特点、文化,难以满足关键行业应用选型和优化的实际需求,这就会造成所训练的模型对...……更多
估值一年翻17倍,巨头创企疯狂涌入,AI搜索火爆了
...利润率或高达80%。下一步,如何重塑搜索模式的可靠度、真实性以及商业化,将成为AI搜索引擎新的课题。 ……更多
腾讯元宝“上桌”,AI助手之争再起波澜
...的“AI问书”已经在用户群体中引发了热议。无论是抖音豆包、文心一言还是天工、Kimi,短时间内都很难追赶微信读书数百万正版图书的内容生态,这一高质量语料库,也将助力混元大模型深化专业知识能力。如今,全面接入微...……更多
商汤商量获SuperCLUE 9月评测总榜和子榜两项第一,AI智能体方向受瞩目
...月评测总榜和子榜两项第一,AI智能体方向受瞩目 近日,中文通用大模型综合性评测基准SuperCLUE发布9月总排行榜和各个分类任务榜单,商汤商量SenseChat 3.0 位列中文大模型总榜排名第一。在新增的AI Agent(AI智能体)子榜中,Sense...……更多
B站AI课几秒出总结,划词就给解释,这个「AI学习搭子」真香
...多了?这就是我们最近发现的一个学习、工作神器 ——豆包电脑版。有了它,机器之心编辑部读论文、学东西的效率蹭蹭往上提,关键它还免费,都不用找主编报销。 接下来,就来揭秘一下这款提效神器是怎么帮我们学习 AI ...……更多
奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?
...性能表现。研究团队发现大多数模型在英语上的准确度比中文要高,这种差距在排名靠前的模型中尤为显著。推测可能有以下几个原因: 尽管这些模型包含了大量中文训练数据并且具有跨语言泛化能力,但它们的训练数据主要...……更多
年轻人的「AI自由」,是它给的
...,人类即将再痛失一大阵地!搜索方面,信息的准确性、真实性也至关重要,我们又用热点新闻进行测试。 只用在几秒钟,豆包就完成了新闻事件检索。总结里,热点事件的时间、地点、人物、亮点、原因等要素整理,非常详...……更多
大模型价格“卷”至新低,带来哪些影响?
...度全部跟进。大模型价格“卷”至新低5月15日,字节跳动豆包大模型率先发起降价攻势,宣布主流大模型在企业市场的定价为0.0008元/千Tokens,0.8厘就能处理1500多个汉字,比行业便宜99.3%。这样折合下来,1元钱就能买到125万Tokens...……更多
科大讯飞、阿里云、腾讯打价格战,大模型厂商“卷”起来
...全面免费。5月15日,在火山引擎原动力大会上,字节跳动豆包大模型发布,火山引擎总裁谭待表示,豆包主力模型在企业市场的定价为0.0008元/千tokens,即0.8厘就能处理1500多个汉字。事实上,“卷”起来的不止国产大模型,国外...……更多
OpenAI推出生成式模型Sora,内容创作领域开启新纪元
...内容与现实之间的界限变得越来越模糊,如何确保内容的真实性和透明性成为了一个重要问题。此外,版权、隐私和数据安全等问题也需要得到妥善解决。社会必须面对这些挑战,通过制定相关政策、法律和伦理准则来确保技术...……更多
指令跟随大比拼!Meta发布多轮多语言基准Multi-IF:覆盖8种语言,超4500种任务
...,包含了4501个三轮对话的多语言指令任务,覆盖英语、中文、法语、俄语等八种语言,以全面测试模型在多轮、跨语言场景下的指令执行能力。论文链接:https://arxiv.org/abs/2410.15553Multi-IF下载链接:https://huggingface.co/datasets……更多
更多关于科技的资讯:
舞侠online,双旦活动已经开启
随着2024年步入尾声,2025年的钟声即将敲响,《舞侠online》盛大开启了一系列精彩纷呈的双旦活动,从2024年12月20日-2025年1月5日
2024-12-26 14:45:00
“智7未来 开启智能时代”渤海银行手机银行7.0版焕新发布
2024年12月26日,渤海银行股份有限公司(以下简称“渤海银行”)在“智7未来,开启智能时代”主题发布会上正式推出手机银行7
2024-12-26 15:05:00
海外媒体发稿:解锁环球邮报发稿密码|提升国际公信力
环球邮报:国际传播的有力杠杆《环球邮报》作为加拿大最具影响力的全国性报纸之一,有着深厚的历史底蕴和广泛的受众基础。其创刊于1844年
2024-12-26 15:13:00
政企补贴钜惠来袭,净水器十大品牌之一的立升领跑净水升级潮
近些年,随着国家大力推行“以旧换新”政策,消费者在升级家电产品时得以享受到更多的补贴与优惠,而此举也带动了绿色消费和家电更新换代的浪潮
2024-12-26 15:15:00
《诛仙世界》:2024游戏行业技术革新的一个样本
2024年,中国游戏产业实际销售收入达到3257.83亿元,同比增长7.53%,再创新高。再次逆势而上的中国游戏产业,总值超过三千亿的市场蛋糕
2024-12-26 15:39:00
山东移动临沂分公司完成2024临沂冬季汽车博览会通信保障
鲁网12月26日讯近日,临沂国际会展中心成功举办了2024临沂冬季汽车博览会,此次盛会不仅为汽车行业搭建了展示最新科技与产品的平台
2024-12-26 15:43:00
国风硬核新武侠 《斗笠江湖》让人无法拒绝的N个理由
近日,肖战版的《射雕英雄传》即将在新年档上映引发热议,作为近年来鲜有的纯正武侠电影作品,而且还是由新生代明星扮演“郭靖”这一重磅级角色
2024-12-26 15:45:00
本文转自:人民网12月26日,我国首个国家级海上风电研究与试验检测基地(以下简称“海上风电试验基地”)传动链平台在福建建成投运
2024-12-26 15:51:00
本文转自:人民网-广西频道近日,广西交投科技有限公司党委(以下简称“广西交投科技党委”)在开展领导干部集体谈话时,强调要持续提升廉洁监督信息化水平
2024-12-26 15:56:00
通讯员:杨红亚、闫鹏近日,第二届能源电子产业创新大赛之重点终端应用赛道的颁奖仪式在广州黄埔隆重举办。平高集团提交的三个项目在参与决赛的126个作品中表现卓越
2024-12-26 16:09:00
在当下,跨境电商行业呈现出一片蓬勃发展、日益繁荣的景象,而VAT(增值税)申报已然成为每一家跨境企业都无法回避且必须妥善应对的关键问题
2024-12-26 16:15:00
新质币专家交流研讨会圆满举行:探索数字货币新机遇与技术挑战
近日,新质币专家交流研讨会吸引了来自金融、科技、区块链等多个领域的专家学者和行业代表,共同探讨新质币时代的技术创新与行业前景
2024-12-26 16:22:00
在数字化转型的浪潮中,5G技术与工业的深度融合正为工业领域带来前所未有的变革。泰安联通基于5G网络和边缘计算技术的创新产品——5G智慧监管平台
2024-12-26 16:38:00
加装电梯攻略:避开这些“坑”,省心又省钱
随着老旧小区改造的推进,加装电梯成为了许多居民改善居住条件的热门选择。然而,加装电梯过程中隐藏着不少“坑”,稍不留神就可能造成不必要的经济损失
2024-12-26 16:38:00
加装电梯,细节决定成败——你不可忽视的五大细节
在老旧小区加装电梯的热潮中,许多居民对于如何顺利推进项目感到困惑。加装电梯不仅仅是添置一部机器那么简单,其中的细节决定着整个项目的成败
2024-12-26 16:39:00