豆包,中文,真实性,评估,模型,中文头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

史上最严中文真实性评估：OpenAI o1第1豆包第2，其它

...易于评估”五个特性，用于评估语言模型回答简短问题的真实性能力。研究人员表示，中文简短问答能够指导开发者更好地理解其模型的中文真实性能力，并促进基础模型的发展。人工智能发展中的一个重大挑战是确保语言模型...……更多

2024-11-22 09:51:00豆包,中文,真实性,评估,模型,中文

智源评测体系发布国内外“百模”评估结果出炉

...指标无法完全捕捉模型生成的质量，更无法对生成视频的真实性、图文语义一致性等进行量化。因此，需要系统化构建针对文生视频模型的主观评价体系。该评价体系，由智源研究院与中国传媒大学基于双方在大模型评测领域和...……更多

2024-05-17 17:26:00评测,评估,体系,结果,模型,评测

豆包学会“写字”了！秒出海报漫画表情包，运营神器get

豆包支持在图片里面直接生成中文了。国内首家！我们火速上手试玩了一波，效果真的很不错。先来自制一张抽象表情包：或者设计一张迎接圣诞节的面包店海报：还有社交媒体运营经常需要的横版封面图：和竖版封面图：类...……更多

2024-12-09 09:53:00豆包,神器,写字,运营,表情,漫画

字节开源全栈AI编程基准，不小心曝光豆包代码大模型

豆包代码大模型，不小心给曝光了！在字节开源的代码大模型评估基准FullStack Bench里面，出现了此前字节未披露过的Doubao-Coder。不过目前还只是Preview版，还并没有上线。它在多种编程语言上的性能表现如下，可以看到在闭源模...……更多

2024-12-06 09:50:00豆包,基准,字节,模型,编程,代码

20款国产大模型角逐“最强王者”

...容，阿里通义千问、百度文心一言、腾讯混元、字节跳动豆包、书生·浦语等20款国产大模型出战，角逐中国大模型“最强王者”。当下，“百模大战”厮杀正酣，各类榜单也层出不穷，其中国际开放研究组织LMSYS Org（Large Model Sy...……更多

2024-06-02 05:34:00王者,模型,国产,模型,竞技场,评测

全面透视豆包：功能、版本、价格、优势、应用

本文将深入探讨豆包的功能特点、应用场景、费用结构以及企业应用优势和注意事项，帮助读者全面了解并合理利用这一AI工具，提升个人和企业的效率与竞争力。一、豆包介绍豆包是字节跳动公司基于云雀模型开发的 AI 工具...……更多

2024-07-24 14:44:00豆包,优势,版本,功能,应用,价格

AI大模型参加高考 GPT-4o文科成绩最好理科普遍不行

...以562分排名文科总分第一。国内产品中，字节跳动旗下的豆包拔得头筹，成绩是542.5分。根据介绍，本次大模型高考评测与河南省考卷完全相同，而河南高考录取分数线显示，文科本科一批录取分数线为521分，豆包等三款国产AI...……更多

2024-06-27 19:06:00理科,文科,模型,成绩,高考,最好

媲美OpenAI事实性基准，这个中文评测集让o1-previ

...MLU 和 C-Eval 等选择题形式的评测集。为了进一步同步推进中文社区对模型事实正确性的研究，淘天集团算法技术 - 未来生活实验室团队提出了Chinese SimpleQA，这是第一个系统性地全面评估模型回答简短事实性问题能力的中文评测...……更多

2024-11-21 09:43:00事实性,基准,中文,评测,事实,模型

谁是苹果AI的“中国合伙人”？

...在大模型一途上搞得有声有色。以字节跳动为例，旗下的豆包大模型，在MMLU、BBH、GSM8K、HumanEval、DROP、CMMLU、CEval等11个业界主流的公开评测集上，是同期整体得分最高的国产模型。另外，豆包大模型也为小米、荣耀和OPPO提供大...……更多

2024-06-13 09:23:00合伙人,中国,苹果,苹果,模型,讯飞

昆仑万维发布开源13B高质量商用大模型领先Llama2和B

...k-13B系列，并配套开源了600GB、150B Tokens的超大高质量开源中文数据集。昆仑万维「天工」Skywork-13B系列目前包括130亿参数的两大模型：Skywork-13B-Base模型、Skywork-13B-Math模型，它们在CEVAL, GSM8K等多个权威评测与基准测试……更多

2023-10-30 15:35:00万维,昆仑,商用,高质量,模型,领先

Sora概念盘中拉升，字节跳动或将与OpenAI短兵相接

...4日，字节跳动旗下火山引擎在深圳举办AI创新巡展，发布豆包视频生成-PixelDance、豆包视频生成-Seaweed两款大模型，面向企业市场开启邀测。火山引擎总裁谭待表示，“视频生成有很多难关亟待突破。豆包两款模型会持续演进，...……更多

2024-09-26 09:17:00字节,概念,视频,生成,豆包,模型

借助大模型能力，晓多科技智能客服的效率与服务双提升

...多科技不仅自研“晓模型 XPT”，还携手火山引擎，依托豆包大模型，进一步提升“AI 训练场”与“全渠道智能知识库”的智能化，全面升级智能客服能力。成都晓多科技有限公司成立于 2014 年，是以智能对话为核心的认知智能 S...……更多

2024-07-18 14:57:00模型,效率,能力,智能,服务,科技

AI出图更快、更懂你心意，高美感文生图模型修炼了哪些技术秘籍

...员持之以恒的付出。第六期的《AIGC体验派》就邀请到了豆包文生图技术专家李亮、NVIDIA 解决方案架构师赵一嘉，为我们深入剖析了文生图模型出图更美、更快、更懂用户心意背后的技术链路。直播开始，李亮首先详细拆解了近...……更多

2024-08-13 09:39:00文生,出图,美感,秘籍,心意,更快

火山引擎丢出视频大模型「王炸」，云厂商从「价格战」回归「卷性

...下火山引擎在深圳举办 AI 创新巡展，一举发布了包括「豆包视频生成大模型」「音乐生成大模型」在内的多款模型。在此之前，海内外不少现象级的同类模型产品相继发布，包括字节跳动相继发布的即梦、海绵音乐，和剪映（...……更多

2024-09-26 13:33:00价格战,火山,模型,性能,厂商,引擎

Mac装上字节豆包艾玛！一下变AI PC了

万万没想到，Mac变成AI PC，原来就差了一个豆包电脑版。例如想要在B站上学习科技新进展，现在的打开方式是这样的——在豆包电脑版里，用AI看视频：将近15分钟的视频，“啪的一下”，各种重点内容全部给你总结好了：当然...……更多

2024-07-22 16:54:00艾玛,豆包,字节,豆包,搜索,功能

中文大模型最新评测出炉：腾讯混元国内第一！

快科技8月5日消息，在最新发布的中文多模态大模型SuperCLUE-V基准评测中，腾讯混元大模型获国内排名第一，稳居卓越领导者象限。此次评测聚焦于大模型理解复杂现实世界的关键能力，即多模态理解，俗称“图生文”。多模态...……更多

2024-08-05 08:07:00腾讯,中文,模型,评测,模型,模态

11项指标击败GPT-4o！360攒局让16家大模型联手作战

...成写作类任务的时候，AI助手就会给我们分配擅长文案的豆包。遇到编程问题，就会召唤代码能力较强的DeepSeek。以逻辑推理为主的问题，可能会让智谱来应对。当然界面中所展示的任务分类比较具有概括性，实际运行过程中AI助...……更多

2024-08-06 09:27:00作战,模型,指标,模型,助手,厂商

商汤商量获SuperCLUE 9月评测总榜和子榜两项第一，A

...月评测总榜和子榜两项第一，AI智能体方向受瞩目近日，中文通用大模型综合性评测基准SuperCLUE发布9月总排行榜和各个分类任务榜单，商汤商量SenseChat 3.0 位列中文大模型总榜排名第一。在新增的AI Agent（AI智能体）子榜中，Sense...……更多

2023-10-13 14:26:00商汤,评测,方向,智能,模型,商汤

估值一年翻17倍，巨头创企疯狂涌入，AI搜索火爆了

...利润率或高达80%。下一步，如何重塑搜索模式的可靠度、真实性以及商业化，将成为AI搜索引擎新的课题。 ……更多

2024-12-03 12:04:00估值,巨头,火爆,疯狂,搜索,搜索

奥林匹克竞赛里选最聪明的AI：Claude-3.5-Sonn

...性能表现。研究团队发现大多数模型在英语上的准确度比中文要高，这种差距在排名靠前的模型中尤为显著。推测可能有以下几个原因：尽管这些模型包含了大量中文训练数据并且具有跨语言泛化能力，但它们的训练数据主要...……更多

2024-06-25 09:45:00奥林,奥林匹克,竞赛,模型,推理,能力

腾讯元宝“上桌”，AI助手之争再起波澜

...的“AI问书”已经在用户群体中引发了热议。无论是抖音豆包、文心一言还是天工、Kimi，短时间内都很难追赶微信读书数百万正版图书的内容生态，这一高质量语料库，也将助力混元大模型深化专业知识能力。如今，全面接入微...……更多

2024-06-03 16:59:00腾讯,元宝,波澜,助手,腾讯,元宝

OpenAI推出生成式模型Sora，内容创作领域开启新纪元

...内容与现实之间的界限变得越来越模糊，如何确保内容的真实性和透明性成为了一个重要问题。此外，版权、隐私和数据安全等问题也需要得到妥善解决。社会必须面对这些挑战，通过制定相关政策、法律和伦理准则来确保技术...……更多

2024-02-18 23:32:00新纪元,生成,模型,创作,领域,内容

指令跟随大比拼！Meta发布多轮多语言基准Multi-IF：

...，包含了4501个三轮对话的多语言指令任务，覆盖英语、中文、法语、俄语等八种语言，以全面测试模型在多轮、跨语言场景下的指令执行能力。论文链接：https://arxiv.org/abs/2410.15553Multi-IF下载链接：https://huggingface.co/datasets……更多

2024-11-26 09:51:00多语,大比,基准,指令,任务,语言