我们正处于一个信息大暴发的时代,每天都能产生数以百万计的新闻资讯!
虽然有大数据推荐,但面对海量数据,通过我们的调研发现,在一个小时的时间里,您通常无法真正有效地获取您感兴趣的资讯!
头条新闻资讯订阅,旨在帮助您收集感兴趣的资讯内容,并且在第一时间通知到您。可以有效节约您获取资讯的时间,避免错过一些关键信息。
不久前,一张马斯克婴儿时期的照片在外网被疯狂转发。
起因是一名博主在推特上发了张图,并配文:“ 据报道,埃隆 · 马斯克正在研究一种抗衰老配方,但结果失控了。 ”

你别说,这照片乍一看,还真挺容易被唬过去的。
但只要稍微用心辨别,就能看出来这是成年马斯克的脸直接移植上去的,AI味儿太冲了。
自打这AI大模型成熟以后,各种AI生成的内容就在网络上迅速泛滥。
像什么川建国同志退休后的生活:

还有 “ 马斯克投资AI失败,卖烧烤还债 ”“ 马斯克在广州城中村摆摊的日子 ”“ 马斯克kiss女机器人 ” 。

各种梗图层出不穷,开局一张图,内容全靠编的情况是愈演愈烈。
在文本领域,不少学生借着AI写论文、写作业,甚至于莫言也坦言,给余华的颁奖词是ChatGPT帮忙写的。
那么问题来了,AI生成的内容满天飞,我们要怎么去区分到底哪些是AI创作的,哪些是人类创作的呢?
前段时间AI诈骗430 万的案子大家都还心有余悸,再这么任由AI“ 狂飙 ” 下去,下一个受害者可能很快就会出现。

其实吧,现在市面上也出现了不少反AI工具,专门用来检测AI生成的内容。
不过,这些工具真的就靠谱吗?
为此,世超专门找了几个检测工具,测试了一波。
首先是AI图像检测。

分别找了 Umm-maybe、Illuminarty、AIorNot 这三个讨论度比较高、甚至是号称准确率在95% 的检测工具,方便做一个对比。
其中Illuminarty和Umm-maybe测试结果显示的是概率,AIorNot则是直接给回答。
本以为AI检测工具是个 “ 火眼金睛 ” ,但没想到在马斯克 “ 返老还童 ” 的那张图片上,就开始翻车了。
Illuminarty和AIorNot的态度都很明确,这明显就是由AI生成的。
但轮到Umm-maybe,画风就变了。
它告诉我,这张图片是人类创作的概率为81% 。

我寻思这肉眼都能瞧出来是AI干的好事,这怎么还能检测不出来呢。
为了看看是不是偶尔的bug,我又多试了几次。
这张奥黛丽赫本在《 罗马假日 》里的电影截图,Umm-maybe给了个模棱两可的答案,概率是一半一半。

剩下的一个站AI,一个站人类。

至少从马斯克和赫本这两张图片的测试结果来看,除了AIorNot之外,其他两个AI检测工具的判定都不太准确。
不过,打脸的时刻总是来得很快。
当我以为AIorNot稍微靠点儿谱的时候,它却说这张金角大王拿着汉堡的AI图片,是人类生成的。

你以为这就完了?更离谱的还在后头。
这张梅西踩缝纫机的AI照片,Umm-maybe给出的人类创作概率为89% 。

这有点过于荒谬了。
还有这张人跟巨型老虎合影的照片,肉眼就能看出来是AI生成的吧。
结果除了Umm-maybe,其余都认为这是人类创作的,甚至Illuminarty还觉得AI生成的概率只有1.5% 。

总结一下,在AI图片的检测上,总共测试了10 张不同的图片,8张由AI生成,2张由人类创作。
排除掉了2项有争议的结果后, AIorNot和Umm-maybe的准确率都是67% ,而Illuminarty的准确率为50% 。

也就是说,这三个AI图像检测工具的准确度并不算高。
咱们再来看看文本的检测情况。
同样,还是选用了3个比较热门的检测工具:GPTZero、Sapling以及Copyleaks。
世超先让ChatGPT 生成了一段关于椰汁的广告文案,再依次用工具进行测试。

但一上来就给我整不会了。
我原封不动从ChatGPT那边粘贴过来的文案,GPTZero竟然说是可能完全由人类编写。

而Sapling给出结果也一样,这段文字由AI生成的概率为 0 。

只有Copyleaks,把全文都标红了,咬死这是AI写的。

三个工具里有两个都检测不出来这是ChatGPT写的,是不是有点太过分了。
不信邪的我,又让ChatGPT以鲁迅的风格写了一篇《 火锅日记 》。

Copyleaks依旧稳定发挥,GPTZero这回倒是学聪明了,只有Sapling还在死死坚持那就是人写的。
为了测试这些工具对于人类创作的反应,我又节选了一段《 活着 》里的内容。
可能是余华老师的《 活着 》过于出名,几个工具在这一关上倒是没有踩坑。
前前后后测试了好几次,除了Copyleaks的正确率相对比较高之外,剩下的感觉都不是特别聪明的样子,而且Sapling还出现了对中文不太友好的情况。
其实吧,无论是图像还是文字检测,都是靠着AI 把人类创作和机器生成区分出来。
换句话说,就是用魔法来打败魔法。

只是不同的训练模型,所用的数据集不同,分类的指标也不同。
不过,这次的测试结果大家应该也看到了,AI检测工具的效果并没有想象中那么好。
问题可能就出在这训练数据上。
像上文提到的AIorNot,它的数据集范围就只有StableDiffusion、Midjourney、Dall-E、GAN和Generatedfaces生成的图像,如果超出了这个范围,误判也是常有的事儿。

虽然可以利用视觉算法,将输入图像的分辨率、清晰度等局部细节跟AI图像的特征进行比对。
但拦不住AI进化的速度太快了,像之前备受吐槽的 “ 六指战士 ”Midjourney每更新一版,对于细节的刻画也就更逼真。

这文本呢,也是类似的情况。
就比如说这GPTZero,要想知道文字到底是不是由AI生成的,需要看两个指标,一个叫困惑度,一个叫突发性。

困惑度指的是AI模型在看到这段文字时,会不会觉得很难懂,像什么 “ 依托答辩 ” 之类的谐音梗,AI不一定能够看懂,困惑度越高,就证明内容越有可能是人类创作的。
而突发性,指的就是句子结构的变化程度。
毕竟人类跟AI不同,在写东西的时候句式可能一会儿长一会儿短,追求的就是一个变化多端,AI则更倾向于使用统一的句式。
但AI在不断的进化中,无论是在困惑性还是突发性上,生成的内容越来越接近人类。更何况现在的AI大模型一天一个样,等AI检测追上来,AI生成的内容早不知道飙到哪去了。

但凡人类有什么风吹草动,AI就马上能内化到自己的模型里。
照这么下去,AI生成的东西只会越来越难以辨别。
所以眼下,咱们能做的就是寄希望于技术大牛们,赶紧想办法让AI检测工具实现 “ 弯道超车 ” 。
这场由AI掀起的风浪,终究或许也只有AI知道怎么去平息了。
以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。
快照生成时间:2023-07-05 09:45:04
本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。
信息原文地址: