3 月 16 日下午 2 点(dian),百度北京总部的发布厅内,李彦(yan)宏迈着急促的步伐走上台,和大(da)家公布了最近一段时间备受关注的(de)产品——文心一言。
尽管这位(wei)科技巨头创始人,登过《 时代(dai) 》周刊封面,见过无数大场面,但(dan)发布会中,他的神态里都透露了些(xie)许紧张和局促。
我可以(yi)这么说,这是百度自创建以来(lai)关注度最高的发布会之一(yi),所有人都在等着这款对标(biao) ChatGPT 的产品。
有人满怀期待,但也有(you)很多人,只是单(dan)纯想看它出丑。
会(hui)上,百度共在 5 个场景下,展示(shi)了文心一言的能力(li)。
在文学(xue)创作方面,文心一言可以总结出(chu)《 三体 》内容,也可以在哲学角(jiao)度续写《 三体 》。
在商业文案创作这块,它可以根(gen)据公司的业务类型取名(ming),生成 Slogan ,以及撰写几百字的新闻稿。
同时,它也可以做一些数理逻(luo)辑推算,比如鸡兔同笼(long),还可以判断出题目错了。
除此之外,文心一言可以给用(yong)户反馈图像,语音和视(shi)频。
比如它可以为 2023 世界智能交通大会创作一张海报(bao),也能用四川话回答你的问题,甚至是(shi)生成视频。不过,想实现这些(xie)功能其实并不难,百(bai)度做的也许就是把这几项服务融合了(le)一下。
可惜的是,发布会上(shang)所有素材都事先录好的,并非现场实操,所以对于文心(xin)一言的真实能力(li),很多人都表示怀疑。
好在,差评君搞到了(le)内测账号,现在就看看(kan),文心一言的能力到(dao)底如何,它和搭载 GPT-4 的 New Bing 比,谁(shui)又更强?
我们先测(ce)试了一些日常问题:如何做一份好吃(chi)的松鼠桂鱼?
这(zhe)是文心一言的回答。
这是 New Bing 的回答。
虽然(ran)我们没有时间测出(chu)谁的菜谱味道更好,但能看出百度文心一言的(de)回答要优质一些。它按照标(biao)准的菜谱格式,分别给出了备料,步骤(zhou)以及注意事项。
随后,我们(men)又问了一个经典的带有思维陷阱(jing)数学问题:一个青蛙(wa)掉到了一个 10 米深的井里(li),它每天晚上向上跳 3 米但(dan)会滑下来 2 米,请(qing)问他第几天能跳出井里?
文心一言的回(hui)答是 8 天,这(zhe)是正确答案。
而 New Bing 的回答是 5 天。
但 New Bing 一共有三种模式,在(zai)切换了精确模式(shi)后,New Bing 也给(gei)出了正确回答。
接着,我们测(ce)试了大家比较关(guan)心的敲代码能力,让它们帮忙写了一个渐变色按钮的 CSS 。
这是文心一(yi)言给的代码。
在(zai)实测后发现可以(yi)跑出来,但它把 “ 渐变色 ” 理解成了鼠标指上去后(hou),颜色发生变化。
而 New Bing 给出的代(dai)码显示,它成功理解了渐(jian)变色。
文心一言是(shi)在试图完成用户的(de)指令,而 New Bing 有点在炫技的(de)味道了。我要的(de)是 CSS ,它(ta)给了一份完整代码,还自己加(jia)了 “ 点击我 ” 的提示。
后来,我们(men)又测试了取名, NewBing 给的是:麻晨曦、麻晴雯(wen)、麻璇玑、麻云舒,似乎挺有(you)新意。
但文心一言(yan)的建议,说实话,我一眼就觉得(de)好像在 “ 中国新生(sheng)儿最热姓名 ” 里(li)看过。。。
随后,我又提了(le)一些节选自弱智吧的问题,测试(shi)下他们的 “ 智(zhi)商 ” 。
比如:把加特(te)林从冰箱拿出来算冷兵(bing)器吗?
两者都讲解了什么是(shi)冷兵器后,给出了正确答(da)案:不是。
我们又接着问了另外一个(ge)问题 “ 为什么贝多芬(fen)不出新歌了? ”
New Bing 在简单介绍后(hou),回答因为已经去(qu)世 200 年了。
但文心一言似(si)乎陷入了圈套,分析(xi)了一堆可能导致贝多芬不出歌的(de)原因。。。
当(dang)然,测试 AI 智商肯定离不开数学(xue)题:请用 1 , 2 , 3 , 4 四个数字计算 24 点,每个数字只能用一次。
对于这个(ge)问题,一开始,文心一言则似乎把自(zi)己的 CPU 干(gan)烧了。
后来我们又测试了一下(xia),虽然这次不烧了,但不知道它在回答(da)什么东西。
这是 New Bing 的回答。
接着(zhe)对于中文互联网(wang)黑话的理解能力,我们也测(ce)试了一下,但让人失望的是,这方(fang)面文心一言表现还不如 New Bing 。
比如(ru)鸡你太美的梗,它(ta)并没给出一个满意的答复。
而 New Bing 的回答,虽然也有错误,但起码比文心(xin)一言更接近答案。
对于差评 925 的梗,文心一言可能因为训(xun)练语料的原因,没给到我(wo)们想要的答案,而是放(fang)出了一个非常古老的谐音梗(geng)。
New Bing 则近乎完美解释了我(wo)们 925 的梗。
在信息搜(sou)索的问题上,我们也进行了提(ti)问:理想汽车过去五个(ge)月销量,请逐月列(lie)出。
文心一言的答案是:
New Bing 的回答是:
这两(liang)个答案看下来,文心(xin)一言表现地非常拉胯,不仅没有拉取正确数据,甚至还没给出符合条件的月份。
最后(hou),我们测试了文心一言独有的画(hua)图能力。
我们先让它生成一只刺(ci)猬在敲键盘的图(tu)片,这个效果算挺不错的。
但在让它生成了一只小马(ma)拉大车的图片后,我们显然是高兴早了,这 TM 是真马车啊(a)。。。
OK ,以上就是给大家(jia)做的文心一言测(ce)试。
其实这段时间(jian),互联网上大家对文心一(yi)言都带着点嘲讽(feng)的味道,前两天,微信群里就流(liu)传着一个嘲讽表情包。
甚(shen)至还有聊天记录形式的段(duan)子,说一旦文心无法正确答复,要用(yong)员工顶上。( 明显是假的 )
发布会直播间里,质疑和(he)嘲讽的弹幕也随处可见(jian)。
的确(que),对比 New Bing 来说(shuo),文心一言表现是(shi)挺一般,不少方(fang)面甚至可以用 “ 拉 ” 来形容。
百度自己也知道(dao),文心一言还差了不少火候。
在测试(shi)中,它就像个不自信(xin)的小孩。不管答案怎样(yang),只要你一否认,他就一边向你(ni)承认错误,一边保证自己会变(bian)得更好,给他点时间(jian)。
说句实在话(hua),差评君觉得这次百度,可(ke)以说是勇气可嘉。
一方面,虽然大厂们都在说自己搞了(le)类似的东西,但是(shi)在 ChatGPT 如日中天的这会儿(er),百度还是敢顶住压力,发(fa)布了文心一言。
而且,作为一(yi)家搞搜索引擎的,文心一言也很可(ke)能会颠覆自己的核(he)心业务。毕竟咱们之前也和大(da)家聊过,传统的搜索引擎与其广告模(mo)式,很可能会被类似的产品干掉。
百度这波啊,多少是(shi)有股激流勇进的味道。
体验完这波产品,我觉得百度最应该做的,还是尽(jin)快迭代,抓紧时间把用户体(ti)验拉上来。不然就现在这个状态,别说是 GPT-4 和 New Bing 了,摆到 GPT-3.5 面前,还(hai)是有待增强。
至于咱们,也可以耐心一点,给这个(ge)初出茅庐的、不自信的小(xiao)孩多一点时间。
万(wan)一哪天,它突然就把事干成了(le)呢?