首页 社群 健康 财智 参政

大语言模型 ChatGPT和Bard实例测试:谁是王者?


Jason Peng

AI模型给世界带来了巨大的变化。AI已经迅速渗透到众多行业,工作机会被AI替代已经已经不是焦虑,机会淘金者们用金钱和时间押注行业洗牌和财富再分配的机会。应用AI模型在节约时间和提高作业功效方面已经展示了的巨大潜力,然而市场上充满了太多的不一致的资讯,作为用户必须做出选择,然后在使用时必须有自己的判断。

我经常使用OpenAI的ChatGPT ,主要是使用其API,也偶尔使用微软的BingChat,BingChat是免费的,我无法说喜欢它。AI行业的世界级大佬Google在期待许久之后终于推出了Bard,官方和其他渠道的宣传提示Bard超越OpenAI的ChatGPT-4, 但也有一些不同的声音。 相信其他用户也会有类似的困惑。我这里顺便记录我最近经历的几个在实际使用中遇到的真实案例,比较ChatGPT-4和Bard,以及BingChat的输出结果。虽然BingChat是基于GPT-4的API,但并不总是产生和OpenAI 的ChatGPT-4相同的结果。


案例1:下面问题的实质就是把未来每个不同阶段将要收到的钱转化为等值的现在的钱。已知现在等值的钱的金额,和未来不同时期的现金流入,我希望计算投资的收益率。这在债券和房产投资中经常遇到,概念容易理解,就是计算有点麻烦。问题如下:

A bond has a coupon rate of 4.2% paid semi-annually, a par value of $1,000, and maturity date of 4 years. If the current price is $1,046, what is the yield to maturity?

Bard 给出答案是 152.11%,它告诉我它是如何计算得出,我认可它的解题思路的前半部分,但最后却得到了一个这样离谱的高收益率!它没有给出计算用的代码,我只能假设它很可能在应用代码时出错了。

BingChat: 给出答案4.75%,罗列了大串的计算公式,但是基于显然错误的概念,这就不值得占用篇幅了。

ChatGPT: 给出答案 2.97%,它的解题流程和Bard基本相同,最后给出了可运行的Python代码,我亲自验证,此答案正确。

本问题的解决思路就是把每笔未来的钱转化为等值的现在的钱,简单的流程就是求解下面方程中的y:

1046 = 21/(1+y)^1 + 21/(1+y)^2 + … + 21/(1+y)^8 + 1000/(1+y)^8 通过迭代直到收敛就可以得到y。

对于本问题,ChatGPT 解题思路清晰流畅,并给出了可以验证代码,答案正确。 鉴于Bard和BingChat 都做错了,我试图再给它俩一次机会:在提问时添加“假设你是专业投资顾问,请回答下面的问题”,然而“顾问”仍然输出了同样错误的答案。不过有时你授予它一个响亮的专业头衔,它的确为你工作得更好。


案例2: 我需要回答下面问题,不想花时间,于是求助AI模型。这有点像一个学生作业,但其实在日常生活中也会遇到。问题如下:

What is the real net return on an investment that provides an annual return of 4.4%, from which a 1% asset management fee is subtracted, if inflation during the year is 2.4%?

Bard给出答案是0.0115,看了Bard的解题流程就觉得不对,于是转向BingChat, 它也给出同样的答案。于是来到ChatGPT, 它的答案是1.0%。最后我只好自己去书架上取教科书找公式了,正确的公式是:

RealRateOfReturn = (1+NominalRate)/(1+InflationRate) - 1

正确答案为 = (1+4.4%-1%)/(1+2.4%) – 1 = 0.009766

然后在互联网上寻找权威的信息验证,下面链接提供了正确的解决方案: https://www.carboncollective.co/sustainable-investing/real-rate-of-return

本问题其实非常简单,只要套公式就行了。然而这三位全部答错了,看来当你忘记了公式求助AI模型时,它们可能都是错的,即使是相当简单的问题。


案例3: 下面的问题用中文喂给Bard, ChatGPT 和 BingChat。输出这类问题相关的文字信息是大语言模型最擅长的地方。问题如下:

请创建一篇关于纽约之旅的博客文章,在那里一只狗和它的主人玩得很开心。附上几张狗在不同地标快乐地摆姿势的照片。

这三位都用中文输出了几段关于在纽约市旅游遛狗的故事,没有必要在这里罗列这些文字,我的评价是: ChatGPT文笔流畅,结构清晰,Bard相对简洁,而BingChat最为啰嗦。本问题要求在博客中附上几幅狗狗在纽约市不同地方快乐地摆姿势的照片,这才是考验模型能力的重点。结果如下:

Bard: 拷贝了互联网上其他人的照片,附上了这些照片的链接以尊重他人版权,但只有一张照片与狗狗有关,没有显示任何纽约市的地标,这表明其中文理解和图片生成都有不足。

BingChat: 没有制作任何照片,提供了几个YouTube视频链接作为替代,但这些视频与所要求的狗狗照片毫无关系。

ChatGPT: 制作了狗狗的图片,我选择其中两幅如下图:

北美华人社区


案例4:喂给它们三位如下黄金期货价格图形,请它们识别是什么。然后回答如下问题:

This is a 3-hours bar chart of Gold futures. The green line is weekly trend line, and purple line is daily trend line, the blue line is 3-hour trend line, can you summarize a trading rule for Long or Short?

北美华人社区

三者都正确识别出这是价格曲线。要求模型依据价格曲线归纳出交易操作规则,结果翻译如下:

BingChat:

抱歉,我无法根据您提供的图表确定多头或空头规则。 然而,交易者可以使用多种技术分析工具来识别趋势并根据股票图表…一些垃圾文字。

Bard:

观察结果 

总体趋势:绿色每周趋势线表明黄金期货价格长期存在潜在上涨趋势。短期波动:紫色的日线趋势线和蓝色的3小时趋势线显示出一些短期波动,既有向上的走势,也有向下的走势。趋势线周围的价格行为:注意价格行为如何与趋势线相互作用。如果价格从趋势线反弹并开始朝趋势方向移动,则可能是朝该方向进入交易的信号。然而,如果价格突破趋势线,则可能表明趋势发生变化,并成为退出交易甚至反方向开仓的信号。

潜在的交易规则

做多进场:当价格从蓝色3小时趋势线或紫色日趋势线反弹,且价格位于绿色周趋势线上方时。做多退出:如果价格跌破蓝色 3 小时趋势线或紫色每日趋势线,或者价格开始持续低于绿色每周趋势线。

做空进场:当价格跌破蓝色3小时趋势线或紫色每日趋势线,且价格低于绿色每周趋势线时。做空退出:如果价格从蓝色 3 小时趋势线或紫色每日趋势线反弹,或者价格开始持续高于绿色每周趋势线。

其他注意事项:

风险管理:无论您使用何种交易规则,始终使用止损订单来限制您的潜在损失。确认:不要仅根据趋势线进行交易。寻找其他技术指标或图表模式来确认您的交易信号。市场状况:在做出任何交易决定之前,请考虑整体市场状况以及可能影响黄金期货价格的其他因素。


ChatGPT

根据提供的黄金期货3小时柱状图, 趋势识别:趋势线是不同时间范围内市场趋势的关键指标。 绿线代表周趋势,紫色线代表日趋势,蓝线代表3小时趋势。

多头(买入)规则:

入场:做多的潜在规则可能是当价格穿越所有三个趋势线时,表明所有三个时间框架都呈看涨趋势。确认:等待蜡烛收于趋势线上方以进行进一步确认。退出:当价格跌破 3 小时趋势线(蓝色)时,考虑退出多头头寸,因为这可能预示着短期趋势的逆转。

卖空(卖出)规则:

入场:做空的规则可能是当价格跌破所有三个趋势线时,表明所有时间范围内都呈看跌趋势。确认:与多头规则类似,等待蜡烛收于趋势线下方以确认看跌情绪。退出:空头头寸的退出策略可能是当价格重新穿越 3 小时趋势线(蓝色)上方时,表明当前趋势方向可能发生转变。

其他注意事项:

止损:始终设置止损来管理风险。 这可能是距入场点固定数量的点,或者略高于/低于近期高点/低点。止盈:根据关键支撑/阻力位或固定风险回报率设置止盈水平。成交量和价格走势:考虑入场点和出场点的交易量和其他价格走势信号(如烛台形态),以验证趋势线所建议的趋势。

请记住,这些规则非常基本,应使用历史数据进行测试并进行完善以适应个人交易风格和风险承受能力。 市场状况瞬息万变,没有任何规则适用于所有情况。 及时了解可能影响金价的宏观经济因素也很重要。

Bard和ChatGPT都很好地识别了图像,并依据图像总结了相应的规则,所总结的规则我认为是合适的。 BingChat则表示无法总结多空规则。  

最后,模型的API功能是扩展到产业应用领域中最重要的方面, 模型必须提供API才能有效地实现在外部函数和数据库之间的交互,这是不同智能代理之间得以通讯和协同工作的基础。ChatGPT的API已经被开发者广泛使用,通过自动化某些商务流程而为商家节约了劳动和提高了效率。Bard提供了测试版的API但需要等待被邀请,因此没有测试和比较Bard的API。虽然本文的测试表明ChatGPT完胜Bard,但Bard也有它自身的亮点,期待Bard会更好。

欢迎留言讨论或致信作者。