▼最近直播超级多,预约保你有收获
今晚直播:《GPT-4分布式架构设计案例实践》
—1—
ChatGPT-4 最近效果又开始下降
在最近一段时间,持续有人反馈 ChatGPT-4 大模型的性能有所下降。不仅仅是懒,而且创造力下降,不太愿意遵从指令。例如,有人让 ChatGPT-4 计算24/7,并在 Python 中运行,但是 ChatGPT-4 取消了计算,说它会自己计算。例如,它甚至会偷懒,不想做重复性任务,所以在做一些 SQL 查询中直接使用“…”来避免生成完整的 SQL 语句,因为它懒得把一些短语翻译成18种语言。而 OpenAI 的官方回应说,他们收到了用户的反馈,但是从11月份以来,官方没有更换过 ChatGPT-4 背后的模型,所以无法解释什么原因导致了 ChatGPT-4 变懒。同时,官方解释说因为大模型的行为在某种程度上是不可预测的,所以虽然他们也在调查,但是可能不一定会知道。并进一步解释:训练一个对话模型是一个数字神经网络学习的工程,并不是一个清晰的确定性计算逻辑流程。相同的数据集不同的训练策略可能会产生完全不一样行为的大语言模型。这个过程并不像更新一个网站一样简单,所以尽管上线前,模型会做许多测试,还是可能出现很多意外情况,所以需要大家反馈来调整。

但是,目前除了大家不认可官方的说不可预测、没有更新的说法。而今天,有人测试发现,ChatGPT-4 模型实际上可能会在冬天或者节假日的时候变懒!
—2—
ChatGPT-4 会在冬天和节假日变懒
这个结论和实验来自一位网友。虽然不是严格的测试,但是是一个可以重现的实验。这个实验使用的是 ChatGPT API 接口调用。在调用 ChatGPT-4 的API 接口之前,先设置当前的月份,然后让 ChatGPT-4 完成一个代码补全的任务。将 ChatGPT-4 设置的时间是5月份和12月份,对比 ChatGPT-4 生成的代码长度。结果发现,如果当前时间是五月份,ChatGPT-4 生成的代码平均长度为4298,而12月份 ChatGPT-4 平均生成代码的长度只有4086。二者差异是477,做 t 检验之后,p值 是小于 2.28e-07 的,这意味着二者有显著的差异。目前,这个测试可以被复现。另一个网友测试的结果 p 值是 0.02645。意味着结果也是显著差异的。而生成的代码长度变短,与此前用户反馈模型懒散的结论是一致的。
OpenAI 宣布修复 ChatGPT-4 变懒的问题,将在离线评估及 ABTest 测试后更新大模型。
—3—
ChatGPT-4 分布式架构剖析
ChatGPT-4 除了节假日可能变懒外,在技术架构侧我们是否能够发现一些端倪呢?本周日我们详细剖析下 ChatGPT-4 分布式离线预训练+微调(Fine-tuning)架构、在线推理架构,直播精彩看点如下:1、ChatGPT-4 分布式离线预训练架构剖析
2、ChatGPT-4 分布式在线推理架构剖析
3、ChatGPT-4 总体架构核心技术设计实践案例
请同学点击下方按钮预约直播,咱们周日晚20点直播见!