W24-大模型应用半年回顾

最近看了WWDC、Google IO、Pichai 的专访、还有一些近半年AI赛道的总结。

AI进入产品化与生态整合,模型竞赛冷却,大多数公司都可以大大方方的做一些“壳”应用了。

模型能力和价格的变化。开源模型快速追赶甚至超越部分闭源模型,顶级模型间的差距大幅缩小。本地模型虽能力有限,但现在如 Llama 3 70B 已经能在普通笔记本上运行,且能力接近 GPT-4 级别。大模型推理价格持续下降,速度远超互联网时代的摩尔定律。顶级大模型推理价格年降幅普遍达到10倍,部分轻量/蒸馏模型甚至100倍。

之前有人说AI产品价值的衡量是 Token 消耗的速度,只提供Prompt框或Chatbot,等用户主动去问肯定是不够的,但一味追求 token 消耗速度这明显不是目的。衡量AI产品价值的关键指标是每个Token所产生的价值,这一点在商业模式的变化上体现出来了,行业共识从MaaS(Model as a Service),转变为RaaS(Results as a Service )。很多 toB 公司不按 token 使用量计费,而是按拉新、转化了多少客户计费。很像广告发展过程中从按量付费到按效果付费的变化。

人机交互并没有看到 NUI 代替 GUI这样的范式转移。日常体验也能感觉到,大多数情况点选还是最高效的。但人机界面还是有一个明显的趋势,从传统的“工具栏+菜单”,变成更自然、更直观的“自然语言+智能执行”。

应用工程上的挑战增多。模型过度“拍马屁”、系统提示词泄露、模型“打小报告”等,反映了大模型在安全性、可控性上的挑战。工具调用、权限管理、prompt 注入等问题成为工程落地的重点难题。

苹果在 AI 上的动作确实是落后了。 乔布斯说一切归结为品味,之前我理解苹果可能是在品味和体验上的追求让他们选择继续保守。体验过GPT4o的多模态或 Gimini Live 后,发现他们已经足够好用,对 Siri 是代际差异,保守的策略已经不可解释了。

大厂入局更通用的产品时,之前的一些垂类应用很容易就被截胡了。比如 Google 推出 AI Mode 和 Agent Mode,前者支持更复杂的对话查询,后者能够主动完成多步任务(如房屋查找、票务预订等),此前的一些垂类 AI 产品(如 Perplexity、Manus)就不香不臭了。

最后更新于