随笔集合——AI篇
CES闭幕,今年中国厂商恢复参会,明显消费电子的人气、热点更多了。印象最深刻的两条趋势线,是AI和储能设备。
AI不再只是远端云服务,消费电子设备深入融合。AIPC、AI for ALL,各个厂商都在AI方向战略押注。2024年是AI*终端的元年,正在取得更广大的共识。Rabbit R1就是火出圈的新硬件形态。传统手机、PC厂商一定会跟进,但更看好科大讯飞、大疆这样的细分领域的头部厂商。
储能设备逐渐成熟,开始进入消费级市场。说起能源好像一直都是供给驱动的,消费者没什么选择权,像是能源结构改革、电网改革、电价改革。储能设备可以在消费端带来变革,提升绿色能源的使用率,做以家庭为单位的能源方案。比如在低峰存储绿色能源,在高峰使用,削峰平谷。既解决了新能源供电不稳定问题,也优化了用电成本。估计很长一段时间会是早期采纳阶段,就像NAS发展了这么多年,也只局限于玩家市场。想想能源的消费级应用还是很有意思的,比如你能看到自己每天使用了多少绿色能源,如果有并网发电能力,还可以看到自己供给了多少人的用电需求,减少了多少碳排放。以家庭为单位的碳中和也可以形成新的交易市场。
最近读了《这就是ChatGPT》。刘江老师写的序很棒。
先说说这本书的作者Stephen Wolfram,他是一个应该了解的当代奇人。从小不屑于看学校推荐的“蠢书”,而且算术不好,所以一开始老师们还以为“这孩子不行”。结果人家13岁就写了几本物理书,15岁发表了一篇高能物理论文,这篇论文还被引用了5次。20岁在加州理工获得博士学位。之后荣获麦克阿瑟奖,也是最年轻的获得者。在普林斯顿高等研究所供职,研究元胞自动机,也是复杂科学的开创者之一。
可学习性和计算不可约性是他论述中的一对核心矛盾。GPT的出现让大家产生了一种错觉,感觉计算机突然变得很厉害了。事实上难以计算的事情仍然是困难的,可学习和计算不可约的本质没有变。只是像写文章这样的事情,我们以前认为计算机很难做到,但实际上是一个“计算深度较浅”的问题,现在看要比我们想象的简单。
他认为ChatGPT的成功是一个重要的科学事实。表明我们仍然可以期待能够发现重大的新“语言法则”,实际上是“思维法则”。如果我们能够通过某种方式使这些法则变得明确,那么就有可能以更直接、更高效和更透明的方式做出ChatGPT所做的那些事情。这是GPT的技术优势,也是为什么基于符号主义的NLP一直不能达到满意程度的原因。前段时间看到一段李飞飞的采访,她提到人类现在很可能再一次处在pre-newton的节点,也就是搞懂这些法则的前夜。
Wolfram是研究自然和社会底层逻辑的。他很早就设计了一门语言,叫Wolfram语言。普通的编程语言是在确切地告诉计算机要做什么,Wolfram语言是对人类的所思所想进行计算上的表示和处理,是一门全面的计算语言,可以用计算术语来广泛地谈论世界上任何事物。旨在成为一门既能让人类也能让计算机“用计算思维思考”的语言。
Wolfram把自己的研究成果转化成了一个通过web就可用的Wolfram|Alpha系统,用户输入自然语言的指令,就可以通过巨大的知识库、算法、规则得到精确详实的回答,比如做数学运算,它的回答会比ChatGPT可靠的多。被很多人认为是第一项真正实用的人工智能技术,可以体验使用https://www.wolframalpha.com/,目前只支持英文。这本书写的时候还没有GPT4,当时Wolfram就想把他两结合在一起用,一个问题可以先经过Wolfram|Alpha,输出基于准确知识和事实的解析结果,再做为GPT的输入,最终得到一个更为准确和自然的答案。现在可以在GPT4上找到Wolfram插件,更方便地利用这两个强大的AI系统。
最后,读这本书会让我觉得作者和ChatGPT一样有意思。像Wolfram这种奇人的经历总是那么熟悉而又陌生。科技发展随着疫情暂缓了几年后,又开始突飞猛进,至今还在以惊人的速度发展,过完年回来不到一个月,Sora、Claude3相继出现,现在几乎每个月都有breaking news。我们这片神秘的东方土地从来不缺天才,但何时才能出现奇人。我想到了钱学森之问与李约瑟难题。
Wolfram对今后的工作和学习给出了如下建议,共勉。
最高效的方式是发掘新的可能性,定义对自己有价值的东西。
从现在的回答问题转向学会如何提出问题,以及如何确定哪些问题值得提出。也就是从知识执行转向知识战略。
知识广度和思维清晰度将很重要。
直接学习所有详细的知识已经变得不必要了:我们可以在更高的层次上学习和工作,抽象掉许多具体的细节。“整合”,而不是专业化。尽可能广泛、深入地思考,尽可能多地调用知识和范式。
学会使用工具来做事。过去我们更倚重逻辑和数学,以后要特别注意利用计算范式,并运用与计算直接相关的思维方式
腾讯科技最近做了一个“复盘中国大模型”系列访谈,目前有杨植麟、朱啸虎、王小川三篇。
访谈这个形式很好,大家都是独自在一个场域表达,没有上头的激昂对峙,所有的回应都是一段时间后的理性辩护。这其中观点上的冲撞、世界观的迥异、多样化的视角十分有意思。
杨植麟的核心观点是,通过long context + scaling law来实现通用化和个性化。long context好比越来越大的内存,可以记录你所有的历史信息,也保存了大量对这个世界的数字化信息,把所有问题放到这个框架建模。scaling law是只要你投入足够多算力,它就能变好。
朱啸虎是市场信仰派的代表。大模型的陡峭的技术曲线一定会放缓,开源模型一定会随着技术的扩散追上闭源。应该将“足够的AI能力”投入到可以快速变现的商业场景中,用中国市场庞大而独特的数据构筑壁垒。toB现在是变现能力最好的场景,toC现在烧不起。
王小川在看过前两位访谈后,认为他们是盲人摸象、小马过河,看不到全局。技术容易看得远,商业容易看得近。现在更多不是远近问题,而是完整性问题。他一直在思考怎么把生命变成数学模型,GPT是很好的武器,这是他去年决定再创业的初心。用GPT构建虚拟世界、生命世界、真实世界,在游戏、医疗、生产效率上找到技术产品结合点TPF。他对Sora持保守观点,认为这是一个阶段性产物,和GPT不是一支的,不是以语言为中轴的。Sora只是一个模拟器,做不到世界模型。
不知道是不是有意为之,这个访谈顺序也很妙。从信仰技术,到信仰市场,再到信仰世界。如果换一下顺序不知道是不是另一个故事。
两个技术推动产业集约发展的例子,也就是选择某种技术扩散实现最有效益的发展。
上周斯坦福HAI发表的AI趋势报告,第四章经济部分有一组很有趣的数据。AI总的私人投资、就业岗位近3年是下降的,其中生成式AI的投资与岗位是增多的。总量的下降好像有些反直觉,不像过往的技术浪潮,这是一种技术扩散的集约化表现。能看到的原因有两个。一是技术上的共识在产学研都很明确了。在技术路线上,向以GPT为代表的LLM路线收敛。在技术表现上,加快从TSAI(特定任务AI)到AGI的演化。二是这波创业对成本和资源的要求很高,似乎是有利于Big Tech的,而非革他们的命,至少目前看来是这样的。
上周借着去农行开会,和我们的隐私计算团队第一次线下交流。能深刻体会到银行对集约高效的营销趋势已经形成,银行已经告别乱撒币的工作理念了,谁能帮他们看得清收益算得清账,谁更能赢得银行的营销费用。这背后当然离不开技术的发展与推动,隐私计算就是实现精准营销的重要载体。国内隐私计算的发展一定绕不开蚂蚁隐语,几乎以一己之力引领产业发展。把开源做为技术扩散的重要手段,这可能是最大的商业化。
上周找到了一个很好的LLM业绩融合的场景。业务在B端超级账单场景有大模型的应用价值,技术平台有智能应用搭建的工程能力,结合在一起可以降低商户平台在大模型探索的启动成本。
体验了一下技术平台的智能应用搭建,产品体验上对标coze。通过平台的工作流能力,自由组合LLM、Http、知识库、代码块执行等组件,快速搭建组装需要的智能应用。目前处于MVP的第三个阶段,针对面客的线上服务场景,还需要进一步调研论证。
上周的超级账单脑暴,在迭代方向上有了具体的共识。一是数据准且全,二是记账操作便捷且边际成本递减,三是账单聚类合理且分类颗粒度够细,四是收支分析可以指导经营且具备导流资金服务的能力。当前有两个可以引入大模型的场景。一是收入分析的分析总结,虽然是简简单单一句话,但目前用了比较繁杂的规则去硬编码实现。二是记账操作成本上,chatbot的交互很适合记账,可以用自然语言文本、语音、图片等多模态录入,降低用户操作成本。如果我们能够再开出来一个微信公众号用来随手记,那么记账入口可以从商家端中的二级升格为微信中的一级。安卓平台有个App叫小乖记账,大体上已经做了类似实现。
上周和慧玲聊智能应用搭建平台,聊到LRP里对中后台产品产物结构变化趋势的洞察,给我开了个“天眼”。这个趋势是从大多数的页面交互,演变为大模型交互。我觉得也可以这么讲“你的下一个前端应用,何必是一个页面?”。一个纯粹的大模型应用最终长什么样子还不确定,但交互形式应完全基于NUI。比如以前你给运营交付的是一套页面,上线一个营销活动需要N步配置,运营自己需要有一套操作SOP。大模型交互的产品,应该是运营表达清楚营销活动的配置任务,然后check确认,完成。
换装华为后,想安装硅谷最新科技难度很高,无奈搞了一部美区id的iPhone专门做国外的product hunt。最近两周沉浸在两部手机的切换中,有一个感受,AB面里,纯粹的线上数字产品,也就是A面应用,我们还有不少差距。B面应用,我们有绝对的优势。
举两个例子。我是上周才知道Perplexity原来是市面上RAG产品的鼻祖,现在依然简单直接,不像后来C2C的产品花里胡哨,总想搞个什么东西分散你的注意力,让用户的动线乱七八糟。 第二个例子是Arc,Arc今年推出的mobile版本也备受好评,听说iOS18要照抄一些设计。Browser for Me,捏和summarize,call,都是移动端浏览器的新交互。Arc是一家位于NYC的创业公司The Browser Company创设的,我还依稀记得是2023年的春节御姐给我推荐了Arc桌面端(那时候还是邀请制)。对这家公司我充满敬意,让我目睹了什么是用户驱动的创新,相信他们真的在重新思考并定义浏览器。
苹果用了一个谐音梗Apple Intelligence重新定义了AI。Apple Intelligence的核心是基于端模型的,讲了很久的“端智能”真的迎来拐点了。
虽然苹果在WWDC上展示的这些应用场景看起来并没有多出奇,但是不得不说,都是做应用的,苹果显然做的更讨巧,更容易被用户深度的感知到。比如iPadOS上全新的计算器,手写公式识别、计算、图形化,3分钟的演示及其丝滑,我是张着嘴看完的。
软硬一体的优势再一次释放。苹果的软硬一体不单单是产品和系统之间的,包括底层的芯片和开发工具链。端模型具有系统级别的权限和数据访问能力,把用户个人数据拿给端侧模型进行fine-tuning。这要求在算力-数据-模型-安全之间做平衡,想要做好的话软硬一体似乎是唯一的方案,隐私安全优先也才能得以落地。
AppStore之后会不会有ModelStore。随着端算力的增长,为端提供的模型可能不止一个厂商,比如你是一个码农,可以选择一个流行的码农预训练模型。搭建好算力、Intent API基建,给模型市场打造一个新的平台,用自研模型打开场景,激发社区的创造力。
能不能成功最终还是要看社区能不能繁荣。按照苹果的套路,自high是为了点燃开发者,卷入更多优秀的开发者。 苹果对全球优秀开发者的吸引力仍然是最强的,这让我不由想到华为,这可能是华为最难追赶的一项。在软硬一体方面华为已经取得了初步的胜利,但如何像WWDC一样给开发者足够的尊重并让他们能够体面地赚钱,还有很长的路要走。
端侧AI的发展喜人,去年11月FEDAY的时候,还觉得工程上的落地需要两三年。没想到半年多的时间,Apple和Google就都向各自生态给出方案。
Jason Mayes在Google I/O 2024上分享了Web AI新主题,这个老哥之前是TensorFlow.js的台前推广,现在是Web AI的lead。Web AI是基于WebAssembly和WebGPU构建的。没有提到WebNN,看来是WebNN的发展不及预期,毕竟配置NPU的硬件占有量依然很少。Visual Blocks是一个ML的工作流搭建平台,可以在这个平台搭建基于Web AI的应用。也就是说可以无代码搭建一个基于端AI的工作流,比如翻译、抠图、文本分类等。Chrome已经对Web AI做了部分实现,Chrome 127的canary版本已经可以用上Gemini nano了。
端侧AI的优势依然是隐私安全、离线低延迟、低成本。Jason举了一个关于降成本的例子,很生动。
以视频会议为例,许多视频会议提供背景模糊或背景移除功能来保护用户隐私。
摄像头通常以每秒 30 帧的速度生成视频,假设平均会议时间为 30 分钟,那就是需要对 54,000 帧进行背景模糊处理。
假设每天有 100 万次会议,这意味着每天 540 亿次处理。
假设每次处理的成本极低,仅为 0.0001 美分,这仍然意味着每天 540 万美元的成本,每年约 20 亿美元的服务器端 GPU 计算成本。
通过 WebAI 在客户端进行背景模糊,这些成本将不复存在。
另外,你还可以将其他模型移植到浏览器中,例如背景噪音去除,用极低的成本提升用户的会议体验。
聊聊大模型对程序员的影响。
国内的智能驾驶行业正在经历一个里程碑式的转变。技术路线从基于规则控制的自动化驾驶,向基于大模型的端到端无图智能驾驶切换。转变之前的智驾团队现在看来像是一个劳动力密集型产业,因为自动驾驶是基于感知、规划、控制这几个模块实现的,除了感知涉及一些CV的应用,规划和控制其实都是从一个个案例去设计规则并硬编码到系统当中的。转变之后就不需要大量实现规则的程序员了,所以今年智驾这么火,但相关cy还不少。马斯克曾经发过一个推文,说Tesla采用新版的FSD之后,C++代码的行数从30万行下降到3000行,99%的代码消失了。端到端智驾的方案有两个挑战。一是数据量的挑战,scaling law发挥到超过人类司机的水平需要巨量的数据,现在只有Tesla可能满足这个数据量,也只有他一家是完全按照端到端模型的思路设计的。二是安全监管的挑战,每个参数对智驾效果的影响是解释不清的,在系统的可控和可审查方面,前期需要法律上给予较高的包容度。
一个叫lapurita的人在reddit发了“使用Claude Sonnet3.5实现10倍开发速度”的帖子。我还没搞清楚lapurita这个人是谁,但似乎很有影响力。总之他是在讲Claude Sonnet3.5用来codeing有多么厉害,明显优于ChatGPT4。我最近做了一个多月的技术重构,其实也是在探索“人机协作”的工作方法。哪些任务适合给大模型做,哪些适合自己做。全程用Claude协作,一次Google都没用。这个帖子讲的我感同身受,用Claude写代码很上瘾。大模型给了我更多时间和选择,从细碎、低价值的语法规则中跳出,让我有更多时间思考设计、做出优化,有能力做战略编程。我特别相信,不久的将来我们的工作方法、交付流程要变,人与人之间的竞争维度也要变,一定的。
之前聊过大模型对生产力的潜在影响。又过了一两个月,大模型与编程在体验上深度融合的好产品出现了。
TL;DR,你必须试试cursor了。
大模型在编码领域的进展,关注这三个产品组合,Claude+Cursor+Vercel。现在很有可能正在跨越鸿沟,从 Early Adopters 到 Early Majority。潜在影响依然是生产力水平和竞争策略,在个人和组织上都是如此。尤其在探索类业务,“快”有时候就是致胜法宝,试错、拿认知就是业务策略,谁最先触达PMF,谁就能把握先发优势。如果研发成本降低到某个临界点,生产力水平达到新的高度,“快”这个策略就会加深,甚至在整体竞争策略上产生结构性的变化。
Claude3.5 Sonnet,已经完全坐实了代码逻辑推理能力的No.1。几乎所有优秀的AI代码产品都在把底层大模型切到Sonnet,包括Cursor。程序员是相对昂贵的生产力,在生产力变革上,Claude选择了他们认为杠杆率最高的领域。大模型的Early Adopters大多是程序员,主攻代码逻辑推理能力,也能巧妙的讨好开发者社区,进而影响应用层选型。印象中支付领域的Strip也是类似的竞争策略。
Cursor,当前最热门的AI深度集成IDE,社区好评不断。换装Sonnet后,Copilot用户很多都转向了Cursor。下面与Copilot做个对比。Copilot是插件思路,最初设计是侧重于代码补全和建议,而不是深度参与整个编程流程。集成Copilot的IDE厂商也不会有特别的定制,所以体验上参差不齐。再加上商业关系的捆绑,底层模型无法切换到Claude。Cursor是IDE思路,是一个魔改后的VS Code。在界面和交互体验上做了很多深度优化,更符合开发者的直觉。想让大模型发挥更大效用,就要让它更懂你的项目,Cursor在处理项目整体上下文的能力上恰恰有很大优势。Cursor之外,Claude新提供了一个命令行工具,Claud Engineer。提供更直接的文件系统操作和脚本执行能力,还能web搜索,在某些场景比IDE更方便。
Vercel v0,最近热度很高的代码生成工具,可以生成用户界面和代码,支持TS、React、Next.js等技术栈。热的原因是,生成的代码越来越接近生产标准了,或者说是程序员可接续编程的代码。Claude其实也有对应功能,叫Artifact,也能生成用户界面与代码。相比之下,Vercel v0更加接近这个领域的完全体。Vercel这个公司在前端领域扮演的角色越来越重要了。Next.js、Turbopack都是Vercel的,Vercel也不单关注提供单一的工具或框架,而是构建了一个生态系统,涵盖了从开发构建到部署运维的前端应用生命周期的各个方面。事实上,Vercel定位就是一个前端基础设施云厂商,靠云服务赚钱。在AI应用方面也有很多进展,利用AI技术来简化和加速开发流程。除了v0,还有一个AI SDK,用于构建基于AI Web应用的TypeScript库。
今年整理迭代了一下信源的整体质量,对信息分发有所感触。
互联网的信息分发经历过门户、搜索、订阅、推荐四个阶段,分发效率递增。
从订阅到推荐的一个标志性的事件是十年前Google把Google Reader关停。Google Reader是一个RSS阅读器,RSS订阅需要用户有较强的信息组织能力,需要不断的整理和控制RSS源,注定只能满足一小部分人的资讯诉求。随后国内外都进入到机器推荐的内容消费时代。
现有的推荐机制不能实现信源质量的跃迁,好的信源还是要靠比较传统的方式搜寻。与十年前相比,信息茧房所带来的不对称问题,不知道让人变得更加开放还是更加狭隘。信息孤岛带来了更加严峻的信源管理上的挑战,因为很多信源不直接提供订阅,而是分散在各个平台的"关注"。国外还能看到一些newsletter、RSS订阅,像substack这样的平台也允许读者与作者直接交互,它只提供技术和服务。但类似这样的信息分发并不是主流。
LLM正在对信息分发产生规模化影响,催生下一个阶段的到来。不知道接下来会发生什么。可能随着LLM下沉到操作系统层,会解构现有平台的分发逻辑。可能随着数据资产化的发展,大家以后都在给AI供稿。
分享一个最近体验中的App叫Ground News。理念上我觉得一定程度可以代表未来,LLM在其中还不是决定性因素。Ground News的设计就是为了对抗信息的不对称性,补充不同政治倾向的视角,避免滑向偏激。它对每一条新闻都有两个维度的细拆,分别是Bias和Factuality。Bias是政治倾向,根据报道该条新闻的媒体倾向,统计出左和右的比例。如果有一条多数右翼媒体报道的新闻,经常看左翼媒体的人就需要关注,不然大概率会错过。Factuality是真实性,Ground News不检查每一条新闻的真实性,是根据所报道的媒体统计出一个真实性百分值,对各媒体的评价主要是基于过往报道是否有可靠的出处,对错误信息是否及时更正。
最后更新于