W11-Twitter算法演进与信源管理迭代
今年有一个持续的主题,迭代自己信源网络的筛选效率。
上周浅看了 Twitter 的推荐算法。用 Claude 的 Cowork 搭建了两个 schedule。
Twitter 的推荐算法在近几年经历了彻底的重构,也是为数不多开源核心代码库的社媒平台(马斯克说是唯一开源的平台),是学习先进搜广推很好的资料。
通过对比其早期开源的代码库(twitter/the-algorithm)与近期基于大模型的全新代码库(xai-org/x-algorithm),可以清晰地看到其推荐架构从高度依赖人工特征工程和启发式规则的复杂微服务,演进为基于 Transformer (Grok) 的端到端深度学习极简架构。
下边是对两个仓库构成和技术特点的对比总结,可以感受一下演进方向。
对比维度
2023 版 (The-Algorithm)
2025 版 (X-Algorithm)
技术栈
Scala / Java (JVM 生态)
Rust / Python (AI 生态)
特征工程
依赖数千个人工设计的统计特征
零人工特征,基于参与序列学习
核心模型
Heavy Ranker (48M 神经网络)
Grok-based Transformer
In-Network 存储
Timeline Cache / Fanout Service
Thunder (高性能 Rust 内存存储)
管道框架
Product Mixer (Scala)
Candidate Pipeline Crate (Rust)
检索逻辑
搜索索引 (Lucene) + 图遍历
向量化双塔模型 (Two-Tower)
开发效率
复杂特征管道,维护成本高
模块化组合 (Composable),逻辑简洁
看完 Twitter 的推荐算法,还是无法学以致用,只有写提示词的水平。用 Cowork 按照我的思维框架搭建了两个 schedule,一个用来跟踪市场,一个用来跟踪技术。迭代多次后,现在的版本基本能对齐我想要的品味。以下是具体 instruction 和最近的样例,供参考。
对全球市场和主要资产大类的跟踪:
Daily Market Briefing对主流科技机构、社区、媒体的跟踪:
Weekly Tech Top20简报或者助手的方式无法完全代替自己在各种社区随机游走,因为缺少了些随机性,少了些乐趣。
比如上周刷到的一篇很喜欢的博客,Temporal: The 9-Year Journey to Fix Time in JavaScript。来自彭博的JS团队,这个月刚开始发布技术博客,但应该是一个行业积累很深厚的团队。
这篇文章讲了 Temporal,这个 JS 自 ES2015 以来最重大的语言级扩展,还原了其漫长的标准形成历程。系统性地修复了 Date API 三十年来的历史问题,重新设计了一套完整的时间类型体系,多个 JS 引擎通过共享 Rust 实现库(temporal_rs)来降低实现成本、提高一致性。这应该是 JS 第一次在语言标准层面,以 Rust 实现为核心、多引擎采用的基础设施级方案。
最后更新于