easy同学正在独立开发 Hermes 帮我总结的 OPC 情报，tg 好多天忘

easy同学正在独立开发 Hermes 帮我总结的 OPC 情报，tg 好多天忘了看，这周接入到飞书了。

🧭 ai-news 情报简报 | 6月19日

今天的 feed 信号集中在一个方向上：降低个人开发者接入和使用 AI 的门槛——无论是通过更便宜的模型、更快的检索、还是绕过额度限制的实用技巧。

1. 花 $100 训练的 VLM，图像路径延迟从 112ms 降到 1.1ms是什么Andi Marafioti 发了一篇工作：不用传统 vision encoder，只用 patchify → linear projection → positional embedding 三行架构，在 M3 Pro MacBook 上训练了一个 VLM，总训练成本仅 $100。图像编码延迟从 112ms 降到 1.1ms，端到端降低 30%。

为什么值得看

对于独立开发者来说，这是目前已知成本最低、速度最快的本地 VLM 方案。不需要昂贵的 GPU 集群，一台 MacBook 就能跑。这意味着把图片理解能力嵌入到自己的本地 agent 或产品中，变得非常实际。

可以怎么用

在自己的本地 agent 工作流里集成轻量图片理解（截图分析、UI 识别、文档 OCR），不必依赖云 API。训练脚本是公开的，可以直接复现和微调。2. Liquid AI 发布 LFM2.5 Embedding：1.5ms 延迟的 11 语言检索模型

是什么

Liquid AI 推出 LFM2.5-Embedding-350M 和 ColBERT-350M 两款多语言检索模型，覆盖 11 种语言，端到端检索延迟最低 1.5ms（企业栈），在多语言基准上达到最佳。

为什么值得看

对一个单人团队来说，RAG 的检索速度和多语言能力直接决定了产品体验。350M 参数很小，本地可跑，不需要依赖 OpenAI Embeddings API。特别适合面向非英语用户的 AI 产品。

可以怎么用

替代 OpenAI embeddings 做私有知识库检索，本地部署成本极低。中文在内的 11 语言覆盖让出海产品可以一套方案打多个市场。3. Codex 推出 Record & Replay：演示一次工作流，保存为可复用的 skill

是什么

OpenAI Developers 宣布 Codex 的 Record & Replay 功能：演示一次操作流程（比如报销、填表），Codex 就把它录制成一个可查看、可编辑的 skill，之后随时复用。录制的起止由你控制。

为什么值得看

这是 Codex 从"写代码"走向"自动化工程工作流"的关键一步。对一人公司来说，很多繁琐的重复操作（部署、测试、审批）可以录一次就自动化，不再需要每次都从头写 prompt。1.9M 观看，热度很高。

可以怎么用

把常用的部署流程、API 调用链、数据清洗步骤录一遍，下次一键运行。skill 可编辑，可以逐步迭代优化。4. DevSpace MCP：把 ChatGPT 网页版变成 Codex，相当于额度翻倍

是什么

开发者 waishnav 发布了一个叫 DevSpace 的 MCP 连接器，安装后，可以通过 MCP 把网页版 ChatGPT 变成类似 Codex 的开发环境。国内开发者向阳乔木实测：ChatGPT 网页端开启开发模式后添加 MCP，就能读取本地文件，Codex 额度用完时继续用 ChatGPT 开发——相当于双倍额度。

为什么值得看

MCP 生态开始出现真正实用的"额度钻空子"方案。对于频繁用完 Codex 额度的独立开发者，这是一条立即可用的路径。而且说明 MCP 的通用性在快速扩展。

可以怎么用

直接用安装，按配置步骤在 ChatGPT 设置中开启开发模式并添加 MCP。配额用光时无缝切换到 ChatGPT 继续干活。5. MOSS-TTS v1.5：本地运行的 30+ 语言语音克隆 TTS

是什么

MOSI 发布 MOSS-TTS Local Transformer v1.5，支持 30+ 语言，48kHz 采样率，本地可运行，能做任意语音克隆。

为什么值得看

语音产品对于独立开发者来说，API 成本一直是痛点。这套方案本地可跑，意味着可以无限量生成语音，无需按字符付费。30+ 语言对出海产品非常友好。

可以怎么用

给自己的产品加语音功能（朗读、语音助手、多语言配音），完全本地运行，零 API 成本。

6. Poolside Laguna M.1：开源的 256K 上下文编码模型

是什么

Poolside 开源了 Laguna M.1 模型权重，Apache 2.0 许可，256K 上下文长度，base 和 post-trained 两个版本均已上架 Hugging Face。

为什么值得看

256K 上下文的开源编码模型，意味着可以在本地或自己服务器上跑 coding agent，不用依赖第三方 API。Apache 2.0 许可对商业化友好。

可以怎么用

接入 Codex、Claude Code 或其他编码 agent 的 provider 后端作为备选模型，或者在需要处理超长代码库时使用。

📌 建议重点跟踪1. VLM 低成本训练路线 — 目前个人开发者做本地视觉 agent 性价比最高的方案，持续关注社区复现和工具链完善。2. Codex Record & Replay + DevSpace MCP — Codex 生态正在快速裂变出降低额度和提升复用率的工具，未来几周会有更多类似方案出现。3. Liquid AI LFM2.5 Embedding — 本地多语言检索的成本和速度已经接近商用水平，适合嵌入到自己的 RAG 产品中。4. MOSS-TTS v1.5 — 本地 TTS 的成熟度又上了一个台阶，值得在下一个语音产品中作为基础设施评估。

DC娱乐网

easy同学正在独立开发 Hermes 帮我总结的 OPC 情报，tg 好多天忘

热门分类