DC娱乐网

easy同学正在独立开发 Hermes 帮我总结的 OPC 情报,tg 好多天忘

easy同学正在独立开发 Hermes 帮我总结的 OPC 情报,tg 好多天忘了看,这周接入到飞书了。

🧭 ai-news 情报简报 | 6月19日

今天的 feed 信号集中在一个方向上:降低个人开发者接入和使用 AI 的门槛——无论是通过更便宜的模型、更快的检索、还是绕过额度限制的实用技巧。

1. 花 $100 训练的 VLM,图像路径延迟从 112ms 降到 1.1ms是什么Andi Marafioti 发了一篇工作:不用传统 vision encoder,只用 patchify → linear projection → positional embedding 三行架构,在 M3 Pro MacBook 上训练了一个 VLM,总训练成本仅 $100。图像编码延迟从 112ms 降到 1.1ms,端到端降低 30%。

为什么值得看

对于独立开发者来说,这是目前已知成本最低、速度最快的本地 VLM 方案。不需要昂贵的 GPU 集群,一台 MacBook 就能跑。这意味着把图片理解能力嵌入到自己的本地 agent 或产品中,变得非常实际。

可以怎么用

在自己的本地 agent 工作流里集成轻量图片理解(截图分析、UI 识别、文档 OCR),不必依赖云 API。训练脚本是公开的,可以直接复现和微调。2. Liquid AI 发布 LFM2.5 Embedding:1.5ms 延迟的 11 语言检索模型

是什么

Liquid AI 推出 LFM2.5-Embedding-350M 和 ColBERT-350M 两款多语言检索模型,覆盖 11 种语言,端到端检索延迟最低 1.5ms(企业栈),在多语言基准上达到最佳。

为什么值得看

对一个单人团队来说,RAG 的检索速度和多语言能力直接决定了产品体验。350M 参数很小,本地可跑,不需要依赖 OpenAI Embeddings API。特别适合面向非英语用户的 AI 产品。

可以怎么用

替代 OpenAI embeddings 做私有知识库检索,本地部署成本极低。中文在内的 11 语言覆盖让出海产品可以一套方案打多个市场。3. Codex 推出 Record & Replay:演示一次工作流,保存为可复用的 skill

是什么

OpenAI Developers 宣布 Codex 的 Record & Replay 功能:演示一次操作流程(比如报销、填表),Codex 就把它录制成一个可查看、可编辑的 skill,之后随时复用。录制的起止由你控制。

为什么值得看

这是 Codex 从"写代码"走向"自动化工程工作流"的关键一步。对一人公司来说,很多繁琐的重复操作(部署、测试、审批)可以录一次就自动化,不再需要每次都从头写 prompt。1.9M 观看,热度很高。

可以怎么用

把常用的部署流程、API 调用链、数据清洗步骤录一遍,下次一键运行。skill 可编辑,可以逐步迭代优化。4. DevSpace MCP:把 ChatGPT 网页版变成 Codex,相当于额度翻倍

是什么

开发者 waishnav 发布了一个叫 DevSpace 的 MCP 连接器, 安装后,可以通过 MCP 把网页版 ChatGPT 变成类似 Codex 的开发环境。国内开发者向阳乔木实测:ChatGPT 网页端开启开发模式后添加 MCP,就能读取本地文件,Codex 额度用完时继续用 ChatGPT 开发——相当于双倍额度。

为什么值得看

MCP 生态开始出现真正实用的"额度钻空子"方案。对于频繁用完 Codex 额度的独立开发者,这是一条立即可用的路径。而且说明 MCP 的通用性在快速扩展。

可以怎么用

直接用 安装,按配置步骤在 ChatGPT 设置中开启开发模式并添加 MCP。配额用光时无缝切换到 ChatGPT 继续干活。5. MOSS-TTS v1.5:本地运行的 30+ 语言语音克隆 TTS

是什么

MOSI 发布 MOSS-TTS Local Transformer v1.5,支持 30+ 语言,48kHz 采样率,本地可运行,能做任意语音克隆。

为什么值得看

语音产品对于独立开发者来说,API 成本一直是痛点。这套方案本地可跑,意味着可以无限量生成语音,无需按字符付费。30+ 语言对出海产品非常友好。

可以怎么用

给自己的产品加语音功能(朗读、语音助手、多语言配音),完全本地运行,零 API 成本。

6. Poolside Laguna M.1:开源的 256K 上下文编码模型

是什么

Poolside 开源了 Laguna M.1 模型权重,Apache 2.0 许可,256K 上下文长度,base 和 post-trained 两个版本均已上架 Hugging Face。

为什么值得看

256K 上下文的开源编码模型,意味着可以在本地或自己服务器上跑 coding agent,不用依赖第三方 API。Apache 2.0 许可对商业化友好。

可以怎么用

接入 Codex、Claude Code 或其他编码 agent 的 provider 后端作为备选模型,或者在需要处理超长代码库时使用。

📌 建议重点跟踪1. VLM 低成本训练路线 — 目前个人开发者做本地视觉 agent 性价比最高的方案,持续关注社区复现和工具链完善。2. Codex Record & Replay + DevSpace MCP — Codex 生态正在快速裂变出降低额度和提升复用率的工具,未来几周会有更多类似方案出现。3. Liquid AI LFM2.5 Embedding — 本地多语言检索的成本和速度已经接近商用水平,适合嵌入到自己的 RAG 产品中。4. MOSS-TTS v1.5 — 本地 TTS 的成熟度又上了一个台阶,值得在下一个语音产品中作为基础设施评估。