歌

歌词经理

Lyric

https://quaily.com/lyric/feed/atom (RSS订阅地址)

mistermorph 的 Agent 安全开发札记

写一个 Agent... 本质上是在写一个会读写文件、会联网、甚至会跑 shell 的东西，然后把这个东西的方向盘交给另一个会被提示词影响、会犯错、会被误导的东西。所以我觉得可能把 Agent 当成一种权限系统工程更好，而不是提示词工程。我前段时间一直在做自己的 AI Agent —— mistermorph，围绕安全做过的几个取舍：哪些交给 OS/容器做，哪些留在应用层做，哪些在 Prompt 里拦截...以及我怎么实现 mistermorph。本文是经验分享，不是学术论文，不会讲如何完美防御（也不可能）。详细的实现，欢迎查看 mistermorph 的安全说明书几个原则不要让 LLM 看到秘密（token、API key、私钥）不要让 LLM 自由拼装 HTTP 请求，它会把秘密带出去控制好 bash 的缰绳能用 OS/容器解决的，别在别的地方重复发明应用层只保留 OS 很难表达的能力：内容 redaction、工作流 approval、目的地 egress allowlist 等等就是最小权限原则就酱。威胁模型 Agent 的风险有三类：外泄：把信息发到不该发的地方。泄密：把 key/token 这类敏感信息写进 prompt、日志、tool params、历史消息越权：做了没想让它做的动作（删文件、覆盖文件、跑 shell）解决这三类风险之前，需要确定系统边界在哪里。把边界确定了以后，prompt injection 的伤害上限会下降。即使它依然能骗 llm，但会撞墙。第一层：OS/容器负责能不能做有些策略更适合交给 OS/容器（或 systemd）做，因为它们有硬的 enforcement：不要给服务进程 sudo，只给普通用户权限。把 rootfs 设为只读，限制可写目录，而不是在 prompt 里设置 sensitive_path 或者 denylist 用 systemd 的硬化选项收紧能力面：ProtectSystem、ProtectHome、NoNewPrivileges、PrivateTmp 什么什么的。直接把 curl 等从系统里扬了，只允许用内置的 url_fetch 工具我对 prompt 层的期待很明确：它不是沙箱。它只能把一些“内容/工作流”风险压到最低。如果在企业内网跑 Agent，把把网络 egress 控制也尽量下沉到容器层甚至网络层会更好。我自己跑 mistermorph 时的实践：用 systemd，普通用户，基本的访问控制（参加这里第二层：不让模型接触秘密核心思路就是需要与外部交互时所需的密钥等东西永远不会出现在 prompt 里，而是通过别的东西代持。具体的解决方案有很多，比如说 MCP 就是一个解决方案，MCP 在其中扮演一个桥的作用；再比如在网络层做拆包做替换也可以。不过对于 Skills，我给 mister_morph 设计的方案是 auth_profile 实现就是让 agent 自己作为桥，它有密钥；skill 只允许调用 agent 提供的 tools（例如 url_fetch），然后由 agent 在 tools 里注入密钥（例如 url_fetch 注入到 Authorization 头）即使 mistermorph 也有 guard 去做信息的 redaction，也属于事后擦屁股，避免问题发生更好。例如，对于 moltbook，它自己原本的 SKILL.md 描述的权限控制不能说没有，只能说完全不存在。所以在 mistermorph 里，需要进行一些配置，在 moltbook 的 SKILL.md，需要写上一个 auth_profile，名字为 moltbook： auth_profiles: ["moltbook"] requirements: - http_client - file_io 对应地，在 config.yaml 里需要写上 secrets: enabled: true allow_profiles: ["moltbook"] require_skill_profiles: true auth_profiles: moltbook: credential: kind: api_key secret_ref: MOLTBOOK_API_KEY allow: url_prefixes: - "https://www.moltbook.com/api/v1/" methods: ["GET", "POST", "PATCH", "PUT", "DELETE"] follow_redirects: false allow_proxy: false deny_private_ips: true bindings: url_fetch: inject: location: header name: Authorization format: bearer 于是，moltbook 这个 skill 对外的访问会被限制只能访问约定域名，只能使用约定方法，不需要关系 API Key，因为 agent 会负责注入。哦对，moltbook 的 SKILL.md 我也大幅裁剪了。当然这类设计的副作用是：配置会更像“权限清单”，而不是“模型的输入”。但这是我想要的副作用。而且，之后对于 secrets 本身的管理也可以升级。例如从使用环境变量升级到 AWS 的 KMS 去。第三层：Guard Guard 这个模块，是用来擦屁股的。擦屁股这件事，要用很多纸。但是在用到最后一张纸之前，你永远都不知道最后一张纸是哪一张。原因很现实：安全策略的笛卡尔积会把系统复杂度炸掉，比如这样：对每个 tool 都有一套 policy 对每个 policy 又按 method/body/headers/path 做细分再加上 prompt 内容检测、上下文审计、IDS 风格规则…… 很快得到一个看起来很强，实际很难维护的系统。所以 MisterMorph 的 Guard 只保留三件事： 1. Outbound allowlist：典型的就是各类 allow_dirs, allow_url_prefixes。mistermorph 也做了很多。一些是在 prompt 里的安全围栏，一些是在代码级别的限制。 2. Redaction 所有的输入输出，尽可能地用规则去抹掉已知高风险信息。 3. Async approvals + audit 需要人工处理的动作就挂起，返回 pending，让外部系统去处理审批，然后所有风险行为能做审计。比如说使用 mistermorph 安装 remote skill 时，会先要求用户预览源码，然后使用 llm 做一次审计，然后再确认安装。总之总之，Guard 更多是一层应用内的安全栅栏，真正的边界还是要交给 OS/容器来画。最后过度自信和过度悲观都不好。既不能加几个 prompt 规则就够了，也不要讳疾忌医（只能关机）。我需要在 agent 部署在企业里赚钱呢。当把钥匙交给 agent 之前，至少要确定门有几道 / 哪些门是铁门 / 哪些门需要别人点头 / 以及谁在门口记账

歌词经理

mistermorph 的 Agent 安全开发札记

Vibe coding 现状观察（2026 年 1 月）

计算 MSTR 的 mNAV（官方算法）

人人都能写程序：Vibe Coding 与问题规模

关爱用户的可伸缩性

我最喜欢的悖论

Quaily 的开源项目

创造世界是一种什么样的体验

一代程序员王小波

幻觉

感谢竹白，以及如何支持竹白用户的迁移

⚖️ Function Calling vs MCP：来自开发者的实际对比

📊 在 Google Sheets 里调用 AI，OpenAI/Deepseek/Grok 同时帮你批量工作

AI 代替人类程序员进度观察表（2025 年 2 月版）

交易事实，而不是交易价格

Quaily 技术架构简介

做空世界的人们

大音希声，大象无形

对比一下 Macbook Air 和 Framework 13

入手 Framework Laptop

对几个邮件服务商的观感

看不见的费用：「手续费们」都是怎么来的

伟大的巫师经常独自行事，只要空气中的元素依然回应他的咒语和呼唤

不要总去人均 500 以上的地方吃饭

关于邮箱的一些冷知识

Mixin Safe 安全分析

Quaily 订阅者超过 9000人了，主要是想给我的朋友们带来笑容

质疑 PHP、理解 PHP、成为 PHP

AI 淘金热：是撸起袖子亲自淘还是卖铲子呢

学日语的一些乐趣

怎么让大公司不抄你

无聊的价值

V 神的 X 帐号被 SIM 劫持攻击是怎么回事

东京和上海的生活成本对比

笔记还是纯文本就好

不秃也变强：让 AI 当大师傅，编程和写作效率提升两三倍

Game-Fi 是在想屁吃：Play-to-Earn 与游戏内核之间的根本性冲突

用 llama.cpp 跑 llama 2，用 AMD Radeon RX 6900 做 GPU 加速

在日本生活：怎么润、劝退点、小贴士、挑战

在东京换驾照的知识点

歌词经理

mistermorph 的 Agent 安全开发札记

Vibe coding 现状观察（2026 年 1 月）

计算 MSTR 的 mNAV（官方算法）

人人都能写程序：Vibe Coding 与问题规模

关爱用户的可伸缩性

我最喜欢的悖论

Quaily 的开源项目

创造世界是一种什么样的体验

一代程序员王小波

幻觉

感谢竹白，以及如何支持竹白用户的迁移

⚖️ Function Calling vs MCP：来自开发者的实际对比

📊 在 Google Sheets 里调用 AI，OpenAI/Deepseek/Grok 同时帮你批量工作

AI 代替人类程序员进度观察表（2025 年 2 月版）

交易事实，而不是交易价格

Quaily 技术架构简介

做空世界的人们

大音希声，大象无形

对比一下 Macbook Air 和 Framework 13

入手 Framework Laptop

对几个邮件服务商的观感

看不见的费用：「手续费们」都是怎么来的

伟大的巫师经常独自行事，只要空气中的元素依然回应他的咒语和呼唤

不要总去人均 500 以上的地方吃饭

关于邮箱的一些冷知识

Mixin Safe 安全分析

Quaily 订阅者超过 9000人了，主要是想给我的朋友们带来笑容

质疑 PHP、理解 PHP、成为 PHP

AI 淘金热：是撸起袖子亲自淘还是卖铲子呢

学日语的一些乐趣

怎么让大公司不抄你

无聊的价值

V 神的 X 帐号被 SIM 劫持攻击是怎么回事

东京和上海的生活成本对比

笔记还是纯文本就好

不秃也变强：让 AI 当大师傅，编程和写作效率提升两三倍

Game-Fi 是在想屁吃：Play-to-Earn 与游戏内核之间的根本性冲突

用 llama.cpp 跑 llama 2，用 AMD Radeon RX 6900 做 GPU 加速