Built 26/04/17 09:08commit f8ff6f9
知识运维流程
中文 | English
摘要
LLM wiki 的基本运作循环是 ingest、query、lint,以及按需进行的 taxonomy refactor。每次循环都会更新持久的 markdown 层,因此新资料和高价值答案都会成为被维护的知识库组成部分。
Ingest
- 直接读取原始资料,并保持它的实质内容稳定。
- 当仓库使用
llm-wikiskill bundle 时,应把resolve_vault.py、bootstrap_vault.py、lint_vault.py以及安全移动脚本视为围绕编辑循环的操作工具,而不是它的替代品。 raw/*.zh.md必须忠于原文,不要让 raw 译文层漂移成总结或解读。- 如果来源是截图或图片文件,先抽 OCR,再把它综合进 wiki。
- 如果来源是带本地截图或图表的 markdown,并且这些视觉内容会影响综合结果,也要先做 OCR。
- 如果截图是中文或中英混排,优先使用支持中文的 OCR 配置,例如
chi_sim+eng或chi_tra+eng。 - 把 raw PDF 视为 ingest backlog,而不是无法维护的附件:保留原始 PDF,先创建或刷新 markdown raw sibling,再把它综合进 wiki。
- 按文档长度和结构分流 PDF 翻译策略。较短的 PDF 通常可以直接从维护后的 markdown raw 生成
.zh.md;较长或表格密集的 PDF 则更适合走工具辅助抽取加清理路径。 - 如果 PDF 的版面、图表或插图会实质影响含义,把相关页面渲染成本地视觉资源,并从 markdown raw 文件里链接它们,让后续维护仍能核对来源。
- 在
wiki/sources/中创建或修订对应的 source page。 - 更新被该资料影响到的长期页面:概念、实体、主题或 overview。
- 更新
index.md、index.zh.md,并把一条 newest-first 的ingest记录插入到log.md顶部附近。
Query
- 从
index.md或index.zh.md开始发现相关长期页面。 - 优先基于 wiki 回答,只在综合结果缺失或需要验证时回看 raw 资料。
- 把耐久的答案回写到
wiki/answers/,或并入已有的长期页面。
Lint
- 先用 lint 脚本检查结构,再做编辑性维护。
- 持久化自动化状态,并把内容巡检与目录巡检拆开调度,这样同一个 scheduled loop 就不会抹掉彼此的上下文和节奏约束。
- 把例行清理先当作内容巡检:在退回到纯卫生清理前,先判断是否已经存在一两个足够明确、值得立刻落地的窄范围 taxonomy 移动。
- 查找矛盾、过时总结、缺失的 cross-link、孤儿页,以及值得拥有规范页面的重要概念。
- 把 lint pass 当成让知识库结构和综合能力不断变清晰的过程,而不只是修链接。
- 定时巡检应持久化明确的运行状态,让超时保持可见,并让下一轮能沿着未完成工作继续,而不是盲目重来。
- 启用自动化时,应该把高频内容巡检和低频 taxonomy refactor 巡检拆开,让新增内容整合与目录重组不要争用同一条调度链路。
- 如果某次维护会影响渲染结果或其他用户可见内容,要把仓库本地验证或站点构建作为最终预推送步骤。
Raw Taxonomy Refactors
- 当
raw/变得过平、或把不相关的来源家族混在一起时,对它做重组。 - 只要某个稳定 source family 或导航切片已经清晰到足以改善浏览体验,就可以开始重组。
- 主要触发信号应该是 family 边界是否明确,而不是目录里攒到了多少文件。
- 保持来源实质内容不变,把 raw 内的改动限制在移动后必须修复的链接和路径元数据上。
- 原始 raw 文件与
.zh.mdsibling 要一起移动,然后同步修复 source page、仓库文档和导航页里的下游链接。 - 重组后立刻重跑 lint,让 broken raw link 和缺失 raw 译文尽快暴露出来。
维护启发
- 优先修订 canonical 页面,而不是新建近义重复页。
- 让不确定性和已被替代的结论仍然可见。
- 在引入额外工具之前,尽量让简单的 markdown 结构承担系统的大部分能力。
- 当某个主题家族、来源家族或导航切片已经足够清晰时,就开始把 wiki 子树拆出来。
- 把 raw 目录变动当作编辑事件来看待:source path、raw 局部导航链接、source page、index 和 log 都可能一起漂移。
- 把 OCR 输出当成需要解释的证据,而不是真理,尤其是噪声较大或中英文混杂的截图;即使已经安装中文 OCR 语言包也一样。
- 周期性 consolidation 应把相对日期改成绝对日期,在源头修正矛盾,并让顶层索引保持足够短,以便廉价加载。
来源
- Karpathy 的 LLM Wiki Gist
- Codex LLM Wiki Skill
- Claude Code Auto Dream 记忆整合
- Codex 非交互模式
- Anthropic:长时应用开发的 Harness 设计