Files
ONE-OS/axhub-make/skills/web-page-workflow/asset-extraction.md
王冕 a27e3b8e43 feat: sync full workspace including web modules, docs, and configurations to Gitea
Optimized the root .gitignore to exclude virtual environments, node modules,
and temp folders to ensure clean and lightweight version tracking.

Co-authored-by: Cursor <cursoragent@cursor.com>
2026-06-09 18:12:25 +08:00

2.3 KiB
Raw Blame History

网页资产提取总流程(编排)

本文件只负责流程编排、工具选择和用户交互节奏。
具体生成规则请分别读取子文档:

  • 主题生成:skills/web-page-workflow/theme-generation.md
  • 文档生成:skills/web-page-workflow/doc-generation.md
  • 数据生成:skills/web-page-workflow/data-generation.md

输出目录约束

  • 主题:src/themes/<theme-key>/
  • 文档:src/docs/
  • 数据:src/database/

工具策略

默认优先使用本项目 MCP。
仅在以下场景切换/补充 Firecrawl MCP

  1. 本项目 MCP 调用失败
  2. 链接发现不足(少于 5 条)
  3. 需要批量抓取或结构化抽取
  4. 用户明确要求使用 Firecrawl

标准执行顺序

  1. 发现页面:用 get_page_map 获取链接集合,必要时 firecrawl_map 补齐。
  2. 确认范围:默认执行“主题 + 文档 + 数据”,可按用户要求裁剪。
  3. 主题生成:读取 theme-generation.md
  4. 文档生成:读取 doc-generation.md
  5. 数据生成:读取 data-generation.md
  6. 交付总结:列出产物路径、已完成项、待确认项。

默认方案(用户未明确需求)

  1. 提取主题并生成 DESIGN.md
  2. 生成页面地图与项目概览文档
  3. 识别并输出数据模型

用户交互话术

初始确认

您好,我可以帮您从网页提取主题、文档和数据。

我会按以下顺序执行:
1) 主题提取与规范文档
2) 项目文档生成
3) 数据模型生成

请先提供网页 URL一个或多个都可以

需求确认

已发现 [X] 个相关页面。

默认将执行:主题 + 文档 + 数据。
如果你只需要其中一部分,请直接告诉我(例如“只做主题”)。

进度通知

正在处理...
✓ 已完成页面发现
✓ 已完成主题生成
⏳ 正在生成文档与数据模型...

完成总结

✅ 已完成资产提取。

产物路径:
- 主题src/themes/<theme-key>/
- 文档src/docs/
- 数据src/database/

如需继续,我可以按指定 URL 生成还原页面。

执行原则

  • 先确认范围,再写文件。
  • 页面抓取不稳定时,先报告不确定项,再让用户决定是否补充链接/截图。
  • 主题、文档、数据之间保持命名一致与语义一致。