Files
ONE-OS/axhub-make/skills/web-page-workflow/data-generation.md
王冕 a27e3b8e43 feat: sync full workspace including web modules, docs, and configurations to Gitea
Optimized the root .gitignore to exclude virtual environments, node modules,
and temp folders to ensure clean and lightweight version tracking.

Co-authored-by: Cursor <cursoragent@cursor.com>
2026-06-09 18:12:25 +08:00

1.2 KiB
Raw Permalink Blame History

网页数据生成规则

用于从网页内容识别数据结构并生成 JSON 数据表。
不负责主题和文档正文生成。

识别步骤

  1. 识别数据密集页面(列表/详情/表单/报表)。
  2. 提取页面内容:优先 get_page_markdown,批量场景用 Firecrawl batch_scrape
  3. 抽取字段与记录模式,合并跨页面同类实体。
  4. 生成数据表并校验字段一致性。

输出规范(强约束)

输出目录:src/database/

文件约束:

  • 文件名英文(如 products.json
  • tableName 中文(如 "产品表"
  • JSON 结构必须为对象,包含 tableNamerecords
{
  "tableName": "表名(中文)",
  "records": [
    { "id": 1, "字段1": "值1" }
  ]
}

字段归一规则

  1. 字段名优先中文并贴近页面语义。
  2. 同义字段统一命名,避免并存。
  3. 同字段跨记录类型保持一致。
  4. id 必须唯一,同表保持类型一致。

记录建议

  • 每表 10-30 条记录。
  • 覆盖常规值、边界值、异常值(如空值、超长值)。

质量检查

  • JSON 可解析且结构完整
  • 字段与页面语义一致
  • 数据量与场景合理,无明显伪造痕迹