Files

王冕 a27e3b8e43 feat: sync full workspace including web modules, docs, and configurations to Gitea

Optimized the root .gitignore to exclude virtual environments, node modules,
and temp folders to ensure clean and lightweight version tracking.

Co-authored-by: Cursor <cursoragent@cursor.com>

2026-06-09 18:12:25 +08:00

1.2 KiB

Raw Permalink Blame History

网页数据生成规则

用于从网页内容识别数据结构并生成 JSON 数据表。
不负责主题和文档正文生成。

识别步骤

识别数据密集页面（列表/详情/表单/报表）。
提取页面内容：优先 get_page_markdown，批量场景用 Firecrawl batch_scrape。
抽取字段与记录模式，合并跨页面同类实体。
生成数据表并校验字段一致性。

输出规范（强约束）

输出目录：src/database/

文件约束：

文件名英文（如 products.json）
tableName 中文（如 "产品表"）
JSON 结构必须为对象，包含 tableName 与 records

{
  "tableName": "表名（中文）",
  "records": [
    { "id": 1, "字段1": "值1" }
  ]
}

字段归一规则

字段名优先中文并贴近页面语义。
同义字段统一命名，避免并存。
同字段跨记录类型保持一致。
id 必须唯一，同表保持类型一致。

记录建议

每表 10-30 条记录。
覆盖常规值、边界值、异常值（如空值、超长值）。

质量检查

JSON 可解析且结构完整
字段与页面语义一致
数据量与场景合理，无明显伪造痕迹

1.2 KiB Raw Permalink Blame History Unescape Escape

网页数据生成规则

识别步骤

输出规范（强约束）

字段归一规则

记录建议

质量检查

1.2 KiB

Raw Permalink Blame History