# 网页数据生成规则 用于从网页内容识别数据结构并生成 JSON 数据表。 不负责主题和文档正文生成。 ## 识别步骤 1. 识别数据密集页面(列表/详情/表单/报表)。 2. 提取页面内容:优先 `get_page_markdown`,批量场景用 Firecrawl `batch_scrape`。 3. 抽取字段与记录模式,合并跨页面同类实体。 4. 生成数据表并校验字段一致性。 ## 输出规范(强约束) 输出目录:`src/database/` 文件约束: - 文件名英文(如 `products.json`) - `tableName` 中文(如 `"产品表"`) - JSON 结构必须为对象,包含 `tableName` 与 `records` ```json { "tableName": "表名(中文)", "records": [ { "id": 1, "字段1": "值1" } ] } ``` ## 字段归一规则 1. 字段名优先中文并贴近页面语义。 2. 同义字段统一命名,避免并存。 3. 同字段跨记录类型保持一致。 4. `id` 必须唯一,同表保持类型一致。 ## 记录建议 - 每表 10-30 条记录。 - 覆盖常规值、边界值、异常值(如空值、超长值)。 ## 质量检查 - JSON 可解析且结构完整 - 字段与页面语义一致 - 数据量与场景合理,无明显伪造痕迹