# 网页数据生成规则

用于从网页内容识别数据结构并生成 JSON 数据表。  
不负责主题和文档正文生成。

## 识别步骤

1. 识别数据密集页面（列表/详情/表单/报表）。
2. 提取页面内容：优先 `get_page_markdown`，批量场景用 Firecrawl `batch_scrape`。
3. 抽取字段与记录模式，合并跨页面同类实体。
4. 生成数据表并校验字段一致性。

## 输出规范（强约束）

输出目录：`src/database/`

文件约束：
- 文件名英文（如 `products.json`）
- `tableName` 中文（如 `"产品表"`）
- JSON 结构必须为对象，包含 `tableName` 与 `records`

```json
{
  "tableName": "表名（中文）",
  "records": [
    { "id": 1, "字段1": "值1" }
  ]
}
```

## 字段归一规则

1. 字段名优先中文并贴近页面语义。
2. 同义字段统一命名，避免并存。
3. 同字段跨记录类型保持一致。
4. `id` 必须唯一，同表保持类型一致。

## 记录建议

- 每表 10-30 条记录。
- 覆盖常规值、边界值、异常值（如空值、超长值）。

## 质量检查

- JSON 可解析且结构完整
- 字段与页面语义一致
- 数据量与场景合理，无明显伪造痕迹