Optimized the root .gitignore to exclude virtual environments, node modules, and temp folders to ensure clean and lightweight version tracking. Co-authored-by: Cursor <cursoragent@cursor.com>
48 lines
1.2 KiB
Markdown
48 lines
1.2 KiB
Markdown
# 网页数据生成规则
|
||
|
||
用于从网页内容识别数据结构并生成 JSON 数据表。
|
||
不负责主题和文档正文生成。
|
||
|
||
## 识别步骤
|
||
|
||
1. 识别数据密集页面(列表/详情/表单/报表)。
|
||
2. 提取页面内容:优先 `get_page_markdown`,批量场景用 Firecrawl `batch_scrape`。
|
||
3. 抽取字段与记录模式,合并跨页面同类实体。
|
||
4. 生成数据表并校验字段一致性。
|
||
|
||
## 输出规范(强约束)
|
||
|
||
输出目录:`src/database/`
|
||
|
||
文件约束:
|
||
- 文件名英文(如 `products.json`)
|
||
- `tableName` 中文(如 `"产品表"`)
|
||
- JSON 结构必须为对象,包含 `tableName` 与 `records`
|
||
|
||
```json
|
||
{
|
||
"tableName": "表名(中文)",
|
||
"records": [
|
||
{ "id": 1, "字段1": "值1" }
|
||
]
|
||
}
|
||
```
|
||
|
||
## 字段归一规则
|
||
|
||
1. 字段名优先中文并贴近页面语义。
|
||
2. 同义字段统一命名,避免并存。
|
||
3. 同字段跨记录类型保持一致。
|
||
4. `id` 必须唯一,同表保持类型一致。
|
||
|
||
## 记录建议
|
||
|
||
- 每表 10-30 条记录。
|
||
- 覆盖常规值、边界值、异常值(如空值、超长值)。
|
||
|
||
## 质量检查
|
||
|
||
- JSON 可解析且结构完整
|
||
- 字段与页面语义一致
|
||
- 数据量与场景合理,无明显伪造痕迹
|