Optimized the root .gitignore to exclude virtual environments, node modules, and temp folders to ensure clean and lightweight version tracking. Co-authored-by: Cursor <cursoragent@cursor.com>
1.2 KiB
1.2 KiB
网页数据生成规则
用于从网页内容识别数据结构并生成 JSON 数据表。
不负责主题和文档正文生成。
识别步骤
- 识别数据密集页面(列表/详情/表单/报表)。
- 提取页面内容:优先
get_page_markdown,批量场景用 Firecrawlbatch_scrape。 - 抽取字段与记录模式,合并跨页面同类实体。
- 生成数据表并校验字段一致性。
输出规范(强约束)
输出目录:src/database/
文件约束:
- 文件名英文(如
products.json) tableName中文(如"产品表")- JSON 结构必须为对象,包含
tableName与records
{
"tableName": "表名(中文)",
"records": [
{ "id": 1, "字段1": "值1" }
]
}
字段归一规则
- 字段名优先中文并贴近页面语义。
- 同义字段统一命名,避免并存。
- 同字段跨记录类型保持一致。
id必须唯一,同表保持类型一致。
记录建议
- 每表 10-30 条记录。
- 覆盖常规值、边界值、异常值(如空值、超长值)。
质量检查
- JSON 可解析且结构完整
- 字段与页面语义一致
- 数据量与场景合理,无明显伪造痕迹