README.md

# YRTV 项目说明 till 0.4.1

## 项目概览
yrtv这一块。

数据来源与处理核心包括：
- 比赛页面的 iframe JSON 数据（`iframe_network.json`）
- 可选的 demo 文件（`.zip/.dem`）
- L1A/L2 分层数据库建模与校验

## 数据流程
1. **下载与落盘**  
   通过 `downloader/downloader.py` 抓取比赛页面数据，生成 `output_arena/<match_id>/iframe_network.json`，并可同时下载 demo 文件。
2. **L1A 入库（原始 JSON）**  
   `ETL/L1A.py` 将 `output_arena/*/iframe_network.json` 批量写入 `database/L1A/L1A.sqlite`。
3. **L2 入库（结构化事实表/维度表）**  
   `ETL/L2_Builder.py` 读取 L1A 数据，按 `database/L2/schema.sql` 构建维度表与事实表，生成 `database/L2/L2_Main.sqlite`。
4. **质量校验与覆盖分析**  
   `ETL/verify/verify_L2.py` 与 `ETL/verify/verify_deep.py` 用于字段覆盖、分布、空值和互斥逻辑的检查。

## 目录结构
```
yrtv/
├── downloader/                 # 下载器（抓取 iframe JSON 与 demo）
│   ├── downloader.py
│   └── README.md
├── ETL/                        # ETL 脚本
│   ├── L1A.py
│   ├── L2_Builder.py
│   ├── README.md
│   └── verify/
│       ├── verify_L2.py
│       └── verify_deep.py
├── database/
│   ├── L1A/                    # L1A SQLite 与说明
│   ├── L1B/                    # L1B 目录（demo 解析结果说明）
│   ├── L2/                     # L2 SQLite 与 schema
│   └── original_json_schema/   # schema 扁平化与未覆盖字段清单
└── utils/
    └── json_extractor/         # JSON Schema 抽取工具
```

## 环境要求
- Python 3.11.4+
- Playwright（下载器依赖）
- pandas、numpy（校验脚本依赖）


## 数据库层级说明
### L1A
- **用途**：保存原始 iframe JSON
- **输入**：`output_arena/*/iframe_network.json`
- **输出**：`database/L1A/L1A.sqlite`
- **脚本**：`ETL/L1A.py`

### L1B
- **用途**：保存 demo 解析后的原始数据（由 demoparser2 产出）
- **输出**：`database/L1B/L1B.sqlite`
- 当前仓库提供目录与说明，解析流程需结合外部工具执行

### L2
结构化事实表/维度表数据库，覆盖比赛、玩家、回合与经济等数据：
- **Schema**：`database/L2/schema.sql`
- **输出**：`database/L2/L2_Main.sqlite`
- **核心表**：
  - `dim_players`、`dim_maps`
  - `fact_matches`、`fact_match_teams`
  - `fact_match_players`、`fact_match_players_t`、`fact_match_players_ct`
  - `fact_rounds`、`fact_round_events`、`fact_round_player_economy`

## JSON Schema 抽取工具
用于分析大量 `iframe_network.json` 的字段结构与覆盖情况，支持动态 Key 归并与多格式输出。

输出内容通常位于 `output_reports/` 或 `database/original_json_schema/`，包括：
- `schema_summary.md`：结构概览
- `schema_flat.csv`：扁平字段列表
- `uncovered_features.csv`：未覆盖字段清单

## 数据源互斥说明
L2 中 `fact_matches.data_source_type` 用于区分数据来源与字段覆盖范围：
- `classic`：含 round_list 详细回合与坐标信息
- `leetify`：含 leetify 评分与经济信息
- `unknown`：无法识别来源

入库逻辑保持互斥：同一场比赛只会按其来源覆盖相应字段，避免重复或冲突。