0.5.0: L3 ver1 Updated.
This commit is contained in:
19
README.md
19
README.md
@@ -1,4 +1,4 @@
|
||||
# YRTV 项目说明 till 0.4.1
|
||||
# YRTV 项目说明 till 0.5.0
|
||||
|
||||
## 项目概览
|
||||
yrtv这一块。
|
||||
@@ -6,7 +6,7 @@ yrtv这一块。
|
||||
数据来源与处理核心包括:
|
||||
- 比赛页面的 iframe JSON 数据(`iframe_network.json`)
|
||||
- 可选的 demo 文件(`.zip/.dem`)
|
||||
- L1A/L2 分层数据库建模与校验
|
||||
- L1A/L2/L3 分层数据库建模与校验
|
||||
|
||||
## 数据流程
|
||||
1. **下载与落盘**
|
||||
@@ -15,8 +15,10 @@ yrtv这一块。
|
||||
`ETL/L1A.py` 将 `output_arena/*/iframe_network.json` 批量写入 `database/L1A/L1A.sqlite`。
|
||||
3. **L2 入库(结构化事实表/维度表)**
|
||||
`ETL/L2_Builder.py` 读取 L1A 数据,按 `database/L2/schema.sql` 构建维度表与事实表,生成 `database/L2/L2_Main.sqlite`。
|
||||
4. **质量校验与覆盖分析**
|
||||
`ETL/verify/verify_L2.py` 与 `ETL/verify/verify_deep.py` 用于字段覆盖、分布、空值和互斥逻辑的检查。
|
||||
4. **L3 入库(特征集市)**
|
||||
`ETL/L3_Builder.py` 读取 L2 数据,计算 Basic 及 6 大挖掘能力维度特征,生成 `database/L3/L3_Features.sqlite`。
|
||||
5. **质量校验与覆盖分析**
|
||||
`ETL/verify/verify_L2.py` 与 `ETL/verify/verify_deep.py` 用于 L2 字段覆盖与逻辑检查。
|
||||
|
||||
## 目录结构
|
||||
```
|
||||
@@ -27,6 +29,7 @@ yrtv/
|
||||
├── ETL/ # ETL 脚本
|
||||
│ ├── L1A.py
|
||||
│ ├── L2_Builder.py
|
||||
│ ├── L3_Builder.py
|
||||
│ ├── README.md
|
||||
│ └── verify/
|
||||
│ ├── verify_L2.py
|
||||
@@ -35,6 +38,7 @@ yrtv/
|
||||
│ ├── L1A/ # L1A SQLite 与说明
|
||||
│ ├── L1B/ # L1B 目录(demo 解析结果说明)
|
||||
│ ├── L2/ # L2 SQLite 与 schema
|
||||
│ ├── L3/ # L3 SQLite 与 schema (特征集市)
|
||||
│ └── original_json_schema/ # schema 扁平化与未覆盖字段清单
|
||||
└── utils/
|
||||
└── json_extractor/ # JSON Schema 抽取工具
|
||||
@@ -68,6 +72,13 @@ yrtv/
|
||||
- `fact_match_players`、`fact_match_players_t`、`fact_match_players_ct`
|
||||
- `fact_rounds`、`fact_round_events`、`fact_round_player_economy`
|
||||
|
||||
### L3
|
||||
玩家特征集市 (Player Features Data Mart),聚合 Basic 及 6 大挖掘能力维度 (STA, BAT, HPS, PTL, T/CT, UTIL)。
|
||||
- **Schema**:`database/L3/schema.sql`
|
||||
- **输出**:`database/L3/L3_Features.sqlite`
|
||||
- **脚本**:`ETL/L3_Builder.py`
|
||||
- **核心表**:`dm_player_features` (玩家聚合画像)
|
||||
|
||||
## JSON Schema 抽取工具
|
||||
用于分析大量 `iframe_network.json` 的字段结构与覆盖情况,支持动态 Key 归并与多格式输出。
|
||||
|
||||
|
||||
Reference in New Issue
Block a user