Loader YAML
Loader 模組的 YAML 設定檔案格式。
使用範例
請點擊下方按鈕在 Colab 中執行範例:
基本載入
Loader:
load_csv:
filepath: benchmark/adult-income.csv
使用表詮釋資料檔案
表詮釋資料就是 Schema,用於定義資料的結構與類型。
Loader:
load_with_schema:
filepath: benchmark/adult-income.csv
schema: benchmark/adult-income_schema.yaml
多個資料載入
Loader:
# Load training data
load_train:
filepath: benchmark/adult-income_ori.csv
schema: benchmark/adult-income_schema.yaml
# Load test data
load_test:
filepath: benchmark/adult-income_control.csv
schema: benchmark/adult-income_schema.yaml
# Load synthesizing data
load_synthesizer:
filepath: benchmark/adult-income_syn.csv
schema: benchmark/adult-income_schema.yaml
主要參數
filepath (
string
, 必要)- 資料檔案路徑
- 支援本地檔案路徑
schema (
string | dict
, 選用)- 資料結構定義
- 可為外部 YAML 檔案路徑(string)或內嵌的完整 Schema YAML(dict)
支援的檔案格式
格式 | 副檔名 | 說明 | 額外需求 |
---|---|---|---|
CSV | .csv , .tsv | 逗號/製表符分隔檔案 | - |
Excel | .xlsx , .xls | Excel 試算表 | 需安裝 openpyxl |
OpenDocument | .ods , .odf , .odt | OpenDocument 格式 | 需安裝 openpyxl |
Benchmark | benchmark:// | 基準資料集協議 | 需網路連線(首次下載) |
* 使用 Excel 和 OpenDocument 格式需要安裝 openpyxl
套件,請參閱安裝說明。
參數詳細說明
必要參數
參數 | 類型 | 預設值 | 說明 | 範例 |
---|---|---|---|---|
filepath | string | 無 | 資料檔案路徑 | data/users.csv |
選用參數
參數 | 類型 | 預設值 | 說明 | 範例 |
---|---|---|---|---|
schema | string|dict | null | 資料結構定義 | schemas/user.yaml 或內嵌 dict |
nrows | int | null | 讀取的資料列數,用於快速測試或減少記憶體使用 | 100 |
column_types | dict | null | 已棄用 v2.0.0 指定欄位類型,格式為 {type: [colname]} | {"category": ["gender"]} |
header_names | list | null | 已棄用 v2.0.0 為無表頭的資料指定欄位名稱 | ["age", "income"] |
na_values | string|list|dict | null | 已棄用 v2.0.0 額外的 NA/NaN 識別字串 | "N/A" 或 {"age": ["unknown"]} |
精度處理
Loader 會自動處理數值欄位的精度:
- 自動推斷:未提供 schema 時,自動偵測每個數值欄位的小數位數
- 精度記錄:推斷結果儲存在 schema 的
type_attr.precision
中 - 自動應用:載入資料後根據精度進行四捨五入
- 手動指定:可在 schema 中手動設定
type_attr.precision
來指定精度
相關說明
- 基準資料集:使用 benchmark:// 協議可自動下載並載入標準化的資料集,詳見 benchmark:// 文檔。
- 表詮釋資料:Schema 用於定義資料的結構、類型和約束條件,詳見 Schema YAML 文檔。
執行說明
- 實驗名稱(第二層)可自由命名,建議使用描述性名稱
- 可定義多個實驗,系統會依序執行
- 每個實驗的結果會傳遞給下一個模組使用
注意事項
- 檔案路徑支援相對路徑和絕對路徑
- Schema 配置優先順序:參數指定 > 自動推論
column_types
、na_values
和header_names
參數已棄用,將在 v2.0.0 移除- Excel 和 OpenDocument 格式需要安裝
openpyxl
套件 - Schema 的詳細設定請參閱 Schema YAML 文檔