Loader YAML

Loader 模組的 YAML 設定檔案格式。

使用範例

請點擊下方按鈕在 Colab 中執行範例:

Open In Colab

基本載入

Loader:
  load_csv:
    filepath: benchmark/adult-income.csv

使用表詮釋資料檔案

表詮釋資料就是 Schema,用於定義資料的結構與類型。

Loader:
  load_with_schema:
    filepath: benchmark/adult-income.csv
    schema: benchmark/adult-income_schema.yaml

多個資料載入

Loader:
  # Load training data
  load_train:
    filepath: benchmark/adult-income_ori.csv
    schema: benchmark/adult-income_schema.yaml

  # Load test data
  load_test:
    filepath: benchmark/adult-income_control.csv
    schema: benchmark/adult-income_schema.yaml

  # Load synthesizing data
  load_synthesizer:
    filepath: benchmark/adult-income_syn.csv
    schema: benchmark/adult-income_schema.yaml

主要參數

  • filepath (string, 必要)

    • 資料檔案路徑
    • 支援本地檔案路徑
  • schema (string | dict, 選用)

    • 資料結構定義
    • 可為外部 YAML 檔案路徑(string)或內嵌的完整 Schema YAML(dict)

支援的檔案格式

格式副檔名說明額外需求
CSV.csv, .tsv逗號/製表符分隔檔案-
Excel.xlsx, .xlsExcel 試算表需安裝 openpyxl
OpenDocument.ods, .odf, .odtOpenDocument 格式需安裝 openpyxl
Benchmarkbenchmark://基準資料集協議需網路連線(首次下載)

* 使用 Excel 和 OpenDocument 格式需要安裝 openpyxl 套件,請參閱安裝說明。

參數詳細說明

必要參數

參數類型預設值說明範例
filepathstring資料檔案路徑data/users.csv

選用參數

參數類型預設值說明範例
schemastring|dictnull資料結構定義schemas/user.yaml 或內嵌 dict
nrowsintnull讀取的資料列數,用於快速測試或減少記憶體使用100
column_typesdictnull已棄用 v2.0.0 指定欄位類型,格式為 {type: [colname]}{"category": ["gender"]}
header_nameslistnull已棄用 v2.0.0 為無表頭的資料指定欄位名稱["age", "income"]
na_valuesstring|list|dictnull已棄用 v2.0.0 額外的 NA/NaN 識別字串"N/A"{"age": ["unknown"]}

精度處理

Loader 會自動處理數值欄位的精度:

  • 自動推斷:未提供 schema 時,自動偵測每個數值欄位的小數位數
  • 精度記錄:推斷結果儲存在 schema 的 type_attr.precision
  • 自動應用:載入資料後根據精度進行四捨五入
  • 手動指定:可在 schema 中手動設定 type_attr.precision 來指定精度

相關說明

  • 基準資料集:使用 benchmark:// 協議可自動下載並載入標準化的資料集,詳見 benchmark:// 文檔。
  • 表詮釋資料:Schema 用於定義資料的結構、類型和約束條件,詳見 Schema YAML 文檔。

執行說明

  • 實驗名稱(第二層)可自由命名,建議使用描述性名稱
  • 可定義多個實驗,系統會依序執行
  • 每個實驗的結果會傳遞給下一個模組使用

注意事項

  • 檔案路徑支援相對路徑和絕對路徑
  • Schema 配置優先順序:參數指定 > 自動推論
  • column_typesna_valuesheader_names 參數已棄用,將在 v2.0.0 移除
  • Excel 和 OpenDocument 格式需要安裝 openpyxl 套件
  • Schema 的詳細設定請參閱 Schema YAML 文檔