benchmark://

Loader 支援使用 benchmark:// 協議自動下載並載入基準資料集。

使用範例

請點擊下方按鈕在 Colab 中執行範例:

Open In Colab

載入基準資料集

Loader:
  load_benchmark:
    filepath: benchmark://adult-income

載入基準資料集與基準資料集詮釋資料

Loader:
  load_benchmark_with_schema:
    filepath: benchmark://adult-income
    schema: benchmark://adult-income_schema

本地或基準資料所提供的 filepath 跟 schema 都可以交替使用。

可用的基準資料集

Demographic 資料集

資料集名稱協議路徑說明
Adult Incomebenchmark://adult-incomeUCI Adult Income 人口普查資料集(48,842 筆,15 欄位)
Adult Income Schemabenchmark://adult-income_schemaAdult Income 資料集的詮釋資料定義
Adult Income (Original)benchmark://adult-income_ori原始訓練資料(用於 demo)
Adult Income (Control)benchmark://adult-income_control控制組資料(用於 demo)
Adult Income (Synthetic)benchmark://adult-income_synSDV Gaussian Copula 合成資料(用於 demo)

Best Practices 範例資料集

資料集名稱協議路徑說明
Multi-table Companiesbenchmark://best-practices_multi-table_companies多表格範例 - 公司資料
Multi-table Applicationsbenchmark://best-practices_multi-table_applications多表格範例 - 申請資料
Multi-table Trackingbenchmark://best-practices_multi-table_tracking多表格範例 - 追蹤資料
Multi-timestampbenchmark://best-practices_multi-table多時間戳範例資料
Categorical & High-cardinalitybenchmark://best-practices_categorical_high-cardinality類別型與高基數範例資料

工作原理

  1. 協議偵測:Loader 偵測到 benchmark:// 協議
  2. 自動下載:從 AWS S3 儲存區下載資料集
  3. 驗證檢查:使用 SHA256 驗證資料完整性
  4. 本地快取:資料儲存在 benchmark/ 目錄
  5. 載入資料:使用本地路徑載入資料

使用時機

基準資料集適合用於:

  • 測試新演算法:在已知特性的資料上測試
  • 參數調校:比較不同參數設定的效果
  • 效能基準:與學術研究結果比較
  • 教學示範:提供標準化的範例資料

注意事項

  • 首次使用需要網路連線下載資料
  • 資料集會快取在本地 benchmark/ 目錄
  • 大型資料集下載可能需要較長時間
  • 協議名稱不區分大小寫(但建議使用小寫)
  • 所有資料集都經過 SHA256 驗證確保完整性