基準資料集維護
本文件說明如何維護 PETsARD 的基準資料集。
儲存位置
所有基準資料集儲存於:
- 服務:AWS S3
- 組織:NICS-RA(國家資通安全研究院)
- 儲存桶:
petsard-benchmark
檔案校驗
SHA-256 校驗碼(僅供參考)
每個資料集都有 SHA-256 校驗碼用於檔案完整性驗證:
from petsard.loader.benchmarker import digest_sha256
hasher = digest_sha256(filepath)
hash_value = hasher.hexdigest()
系統會驗證 SHA-256 雜湊值的前七個字元。如果驗證失敗,會拋出錯誤。
維護流程
新增資料集
- 上傳資料集檔案到 S3 儲存桶
- 計算並記錄 SHA-256 校驗碼
- 更新
petsard/loader/benchmark_datasets.yaml
,包含:- 資料集名稱
- 檔案名稱
- SHA-256 雜湊值(前 7 個字元)
更新現有資料集
- 替換 S3 中的檔案
- 重新計算 SHA-256 校驗碼
- 更新
benchmark_datasets.yaml
中的雜湊值
設定檔
benchmark_datasets.yaml
檔案包含資料集登錄及用於驗證的 SHA-256 校驗碼。