評測判讀:用途決定評測

評測判讀:用途決定評測

在完成資料準備後,如何評測合成資料的品質是確保其符合應用需求的關鍵步驟。評測策略應該根據合成資料的使用目的來決定,不同的應用場景需要不同的評測重點與標準。本章節將協助您根據資料用途,選擇適當的評測方法與參數設定。

合成資料的品質評估涵蓋三個核心面向:

  • 隱私保護力:確保合成資料不會洩漏原始資料中的個人隱私資訊
  • 資料保真度:衡量合成資料在統計特性上與原始資料的相似程度
  • 資料實用性:驗證合成資料在特定機器學習任務中的表現

對於這三個面向的重要性,本團隊建議都應優先確保隱私保護力達標,而後再根據不同的應用情境決定另外兩者的重要程度:

  • 資料釋出情境:當合成資料將對外公開或分享給第三方時,應追求高保真度以保持資料的通用價值
  • 特定任務建模:當合成資料用於特定機器學習任務(如資料增益、模型訓練)時,應追求高實用性以滿足任務需求
flowchart TD
    Start([開始評估])
    Diagnostic{Step 1:<br/>資料診斷性通過?}
    DiagnosticFail[資料結構問題<br/>需檢查合成過程]
    Privacy{Step 2:<br/>隱私保護力通過?}
    PrivacyFail[隱私風險過高<br/>需調整合成參數]
    Purpose{Step 3:<br/>合成資料使用目的?}
    Release[情境 A:<br/>資料釋出<br/>無特定下游任務]
    Task[情境 B:<br/>特定任務應用<br/>資料增益/模型訓練]
    FidelityFocus[評估重點:<br/>追求最高保真度]
    UtilityFocus[評估重點:<br/>追求高實用性<br/>保真度達標即可]

    Start --> Diagnostic
    Diagnostic -->|否| DiagnosticFail
    Diagnostic -->|是| Privacy
    Privacy -->|否| PrivacyFail
    Privacy -->|是| Purpose
    Purpose -->|A| Release
    Purpose -->|B| Task
    Release --> FidelityFocus
    Task --> UtilityFocus

    style Start fill:#e1f5fe
    style DiagnosticFail fill:#ffcdd2
    style PrivacyFail fill:#ffcdd2
    style FidelityFocus fill:#c8e6c9
    style UtilityFocus fill:#c8e6c9

章節導覽

一、隱私風險推估:保護力參數設定

隱私保護力是合成資料品質評估的首要關鍵。本節說明如何使用 Anonymeter 工具評測三種隱私攻擊模式(指認性、連結性、推論性),並提供參數設定建議與風險判讀標準。

二、釋出或建模:保真度或實用性

根據合成資料的使用目的,選擇保真度或實用性作為主要評測面向。本節說明資料釋出情境應追求高保真度,特定任務建模應追求高實用性,以及如何進行評測與判讀。

三、合成資料建模用途:實驗設計挑選

當合成資料用於特定機器學習任務時,實驗設計決定了如何訓練和評估模型。本節說明領域遷移和雙模型控制組兩種實驗設計的差異、選擇依據與應用情境。