TCIA 癌症影像檔案庫庋用流程、去識別化標準

介紹 TCIA 癌症影像檔案庫所採用的庋用流程（curation process），以及去識別化標準。

TCIA 癌症影像檔案庫

TCIA（The Cancer Imaging Archive）癌症影像檔案庫收集了臨床與臨床前（動物研究）放射學與病理學影像、臨床試驗資料（包括患者人口統計學資料與臨床結果）、標註與圖像衍生特徵，以及其他類型的臨床研究資料等（例如基因表達譜）。

資料庋用（Data Curation）

TCIA 所收集的資料皆按照國際標準、美國法律與 UAMS（阿肯色大學）IRB 協議的要求進行去識別化，在提交資料之前都盡可能去除個人資料，並以加密方式上傳。

TCIA 會將收到的所有資料皆視為含有 PHI 個人資料，並存放於隔離的系統中進行處理，所有的 TCIA 人員皆受過 HIPAA 法規與程序面的培訓，而 TCIA 的伺服器則是由 UAMS IT 所管理的，就好像 UAMS 的臨床系統一樣，當資料進行完整的分析與去識別化流程之後，才將資料轉移至獨立的公開存儲庫供大眾使用，整個處理流程皆經過 UAMS 首席安全官審查。

病理影像庋用

TCIA 的專家會協助影像資料提交者進行 PHI 個人資料的清理，包含檔案名稱、標記中的個人資料等，當影像資料上傳之後，會進行影像烙印 PHI 資訊檢查、後設資料 PHI 資訊檢查、標記錯誤檢查、掃描品質問題檢查、檔案名稱與標記吻合性檢查。

醫學影像庋用

TCIA 的專家會提供所有必要的影像去識別化工具，協助影像資料提交者進行 PHI 個人資料的去除，TCIA 所提供的去識別化工具皆已受到 NIH 認可，並且符合 DICOM 的去識別化規範。

TCIA 去識別化流程遵循 HIPAA 的 Safe Harbor Method 所定義的方式，對 DICOM 影像與資料進行去識別化，確保資料公開會不會包含 PHI 個人資料。

TCIA 專家協助影像提交者在自己的系統中安裝 Java 環境與 CTP 等去識別化程式。
TCIA 專家協助影像提交者建立 ID 對應表（該表不會離開影像提交站點），以此表進行去識別化，並對研究日期等 PHI 資訊進行偏移處理。
TCIA 專家引導影像提交者完成幾筆實際影像的去識別化處理。
TCIA 專家協助影像提交者將資料從自己的 PACS 系統匯出，並上傳至 TCIA。過程中應避免使用 PACS 系統的去識別化功能，或是其他的去識別化軟體，因為許多的去識別化軟體會刪除研究者所需要的必要資訊。
TCIA 專家協助影像提交者使用 CTP 依據 DICOM PS3.15 的 Attribute Confidentiality Profiles 規範進行影像資料的去識別化。
TCIA 品質管控與庋用人員會與提交者合作，確認影像被完整去識別化，並且正確無誤上傳至 TCIA，並進行額外的審核，刪除任何影像資料中遺留的 PHI 資訊。
完成以上檢核流程後，即可發布提交的影像。

TCIA 採用之軟體

Clinical Trials Processor（CTP）: Clinical Trials Processor（CTP）是一套以 Java 開發的 DICOM 影像處理工具，TCIA 以 CTP 作為影像去識別化的標準工具，提交者在上傳影像之前都必須經過 CTP 的去識別化處理。
CTP Wizard: CTP Wizard 是由 TCIA 所開發的輔助程式，提供圖形化介面讓使用者更方便進行 DICOM 影像的匯入、去識別化與匯出。
Posda: Posda 是一個開放原始碼的 DICOM 影像資料歸檔與管理工具，在收到提交者的資料之後，TCIA 的專家透過 Posda 進行品質的檢查，確認影像資料皆經過妥善的去識別化處理，並檢查重複 UID 問題，確保影像的一致性與參照的完整性，同時符合 DICOM 標準。

DICOM 去識別化

TCIA 遵循 HIPAA 的 Safe Harbor Method 所定義的方式進行去識別化，去除以下 18 種 PHI 資訊：

姓名：Names
地理位置：All geographic subdivisions smaller than a state, including street address, city, county, precinct, ZIP code, and their equivalent geocodes, except for the initial three digits of the ZIP code if, according to the current publicly available data from the Bureau of the Census:
- The geographic unit formed by combining all ZIP codes with the same three initial digits contains more than 20,000 people; and
- The initial three digits of a ZIP code for all such geographic units containing 20,000 or fewer people is changed to 000
各種日期：All elements of dates (except year) for dates that are directly related to an individual, including birth date, admission date, discharge date, death date, and all ages over 89 and all elements of dates (including year) indicative of such age, except that such ages and elements may be aggregated into a single category of age 90 or older
電話號碼：Telephone numbers
傳真號碼：Fax Numbers
電子郵件地址：Email addresses
社會安全號碼：Social Security numbers
病歷號碼：Medical record numbers
醫療計畫或保險碼：Health plan beneficiary numbers
銀行帳號：Account numbers
各種證照編號：Certificate/license numbers
車牌、車籍資料：Vehicle identifiers and serial numbers, including license plate numbers
設備編號或序號：Device identifiers and serial numbers
網路位址：Website URLs
IP 位址：IP addresses
生物識別資料：Biometric identifiers, including finger and voice prints
臉部照片：Full-face photographs and any comparable images
其他可識別個人之特徵與編號：Any other unique identifying number, characteristic, or code

在影像提交站點以遵循 DICOM PS3.15 的 Attribute Confidentiality Profiles 規範的腳本，對 DICOM 影像進行去識別化處理，移除或修改所有被認為不安全的 DICOM 標籤，採行之實作方式為 Basic Application Confidentiality Profile 搭配以下選項：

TCIA 會將去識別化所使用的規則依據 DICOM 標準寫在 (0012,0063) De-identification Method 標籤中，包含 profile 與各選項的以下欄位：

(0008,0100) Code Value
(0008,0102) Coding Scheme Designator
(0008,0104) Code Meaning

DICOM 標準僅定義了最基本去識別化應該處理的 DICOM 元素，並不能保證能將所有 PHI 資訊清理或去除掉，使用者有責任確保自己的資料有去除或清理所有的 PHI 資訊以符合法令要求。

基本去識別化

DICOM 的 Basic Application Confidentiality Profile 要求 Patient Name 與 Patient ID 在去識別化時必須修改成空白或其他值，TCIA 將透過 ID 對應表的方式將原始 Patient ID 對應至 TCIA 內部所使用的 ID 值，而此對應表是在資料遞送端所產生的，所有的 ID 轉換都在上傳影像資料之前完成，TCIA 無法取得原始的 Patient ID 資訊，而經過轉換之後的 Patient ID 也同樣套用至 Patient Name 標籤（一般的 DICOM 影像軟體通常會需要讀取並顯示 Patient Name）。而在完成去識別化之後，依據 DICOM 標準將 (0012,0062) Patient Identity Removed 設定為 YES。

一般而言，Basic Application Confidentiality Profile 會將所有可能含有 PHI 資訊（包含任何可直接識別、間接識別個人的資訊）的 DICOM 標籤都移除掉，或是修改標籤內容，刪除地理資訊、日期、檢驗 ID、病患人口統計資訊、自由輸入之文字、供應商私有標籤等，都是為了盡可能降低唯一識別個人的可能性，而 DICOM 的去識別化選項允許保留某些特定的資訊，以提高影像資料在科學研究上的可用性與價值，但隨著保留選項的選用，也會同時增加含有 PHI 資訊的風險，此時就更須注意嚴格遵守去識別化的標準流程。

檢驗 ID

由於 DICOM 標準之中廣泛使用 UID，如果取得影像的使用者可以讀取影像來源 PACS 系統內的資訊，即可識別受試者，Basic Application Confidentiality Profile 規定所有的 UID 都必須被移除或修改，TCIA 使用自己的 UID 前綴，加上 8 碼 xxxx.yyyy 格式的編碼（xxxx 代表集合，yyyy 代表提交站點），最後再加上一串以原始 UID 算出的雜湊碼。

UID 除了唯一識別的作用之外，本身並沒有任何特殊意義，TCIA 加上 8 碼的 xxxx.yyyy 只是為了讓不同的提交站點再產生 UID 時不會出現重複 UID 的情況，透過 UID 的使用可以確保影像的 Series、Study 與受試者之間的保持關聯，乃至於 Secondary Capture Image、Structured Report、PET/CT 等影像之間的 Referenced Image 都在 TCIA 中維持有效的連結。

同一筆影像資料若重複上傳至 TCIA 就會產生出相同的 UID，藉此避免 TCIA 檔案庫中出現重複的影像資料，原始的 (0008,0050) Accession Number 也會搭配 16 位元字串以雜湊轉換，避免 DICOM 影像資料與原提交站點重新建立連結的可能性。

日期

Retain Longitudinal With Modified Dates 選項允許保留修改過的日期（Date）與日期時間（DateTime）資訊，TCIA 會對日期與日期時間資料進行隨機的偏移轉換，但保留日期之間的縱向關係，因此研究者無從得知影像掃描的確切時間點，但兩組影像的掃描時間點差異還是會保留，例如假設後續追蹤的影像掃描發生在 120 天之後，這個 120 天的差異值還是會被保留下來。

除了日期（Date）與日期時間（DateTime）相關的 DICOM 標籤之外，其他標籤內的日期都會被移除，例如存在於 (0008,103E) Series Description 中的日期就會被移除。如果日期是 Code Meaning 中用於關聯特定函式庫版本的必要資訊，則該日期就會被保留。

在日期資訊被修改之後，會將 (0028,0303) Longitudinal Temporal Information Modified 設定為 MODIFIED。

另外亦可考慮將距離基線（初次診斷）的天數寫進 Clinical Trial Study 的 (0012,0050) Clinical Trial Time Point ID 與 (0012,0051) Clinical Trial Time Point Description 標籤中，而基線的年份則可選擇性地寫在 (0013,1051) 標籤。

人口統計學資料

Retain Patient Characteristics 選項允許保留某些人口統計學資料作為研究使用，允許保留的資料如下：

(0010,0040) Patient’s Sex
(0010,1010) Patient’s Age
(0010,1020) Patient’s Size
(0010,1030) Patient’s Weight
(0010,2160) Ethnic Group
(0010,21A0) Smoking Status
(0010,21C0) Pregnancy Status

若受試者的年齡超過 90 歲，則必須以 90+ 來表示。

以下標籤在 Retain Patient Characteristics 選項中規定必須清理（clean，也就是以類似含意但不包含 PHI 的內容取代），TCIA 將其保留，並在庋用流程中檢核其中是否含有 PHI 資訊：

(0010,2110) Allergies
(0038,0500) Patient State
(0040,0012) Pre-Medication
(0038,0050) Special Needs

其餘人口統計學資料（例如生日、地址、宗教信仰等）則移除或清空。醫療單位的名稱、人員姓名、ID 等資訊若細節足以辨識至個人或設備，則也必須移除。

自由輸入文字

Clean Descriptors 選項允許保留自由輸入文字的 DICOM 標籤，以下在此選項之內的標籤都予以保留，並於庋用流程中檢核、清理其中的 PHI 資訊：

(0010,2110) Allergies
(0038,0500) Patient State
(0008,1030) Study Description
(0008,103E) Series Description
(0008,1080) Admitting Diagnoses Description
(0008,1084) Admitting Diagnoses Code Sequence
(0008,2111) Derivation Description
(0008,4000) Identifying Comments
(0010,2000) Medical Alerts
(0010,2180) Occupation
(0010,21B0) Additional Patient History
(0010,4000) Patient Comments
(0018,0010) Contrast/Bolus Agent
(0018,1030) Protocol Name
(0018,1400) Acquisition Device Processing Description
(0018,4000) Acquisition Comments
(0018,9424) Acquisition Protocol Description
(0018,A003) Contribution Description
(0020,4000) Image Comments
(0020,9158) Frame Comments
(0032,1030) Reason for Study
(0032,1060) Requested Procedure Description
(0032,1070) Requested Contrast Agent
(0032,4000) Study Comments
(0038,0040) Discharge Diagnosis Description
(0038,0062) Service Episode Description
(0038,4000) Visit Comments
(0040,0007) Scheduled Procedure Step Description
(0040,0254) Performed Procedure Step Description
(0040,0280) Comments on the Performed Procedure Step
(0040,1400) Requested Procedure Comments
(0040,2001) Reason for the Imaging Service Request
(0040,2400) Imaging Service Request Comments
(4008,010B) Interpretation Text
(4008,0115) Interpretation Diagnosis Description
(4008,0300) Impressions
(4008,4000) Results Comments

由於 (0040,0275) Request Attributes Sequence 標籤的內容通常含有 PHI 資訊，也鮮少具有科學上的研究價值，因此 TCIA 去識別化腳本會在影像遞送端去除此標籤。

許多這類的 DICOM 標籤含有至關重要的研究資訊，需要被妥善保留，若影像缺少 (0008,103E) Series Description 標籤，TCIA 會建立此標籤與內容以協助研究者使用此影像資料，建立標籤內容的方式與步驟如下：

若 (0008,0008) Image Type 含有 localizer 字眼，則填入 LOCALIZER。
若 (0018,0010) Contrast/Bolus Agent 有值，則附加填入 Contrast 加上 (0018,0010) Contrast/Bolus Agent 的內容。
若 (0018,0010) Contrast/Bolus Agent 不存在或為空值，則檢查其他標籤，確認影像在掃描時是否有使用對比劑（顯影劑），例如 (0020,4000) Image Comments 就是一個很常用於著名對比劑使用的標籤。
若影像屬於 MR 類型，則 TCIA 會將 (0018,0020) Scanning Sequence 的內容放入 (0008,103E) Series Description 中。
若以上條件都不符合，則 TCIA 會採用 (0018,0022) Scan Options 的內容，或是直接填入 none。

設備

Retain Device Identity 選項允許保留跟掃描設備相關的資訊，包含：

(0008,1010) Station Name
(0018,1000) Device Serial Number
(0018,1002) Device UID
(0018,1004) Plate ID
(0018,1005) Generator ID
(0018,1007) Cassette ID
(0018,1008) Gantry ID
(0018,700A) Detector ID
(0032,1020) Scheduled Study Location
(0032,1021) Scheduled Study Location AE Title
(0040,0001) Scheduled Station AE Title
(0040,0010) Scheduled Station Name
(0040,0011) Scheduled Procedure Step Location
(0040,0241) Performed Station AE Title
(0040,0242) Performed Station Name
(0040,4028) Performed Station Name Code Sequence
(0040,4025) Scheduled Station Name Code Sequence
(0040,4027) Scheduled Station Geographic Location Code Sequence
(0040,4030) Performed Station Geographic Location Code Sequence

在 TCIA 庋用流程檢核之後，上述的 DICOM 標籤若不包含 PHI 資訊，就會被保留下來。而 (0008,1010) Station Name 通常都會含有掃描影像的站點資訊，因此 TCIA 會將此標籤移除。

私有標籤

在很多情況下，DICOM 儀器設備廠商並沒有提供儀器設備的一致性聲明（conformance statement），或者沒有充分定義私有標籤（private tags）中存儲的內容，但 DICOM 儀器設備廠商卻廣泛使用這些標籤來存儲與設備有關的資訊，而這類的資訊有時候對於影像資料的運用至關重要。

當影像提交至 TCIA 時，所有的私有標籤會先被保留下來，由 TCIA 庋用流程依據 Retain Safe Private 選項進行去識別化。

Retain Safe Private 選項允許保留私有標籤，TCIA 使用由 Posda 所維護的標籤字典（tag dictionary）來決定儀器設備廠商建立的私有標籤該如何處理，Posda 所維護的標籤字典是由四種著名的標籤字典所匯集而成：

此處額外採用的三種標籤字典可以更完整保留具有科學研究價值的 DICOM 標籤，TCIA 解決了四種標籤字典之間的差異問題，並且針對每一個所見的私有標籤，個別指定標籤的處理方式，審視其處理方式是否恰當。

若遇到不存在於 Posda 資料庫中的私有標籤，則會連同標籤的相關值（value）與描述（description）一起審視，並指定處理方式。若私有標籤不包含描述（description），則嘗試尋找製造商對標籤的定義，若無法找到相關的描述，則該標籤則以移除的方式處理。若遇到不存在於標籤字典中的私有標籤，或是定義上含有 PHI 資訊的私有標籤，TCIA 會直接將該標籤移除。

所有日期與日期時間的私有標籤，都比照標準標籤的處理方式，進行隨機的偏移轉換，保留日期之間的縱向關係。所有含有 UID 的私有標籤，也都比照標準標籤，以 TCIA 的 UID 前綴加上雜湊值的方式處理，這種方式可以保證 TCIA 資料庫中各影像之間的參照有效性。

所有私有標籤都會透過 tagSniffer 產生報告，並以人工檢查，並根據需要進行 PHI 資訊的刪除、清空、日期偏移或雜湊。

檢查的身體部位

對於單一身體部位檢查的影像，該資訊會被放進每一張影像的 (0018,0015) Body Part Examined 標籤中，若遇到肉瘤影像集合或是影響多器官的癌症影像集合，可能會含有多種不同的身體部位檢查資訊，但一個 series 只會有一個身體部位檢查資訊。對於假體影像（phantom）則標示為 PHANTOM。

所有標籤

TCIA 的去識別化流程會確保每張 DICOM 影像的每筆標籤都不含 Safe Harbor Method 所定義的 18 種 PHI 資訊，在影像提交端使用符合 DICOM PS3.15 的腳本刪除或修改被認為不安全的 DICOM 標籤（完整列表請參考 TCIA 網頁），而在 TCIA 端則採用 tagSniffer 從影像集合中取出所有不重複的值呈現於報表中，經由至少兩位專家人工檢核報表，並確認影像內是否有烙印的 PHI 資訊，移除所有 PHI 資訊之後，才會將影像由內部收案伺服器（Intake server）移至公開釋出伺服器（Public server）。

在 TCIA 所提供的 Table 1 中，定義了 TCIA 所提供的去識別化腳本所涵蓋的標籤範圍，以及所執行的去識別化動作，所有未列於此表中的 DICOM 標籤都會在 TCIA 的庋用流程中，透過 Posda 進行檢核與清理。