介紹 TCIA 癌症影像檔案庫所採用的庋用流程(curation process),以及去識別化標準。
TCIA(The Cancer Imaging Archive)癌症影像檔案庫收集了臨床與臨床前(動物研究)放射學與病理學影像、臨床試驗資料(包括患者人口統計學資料與臨床結果)、標註與圖像衍生特徵,以及其他類型的臨床研究資料等(例如基因表達譜)。
TCIA 所收集的資料皆按照國際標準、美國法律與 UAMS(阿肯色大學)IRB 協議的要求進行去識別化,在提交資料之前都盡可能去除個人資料,並以加密方式上傳。
TCIA 會將收到的所有資料皆視為含有 PHI 個人資料,並存放於隔離的系統中進行處理,所有的 TCIA 人員皆受過 HIPAA 法規與程序面的培訓,而 TCIA 的伺服器則是由 UAMS IT 所管理的,就好像 UAMS 的臨床系統一樣,當資料進行完整的分析與去識別化流程之後,才將資料轉移至獨立的公開存儲庫供大眾使用,整個處理流程皆經過 UAMS 首席安全官審查。
TCIA 的專家會協助影像資料提交者進行 PHI 個人資料的清理,包含檔案名稱、標記中的個人資料等,當影像資料上傳之後,會進行影像烙印 PHI 資訊檢查、後設資料 PHI 資訊檢查、標記錯誤檢查、掃描品質問題檢查、檔案名稱與標記吻合性檢查。
TCIA 的專家會提供所有必要的影像去識別化工具,協助影像資料提交者進行 PHI 個人資料的去除,TCIA 所提供的去識別化工具皆已受到 NIH 認可,並且符合 DICOM 的去識別化規範。
TCIA 去識別化流程遵循 HIPAA 的 Safe Harbor Method 所定義的方式,對 DICOM 影像與資料進行去識別化,確保資料公開會不會包含 PHI 個人資料。
TCIA 遵循 HIPAA 的 Safe Harbor Method 所定義的方式進行去識別化,去除以下 18 種 PHI 資訊:
在影像提交站點以遵循 DICOM PS3.15 的 Attribute Confidentiality Profiles 規範的腳本,對 DICOM 影像進行去識別化處理,移除或修改所有被認為不安全的 DICOM 標籤,採行之實作方式為 Basic Application Confidentiality Profile 搭配以下選項:
TCIA 會將去識別化所使用的規則依據 DICOM 標準寫在 (0012,0063) De-identification Method 標籤中,包含 profile 與各選項的以下欄位:
DICOM 標準僅定義了最基本去識別化應該處理的 DICOM 元素,並不能保證能將所有 PHI 資訊清理或去除掉,使用者有責任確保自己的資料有去除或清理所有的 PHI 資訊以符合法令要求。
DICOM 的 Basic Application Confidentiality Profile 要求 Patient Name 與 Patient ID 在去識別化時必須修改成空白或其他值,TCIA 將透過 ID 對應表的方式將原始 Patient ID 對應至 TCIA 內部所使用的 ID 值,而此對應表是在資料遞送端所產生的,所有的 ID 轉換都在上傳影像資料之前完成,TCIA 無法取得原始的 Patient ID 資訊,而經過轉換之後的 Patient ID 也同樣套用至 Patient Name 標籤(一般的 DICOM 影像軟體通常會需要讀取並顯示 Patient Name)。而在完成去識別化之後,依據 DICOM 標準將 (0012,0062) Patient Identity Removed 設定為 YES
。
一般而言,Basic Application Confidentiality Profile 會將所有可能含有 PHI 資訊(包含任何可直接識別、間接識別個人的資訊)的 DICOM 標籤都移除掉,或是修改標籤內容,刪除地理資訊、日期、檢驗 ID、病患人口統計資訊、自由輸入之文字、供應商私有標籤等,都是為了盡可能降低唯一識別個人的可能性,而 DICOM 的去識別化選項允許保留某些特定的資訊,以提高影像資料在科學研究上的可用性與價值,但隨著保留選項的選用,也會同時增加含有 PHI 資訊的風險,此時就更須注意嚴格遵守去識別化的標準流程。
由於 DICOM 標準之中廣泛使用 UID,如果取得影像的使用者可以讀取影像來源 PACS 系統內的資訊,即可識別受試者,Basic Application Confidentiality Profile 規定所有的 UID 都必須被移除或修改,TCIA 使用自己的 UID 前綴,加上 8 碼 xxxx.yyyy
格式的編碼(xxxx
代表集合,yyyy
代表提交站點),最後再加上一串以原始 UID 算出的雜湊碼。
UID 除了唯一識別的作用之外,本身並沒有任何特殊意義,TCIA 加上 8 碼的 xxxx.yyyy
只是為了讓不同的提交站點再產生 UID 時不會出現重複 UID 的情況,透過 UID 的使用可以確保影像的 Series、Study 與受試者之間的保持關聯,乃至於 Secondary Capture Image、Structured Report、PET/CT 等影像之間的 Referenced Image 都在 TCIA 中維持有效的連結。
同一筆影像資料若重複上傳至 TCIA 就會產生出相同的 UID,藉此避免 TCIA 檔案庫中出現重複的影像資料,原始的 (0008,0050) Accession Number 也會搭配 16 位元字串以雜湊轉換,避免 DICOM 影像資料與原提交站點重新建立連結的可能性。
Retain Longitudinal With Modified Dates 選項允許保留修改過的日期(Date)與日期時間(DateTime)資訊,TCIA 會對日期與日期時間資料進行隨機的偏移轉換,但保留日期之間的縱向關係,因此研究者無從得知影像掃描的確切時間點,但兩組影像的掃描時間點差異還是會保留,例如假設後續追蹤的影像掃描發生在 120 天之後,這個 120 天的差異值還是會被保留下來。
除了日期(Date)與日期時間(DateTime)相關的 DICOM 標籤之外,其他標籤內的日期都會被移除,例如存在於 (0008,103E) Series Description 中的日期就會被移除。如果日期是 Code Meaning 中用於關聯特定函式庫版本的必要資訊,則該日期就會被保留。
在日期資訊被修改之後,會將 (0028,0303) Longitudinal Temporal Information Modified 設定為 MODIFIED
。
另外亦可考慮將距離基線(初次診斷)的天數寫進 Clinical Trial Study 的 (0012,0050) Clinical Trial Time Point ID 與 (0012,0051) Clinical Trial Time Point Description 標籤中,而基線的年份則可選擇性地寫在 (0013,1051) 標籤。
Retain Patient Characteristics 選項允許保留某些人口統計學資料作為研究使用,允許保留的資料如下:
若受試者的年齡超過 90 歲,則必須以 90+
來表示。
以下標籤在 Retain Patient Characteristics 選項中規定必須清理(clean,也就是以類似含意但不包含 PHI 的內容取代),TCIA 將其保留,並在庋用流程中檢核其中是否含有 PHI 資訊:
其餘人口統計學資料(例如生日、地址、宗教信仰等)則移除或清空。醫療單位的名稱、人員姓名、ID 等資訊若細節足以辨識至個人或設備,則也必須移除。
Clean Descriptors 選項允許保留自由輸入文字的 DICOM 標籤,以下在此選項之內的標籤都予以保留,並於庋用流程中檢核、清理其中的 PHI 資訊:
由於 (0040,0275) Request Attributes Sequence 標籤的內容通常含有 PHI 資訊,也鮮少具有科學上的研究價值,因此 TCIA 去識別化腳本會在影像遞送端去除此標籤。
許多這類的 DICOM 標籤含有至關重要的研究資訊,需要被妥善保留,若影像缺少 (0008,103E) Series Description 標籤,TCIA 會建立此標籤與內容以協助研究者使用此影像資料,建立標籤內容的方式與步驟如下:
localizer
字眼,則填入 LOCALIZER
。Contrast
加上 (0018,0010) Contrast/Bolus Agent 的內容。none
。Retain Device Identity 選項允許保留跟掃描設備相關的資訊,包含:
在 TCIA 庋用流程檢核之後,上述的 DICOM 標籤若不包含 PHI 資訊,就會被保留下來。而 (0008,1010) Station Name 通常都會含有掃描影像的站點資訊,因此 TCIA 會將此標籤移除。
在很多情況下,DICOM 儀器設備廠商並沒有提供儀器設備的一致性聲明(conformance statement),或者沒有充分定義私有標籤(private tags)中存儲的內容,但 DICOM 儀器設備廠商卻廣泛使用這些標籤來存儲與設備有關的資訊,而這類的資訊有時候對於影像資料的運用至關重要。
當影像提交至 TCIA 時,所有的私有標籤會先被保留下來,由 TCIA 庋用流程依據 Retain Safe Private 選項進行去識別化。
Retain Safe Private 選項允許保留私有標籤,TCIA 使用由 Posda 所維護的標籤字典(tag dictionary)來決定儀器設備廠商建立的私有標籤該如何處理,Posda 所維護的標籤字典是由四種著名的標籤字典所匯集而成:
此處額外採用的三種標籤字典可以更完整保留具有科學研究價值的 DICOM 標籤,TCIA 解決了四種標籤字典之間的差異問題,並且針對每一個所見的私有標籤,個別指定標籤的處理方式,審視其處理方式是否恰當。
若遇到不存在於 Posda 資料庫中的私有標籤,則會連同標籤的相關值(value)與描述(description)一起審視,並指定處理方式。若私有標籤不包含描述(description),則嘗試尋找製造商對標籤的定義,若無法找到相關的描述,則該標籤則以移除的方式處理。若遇到不存在於標籤字典中的私有標籤,或是定義上含有 PHI 資訊的私有標籤,TCIA 會直接將該標籤移除。
所有日期與日期時間的私有標籤,都比照標準標籤的處理方式,進行隨機的偏移轉換,保留日期之間的縱向關係。所有含有 UID 的私有標籤,也都比照標準標籤,以 TCIA 的 UID 前綴加上雜湊值的方式處理,這種方式可以保證 TCIA 資料庫中各影像之間的參照有效性。
所有私有標籤都會透過 tagSniffer 產生報告,並以人工檢查,並根據需要進行 PHI 資訊的刪除、清空、日期偏移或雜湊。
對於單一身體部位檢查的影像,該資訊會被放進每一張影像的 (0018,0015) Body Part Examined 標籤中,若遇到肉瘤影像集合或是影響多器官的癌症影像集合,可能會含有多種不同的身體部位檢查資訊,但一個 series 只會有一個身體部位檢查資訊。對於假體影像(phantom)則標示為 PHANTOM
。
TCIA 的去識別化流程會確保每張 DICOM 影像的每筆標籤都不含 Safe Harbor Method 所定義的 18 種 PHI 資訊,在影像提交端使用符合 DICOM PS3.15 的腳本刪除或修改被認為不安全的 DICOM 標籤(完整列表請參考 TCIA 網頁),而在 TCIA 端則採用 tagSniffer 從影像集合中取出所有不重複的值呈現於報表中,經由至少兩位專家人工檢核報表,並確認影像內是否有烙印的 PHI 資訊,移除所有 PHI 資訊之後,才會將影像由內部收案伺服器(Intake server)移至公開釋出伺服器(Public server)。
在 TCIA 所提供的 Table 1 中,定義了 TCIA 所提供的去識別化腳本所涵蓋的標籤範圍,以及所執行的去識別化動作,所有未列於此表中的 DICOM 標籤都會在 TCIA 的庋用流程中,透過 Posda 進行檢核與清理。