[Methodology and Attribution Success of a Data Linkage of Clinical Registry Data with Health Insurance Data]

Gesundheitswesen. 2023 Mar;85(S 02):S154-S161. doi: 10.1055/a-1984-0085. Epub 2023 Mar 20.
[Article in German]

Abstract

Background: The aim of the project "Effectiveness of care in oncological centres" (WiZen), funded by the innovation fund of the federal joint committee, is to investigate the effectiveness of certification in oncology. The project uses nationwide data from the statuory health insurance AOK and data from clinical cancer registries from three different federal states from 2006-2017. To combine the strengths of both data sources, these will be linked for eight different cancer entities in compliance with data protection regulations.

Methods: Data linkage was performed using indirect identifiers and validated using the health insurance's patient ID ("Krankenversichertennummer") as a direct identifier and gold standard. This enables quantification of the quality of different linkage variants. Sensitivity and specificity as well as hit accuracy and a score addressing the quality of the linkage were used as evaluation criteria. The distributions of relevant variables resulting from the linkage were validated against the original distributions in the individual datasets.

Results: Depending on the combination of indirect identifiers, we found a range of 22,125 to 3,092,401 linkage hits. An almost perfect linkage could be achieved by combining information on cancer type, date of birth, gender and postal code. A total of 74,586 one-to-one linkages were achieved with these characteristics. The median hit quality for the different entities was more than 98%. In addition, both the age and sex distributions and the dates of death, if any, showed a high degree of agreement.

Discussion and conclusion: SHI and cancer registry data can be linked with high internal and external validity at the individual level. This robust linkage enables completely new possibilities for analysis through simultaneous access to variables from both data sets ("the best of both worlds"): Information on the UICC stage that stems from the registries can now be combined, for instance, with comorbidities from the SHI data at the individual level. Due to the use of readily available variables and the high success of the linkage, our procedure constitutes a promising method for future linkage processes in health care research.

Hintergrund: Das vom Innovationsfonds geförderte Projekt „Wirksamkeit der Versorgung in onkologischen Zentren“ (WiZen) ist ein breit angelegtes Projekt zur Erforschung der Wirksamkeit von Zertifizierungen in der Onkologie. Im Rahmen des Projektes werden bundesweite Daten der AOKen und Daten Klinischer Krebsregister aus verschiedenen Bundesländern für die Jahre 2006–2017 verwendet. Zur Kombination der Stärken beider Datenquellen werden diese für acht verschiedene Krebsentitäten datenschutzkonform miteinander verknüpft.

Methoden: Das Datenlinkage erfolgte dabei anhand indirekter Identifikatoren und wurde mittels der Krankenversichertennummer als direktem Identifikator und Goldstandard validiert. Dies ermöglicht die Quantifizierung von Potenzial und Qualität verschiedener Linkage-Varianten. Als Kriterien zur Bewertung der Zuordnungen wurden Sensitivität und Spezifität sowie Treffergenauigkeit und Treffergüte genutzt. Die durch das Linkage resultierenden Verteilungen relevanter Variablen wurden anhand der ursprünglichen Verteilungen in den Einzeldatensätzen validiert.

Ergebnisse: Je nach Kombination indirekter Identifikatoren ergab sich eine Bandbreite von 22.125 bis 3.092.401 Linkage-Treffern. Eine nahezu perfekte Verknüpfung der betrachteten Daten konnte durch die Kombination von Informationen zu Entitätsart, Geburtsdatum, Geschlecht und Postleitzahl der Personen erreicht werden. Insgesamt wurden mit den genannten Merkmalen 74.586 eineindeutige Verknüpfungen und für die verschiedenen Entitäten eine mediane Treffergüte von mehr als 98% erreicht. Die Alters- und Geschlechtsverteilungen der verschiedenen Datenquellen sowie die verknüpften Sterbedaten wiesen zudem eine hohe Übereinstimmung auf.

Diskussion und schlussfolgerung: GKV- und Krebsregisterdaten lassen sich mit hoher interner und externer Validität auf Individualdatenebene verknüpfen. Die stabile Verknüpfung ermöglicht durch den simultanen Zugang zu Variablen beider Datensätze („das Beste aus beiden Welten“) gänzlich neue Analysemöglichkeiten: Für einzelne Personen stehen nun sowohl Informationen zum UICC-Stadium der Erkrankung aus den Registern als auch Komorbiditäten aus den GKV-Daten zur Verfügung. Durch die Verwendung gut verfügbarer Linkagevariablen und den hohen Verknüpfungserfolg ist das Verfahren vielversprechend für künftige Linkages in der Versorgungsforschung.

Publication types

  • English Abstract

MeSH terms

  • Germany / epidemiology
  • Humans
  • Information Storage and Retrieval
  • Insurance, Health
  • Medical Record Linkage / methods
  • Neoplasms* / epidemiology
  • Registries
  • Routinely Collected Health Data*