[Extraction of features from clinical routine data using text mining]

Ophthalmologe. 2021 Mar;118(3):264-272. doi: 10.1007/s00347-020-01177-4.
[Article in German]

Abstract

Background: Anti-VEGF drugs are currently used to treat macular diseases. This has led to a wealth of additional data, which could help understand and predict treatment courses; however, this information is usually only available in free text form.

Objective: A retrospective study was designed to analyze how far interpretable information can be obtained from clinical texts by automated extraction. The aim was to assess the suitability of a text mining method that was customized for this purpose.

Material and methods: Data on 3683 patients were available, including 40,485 discharge letters. Some of the data of interest, e.g. visual acuity (VA), intraocular pressure (IOP) and accompanying diagnoses, were not only recorded textually but also entered in a database and could thus serve as a gold standard for text analysis. The text was analyzed using the Averbis Health Discovery text mining platform. To optimize the extraction task, rule knowledge and a German language technical vocabulary linked to the international medical terminology standard systematized nomenclature of medicine (SNOMED CT) was manually added.

Results: The correspondence between extracted data and the structured database entries is described by the F1 value. There was agreement of 94.7% for VA, 98.3% for IOP and 94.7% for the accompanying diagnoses. Manual analysis of noncorresponding cases showed that in 50% text content did not match the database content for various reasons. After an adjustment, F1 values 1-3% above the previously determined values were obtained.

Conclusion: Text mining procedures are very well suited for the considered discharge letter corpus and the problem described in order to extract contents from clinical texts in a structured manner for further evaluation.

Zusammenfassung: HINTERGRUND: Anti-VEGF-Medikamente prägen heute die Therapie von Makulaerkrankungen. In diesem Zusammenhang wird eine Fülle zusätzlicher Daten erhoben. Damit ließen sich Behandlungsverläufe besser verstehen und vorhersagen. Allerdings sind diese Informationen meist nur in freitextlicher Form verfügbar.

Ziel der arbeit: Wie weit auswertbare Information aus Kliniktexten automatisch gewonnen werden kann, sollte in einer retrospektiven Studie analysiert werden. Ziel war die Einschätzung der Eignung eines zu diesem Zweck parametrierten Text-Mining-Verfahrens.

Material und methoden: Es standen Daten zu 3683 Patienten zur Verfügung, davon 40.485 Arztbriefe. Für einen Teil waren die interessierenden Daten (Visus, Tensio und Begleitdiagnosen) auch strukturiert erfasst worden und konnten so als Goldstandard für die Textanalyse dienen. Diese wurde mit dem System Averbis Health Discovery durchgeführt. Zur Optimierung auf die Extraktionsaufgabe wurde dieses mit Regelwissen sowie mit einem deutschsprachigen Fachvokabular für die internationale Medizinterminologie SNOMED CT angereichert.

Ergebnisse: Die Übereinstimmung der Datenextrakte mit den strukturierten Datenbankeinträgen wird durch den F1-Wert beschrieben. Hierbei ergab sich eine Übereinstimmung von 94,7 % für den Visus, 98,3 % für die Tensio und 94,7 % für begleitende Diagnosen. Die manuelle Analyse nicht übereinstimmender Fälle zeigte zur Hälfte, dass Textinhalte aus verschiedenen Gründen von Datenbankinhalten abwichen. Nach einer daraus berechneten Adjustierung lagen die F1-Werte noch 1–3 % über den zuvor ermittelten Werten.

Diskussion: Für den betrachteten Arztbriefkorpus und die beschriebene Fragestellung sind Text-Mining-Verfahren sehr gut geeignet, um Inhalte zur weiteren Auswertung strukturiert aus Kliniktexten zu extrahieren.

Keywords: Decision support systems; Electronic health records; Macular degeneration; Natural language processing; Systematized nomenclature of medicine.

MeSH terms

  • Data Mining*
  • Databases, Factual
  • Electronic Health Records
  • Humans
  • Intraocular Pressure
  • Retrospective Studies
  • Systematized Nomenclature of Medicine*