NVvH Chirurgendagen 2020

ABSTRACT
Categorie: Traumachirurgie

Kunstmatige intelligentie voor tekstherkenning in radiologieverslagen binnen de traumachirurgie

A.W. Olthof1, P. Shouche2, E.M. Fennema3, F.F.A. IJpma3, R.H.C. Koolstra1, H.P. Stallmann1, V.M.A. Stirler3, P.M.A. van Ooijen2, 4, L.J. Cornelissen2
1Treant Zorggroep - Lokatie Ziekenhuis Bethesda, HOOGEVEEN, Radiologie
2Universitair Medisch Centrum Groningen, GRONINGEN, Radiotherapie
3Universitair Medisch Centrum Groningen, GRONINGEN, Traumachirurgie
4Universitair Medisch Centrum Groningen, GRONINGEN, Data Science Center in Health

Introductie

Voor het ontwikkelen van beeldherkenning algoritmes, gebaseerd op kunstmatige intelligentie, zijn veel beelden nodig. Röntgenfoto’s, beoordeeld door een radioloog, zijn zeer geschikt hiervoor. De beoordeling is echter vastgelegd in vrije tekst, hetgeen niet leesbaar is voor een computer. Wij onderzoeken tekstherkenning in deze verslagen met kunstmatige intelligentie.

Methode

Twee verschillende datasets zijn samengesteld: één van 799 radiologieverslagen van thorax röntgenfoto’s van traumapatiënten is gescoord op aanwezigheid van pneumothorax (20,7% “ja”, 79,7% “nee”). Daarnaast één van 2469 radiologieverslagen van röntgenfoto’s van extremiteiten verdacht voor een fractuur gescoord op aanwezigheid van fracturen (36,5% “ja”, 63,5% “nee”). Vervolgens zijn verschillende algoritmes voor tekstclassificatie ontwikkeld en geëvalueerd op deze datasets. Traditionele benaderingen van machinaal leren zijn vergeleken met moderne diepe neurale netwerken. Naast nauwkeurigheid worden ook kwalitatieve aspecten van de benaderingen belicht. Daarnaast is kenmerk selectie gebruikt om te onderzoeken welke aspecten van de tekst invloed hebben op de classificatie.

Resultaten

Een diep neuraal netwerk levert de beste nauwkeurigheid op. De hoogst behaalde nauwkeurigheid op de fractuur dataset is 96% (F1 score 95%, sensitiviteit 94%, specificiteit 97%). De hoogst behaalde nauwkeurigheid op de pneumothorax dataset is 93% (F1 score 83%, sensitiviteit 84%, specificiteit 95%). De lagere nauwkeurigheid voor pneumothorax is te wijten aan de grotere complexiteit en lengte van deze verslagen. Kenmerk selectie geeft inzicht in het beslisproces van het algoritme: Zo blijkt dat voor de classificatie “pneumothorax” het algoritme onder andere de aanwezigheid van de woorden “subcutaan emfyseem”, “thoraxdrain” en “diep sulcus” meeweegt (Fig 1.).

Conclusie

Kunstmatige intelligentie kan worden ingezet voor interpretatie van radiologieverslagen binnen de traumachirurgie. De hoogste nauwkeurigheid wordt gehaald door het gebruik van neurale netwerken. Deze resultaten zijn zeer relevant voor het verzamelen en annoteren van datasets die gebruikt kunnen worden voor het ontwikkelen van diagnostische algoritmes gebaseerd op röntgenfoto’s.

 

Fig. 1: Kenmerk selectie in het beslisproces van het algoritme