AI BLIJFT VOORLOPIG ONDERSTEUNEND GEREEDSCHAP

‘Artificial intelligence gaat de arts niet vervangen’

  • 7 min.
  • Wetenschap

De term kunstmatige intelligentie, meestal artificial intelligence genoemd, zoemt in toenemende mate door de medische wereld. Wat houdt het precies in en wat is er op dat gebied inmiddels mogelijk en wat niet? Internist-oncoloog en bio-informaticus dr. Rudolf Fehrmann, verbonden aan het UMC Groningen, geeft uitleg.

Als eerste definieert Fehrmann wat artificial intelligence, kortweg AI, precies is. ‘AI is een breed begrip. In principe is alles wat intelligentie nabootst met een computersysteem AI te noemen.
Bijvoorbeeld de digitale versie van het Farmacotherapeutisch Kompas, dat na het intikken van een medicijnnaam op je scherm alle informatie over dat medicijn weergeeft. Andere voorbeelden zijn de digitale richtlijn en een digitaal programma dat op basis van ingevoerde patiëntengegevens voor je uitrekent wat de toe te dienen dosis van een bepaald medicijn bij die patiënt moet zijn.’
Een stap verder gaan machine learning en deep learning. ‘We spreken van machine learning als het gaat om computerprogramma’s die aan de hand van een stel instructies – een algoritme –
een opdracht uitvoeren waarbij het algoritme in principe beter in zijn taak wordt naarmate er meer nieuwe gegevens worden ingevoerd. Het algoritme leert dus van nieuwe data. Deep learning is een complexe manier van machine learning waarbij de data op verschillende niveaus in het algoritme gewogen, samengevoegd en bewerkt worden. Dat zijn bijvoorbeeld algoritmen die door training met nieuwe data steeds beter worden in het herkennen van bepaalde patronen in een verzameling gegevens. Bijvoorbeeld afwijkingen in een digitaal radiologisch plaatje.’

Translatie blijft lastig

AI heeft de afgelopen jaren al een plaats verworven in diverse vormen van preklinisch onderzoek, legt Fehrmann uit. ‘Bij het analyseren van de data uit diverse -omics zoals genomics, proteomics, transcriptomics enzovoort, wordt volop gebruikgemaakt van AI om patronen en afwijkingen van “normaal” te herkennen in de enorme bergen data die deze technieken opleveren. Of om na te gaan welke mutaties voorspellend zijn voor een bepaalde behandeluitkomst, om moleculaire subklassen van een aandoening te definiëren enzovoort. Ook in de radiologie en pathologie vindt veel onderzoek plaats naar AI-tools om de beelden, die tegenwoordig allemaal digitaal zijn, te interpreteren.’ Het toepassen van AI in de klinische praktijk is nog vooral een belofte, stelt Fehrmann vast. ‘De hype hierover is vooralsnog vele maten groter dan de echte science, dat wil zeggen gevalideerde klinische toepassingen. Het aantal wetenschappelijke publicaties over algoritmen voor mogelijk gebruik in de kliniek neemt bijna exponentieel toe. Maar de translatie naar een daadwerkelijke toepassing ervan in de dagelijkse klinische praktijk blijkt lastig.
Een eerste probleem daarbij is dat niet goed duidelijk is hoe je de prestaties van een AI-tool moet beoordelen. Nu gebeurt dat vooral op basis van de technische prestaties van de tool, bijvoorbeeld de sensitiviteit en specificiteit voor het detecteren van metastasen. Het is voor de dagelijkse praktijk echter ook van belang te weten wat de klinische consequenties van het gebruik van de AI-tool zijn.
Wat levert het de patiënt uiteindelijk op? Wordt die er beter van? Stel, er zijn twee AI-tools die allebei dezelfde taak uitvoeren. De ene tool maakt 1 op de 100 keer een fout, de andere 5 op de 100 keer. Je zou dan denken dat de eerste tool beter is. Maar wat als die fout van de eerste tool het overlijden van de patiënt tot gevolg heeft en de fouten van de tweede tool niet? Dan zou je kiezen voor de tweede tool. Met andere woorden: AI-tools dienen niet alleen te worden beoordeeld op hun technische prestaties, maar vooral ook op hun klinische consequenties. In gecontroleerde klinische studies, net zoals dat met medicijnen gebeurt.’

Klinische validatie nodig

Een veelzeggend voorbeeld daarvan is een studie waarin de meerwaarde van een AI-tool voor het beoordelen van mammogrammen werd onderzocht. Fehrmann: ‘In 1998 werd in de Verenigde Staten een door de FDA goedgekeurd algoritme breed geïmplementeerd dat radiologen ondersteunt bij het beoordelen van digitale mammogrammen. In 2015 is uitgezocht wat nu eigenlijk de klinische meerwaarde van de tool was voor de patiënt. Dit deden de onderzoekers door klinische uitkomsten te vergelijken van ruim 600.000 vrouwen. Bij een deel van hen was tussen 2003 en 2009 bij de beoordeling van het mammogram de AI-tool gebruikt en bij een deel niet.
Het gebruik van de AI-tool bleek geen toegevoerde waarde te hebben; geen verbetering in specificiteit, geen hogere detectiegraad van tumoren en niet minder spreiding tussen de oordelen van de radiologen. Terwijl de AI-tool de gezondheidszorg zo’n 400 miljoen dollar per jaar kostte! Natuurlijk zijn de AI-tools anno 2020 weer veel verder ontwikkeld, maar dat neemt niet weg dat een klinische validatie van deze tools noodzakelijk blijft voordat je er in de dagelijkse praktijk
mee aan de gang gaat.’

Onder de motorkap kijken

Daarnaast zijn er nog enkele valkuilen, waarschuwt Fehrmann. ‘Algoritmen worden doorgaans ontwikkeld op basis van een dataset van bestaande patiënten. Daarin identificeert het algoritme bijvoorbeeld een of meer parameters die een voorspellende waarde hebben voor het beloop van de aandoening of de respons op een behandeling. Cruciaal daarbij is dat de dataset op basis waarvan het algoritme is ontwikkeld, representatief is voor de totale patiëntenpopulatie waarin het algoritme zal worden toegepast. Dat betekent onder andere dat je niet kunt volstaan met datasets van klinische studies. Immers, daarin gelden tal van exclusiecriteria voor de deelnemers.
Helemaal apart in deze context is IBM Watson for Oncology, een algoritme dat als doel heeft de arts te ondersteunen bij het kiezen van de beste behandeling voor de oncologische patiënt. Dat algoritme is getraind aan de hand van nepcasus, virtuele patiënten die bedacht zijn door een groep oncologen uit het Memorial Sloan Kettering Cancer Center in New York. Je kunt je afvragen of deze virtuele patiënten, die waarschijnlijk wel een aardige afspiegeling zullen vormen van de patiëntenpopulatie in het Memorial Sloan Kettering, ook representatief zijn voor patiënten elders in de wereld, bijvoorbeeld in Azië. Bekend is ook dat etnische minderheden vaak ondervertegenwoordigd zijn in datasets.
Terwijl de incidentie van sommige oncogene mutaties sterk uiteen kan lopen tussen verschillende etnische groepen. Kortom, als je een AI-tool zou willen inzetten in de klinische praktijk moet je eigenlijk eerst goed “onder de motorkap” kijken zodat je weet op welke data en welke aannames de tool is gebaseerd.’ En bij AI-tools die werken op basis van machine learning of deep learning komt daar nog een extra aandachtspunt bij. ‘Bij machine learning en deep learning past het algoritme zichzelf gaandeweg aan op grond van nieuwe data. Het algoritme is dus niet statisch. Daardoor weet je in feite na enige tijd niet meer precies wat de performance van de tool is. Het is niet ondenkbaar dat de tool als gevolg van bias in de nieuwe data sterk is afgebogen in de richting van één bepaalde uitkomst. Je zou zo’n algoritme dus eigenlijk van tijd tot tijd moeten testen of ijken.

Hybride

Op basis van dit alles ziet Fehrmann op de korte termijn nog geen prominente rol weggelegd voor AI-tools in de directe medische besluitvorming. ‘AI blijft voorlopig ondersteunend gereedschap, bijvoorbeeld in de diagnostiek. Mooi van Watson for Oncology is bijvoorbeeld wel dat het bij ieder behandelvoorstel verwijst naar de wetenschappelijke literatuur en richtlijnen op basis waarvan de behandeling wordt voorgesteld. Ook een mooie ondersteuning vormen de systemen die op basis van patiëntenparameters aangeven voor welke klinische studies die patiënt in aanmerking kan komen. Ik denk dat AI-tools in de toekomst echt onderdeel gaan worden van de dagelijkse klinische praktijk.
Maar artsen hoeven echt niet bang te zijn dat AI hun werk gaat overnemen.
Geneeskunde zal een hybride worden van mens en AI die gebruikmaakt van de sterke punten van beide. Een zwakte van AI is bijvoorbeeld dat het vaak maar goed is in één ding. Terwijl een behandelbeslissing bij – en met – een oncologische patiënt vaak een opeenstapeling is van diverse aspecten die tegen elkaar moeten worden afgewogen. En dan graag ook nog met voldoende empathie. Dat zie ik AI de komende decennia niet presteren.’


Dr. R.S.N. Fehrmann stapte na een studie wiskunde en informatie (bovenbouwstudie artificial intelligence) over op een studie geneeskunde in Groningen. Tijdens zijn promotieonderzoek ontwikkelde hij een algoritme om genexpressieprofielen van tumoren te analyseren.
Dit leverde hem in 2012 de Pieter De Mulder Award op. Na zijn promotie volgde hij de opleiding tot medisch-oncoloog. Momenteel combineert hij zijn klinisch werk met onderzoek naar AI in de oncologie.