Big Data i biologi

En måde at inddrage IT i biologi, kan være at introducere eleverne til Big Data (indsamling af store mængder data) f.eks. ved at placere en CO2-sensor i et eller flere klasselokaler i en uges tid hen over vinter. De mange data er intet værd uden analyse, og måske et kig i skemaet kan afsløre nogle sammenhænge og give en efterfølgende diskussion om overvågning kontra sundhedsfremme.

Nogle gange er data så mangfoldige, at de kan være svære at analysere for et menneske. Et datasæt fra Wisconsin beskriver tolv forskellige egenskaber ved celler og væv fra over 600 kvinder med en knude i brystet [1]. Det er også registreret om knuden efterfølgende har vist sig god- eller ondartet.

Speciallæger diagnosticerer hvorvidt en knude virker god- eller ondartet ud fra vævs- og celleprøver, og det er de ret gode til. Ifølge et studie får de ret i 96,5% af tilfældene [2].

Der findes også ganske avancerede computermodeller, som kan forudsige om en knude er god- eller ondartet ud fra lignende vævs- og celleprøver. Modellerne kaldes kunstige neurale netværk, og består af en række matematiske operationer, som alt i alt ligner virkemåden i et bundt interforbundne neuroner.

Et studie viser, at computermodellerne kan forudsige om en knude er god- eller ondartet med 97,1% sandsynlighed [2], altså lidt bedre end speciallægerne. Man kan så diskutere, hvem der skal have skylden, når modellen tager fejl.

Jeg har lavet et udkast til en opgave [3], som introducerer eleverne til sådan en model. Der er rigtig mange tal i modellen, og derfor overordentlig stor risiko for, at eleverne kun ser en black box, som de kender fra andre smarte værktøjer, og ikke forstår hvad der foregår. For at mindske den risiko, har jeg lavet en række forsimplinger f.eks. af de tolv egenskaber, som findes i datasættet, arbejder jeg kun med fem tilfældigt valgte:

Yderligere har jeg valgt at bruge den simplest mulige neuralt netværk-model, selv om det ikke er den bedste [4]. Modellen (en perceptron) består af en lineær kombination af vægtede data, som tilsammen forudsiger om knuden er god- eller ondartet. Vores opgave er at finde de vægte (wi), som ud fra de kendte data (xi), bedst får forudsigelser og resultater til at stemme overens. For hver patient, hvor modellen forudsiger forkert, justerer vi vægtene en lille smule.

Hvordan bliver det til en opgave for eleverne? På en god dag, kan eleverne være med til at opstille modellen eller dele af modellen fra bunden. Jeg har valgt at arbejde i Excel [5], fordi alle elever (hos os) har programmet, og fordi det ikke kræver egentlig programmering.

Derefter skal eleverne træne modellen, ved at gennemgå den cyklus ovenfor igen og igen -flere gange på hele datasættet. Her kan makro’er evt. hjælpe med gentagelserne. Eleverne skal holde øje med fejlraten, som skal minimeres, og evt. justere på læringsraten, som er en konstant, der er med til at afgøre, hvor meget vægtene skal ændres, når modellen tager fejl.

Når vi har trænet modellen til at finde de bedste vægte, kan det være interessant at se på hvilke af de fem egenskaber modellen vægter højere end andre. F.eks. ser tilbøjelighed til celledelinger ud til at være mindre afgørende for om en knude er god- eller ondartet, mens knudestørrelse er meget afgørende ifølge modellen.

Opgaven kan stadig finpudses f.eks. ved at prøve med andre eller alle 12 af de egenskaber, som findes i datasættet. Arbejder man sammen med en matematiklærer, giver lidt mere avancerede modeller mulighed for at arbejde med differentialregning og matricer, men det har jeg udeladt her.

Betyder det, at speciallæger skal omskoles til psykologer? For det første klarer computermodellerne sig kun en smule bedre end speciallægerne. For det andet stiller speciallæger assisteret af modeller den rigtige diagnose i 99,5% af tilfældene [2]. Måske er det sådan, at vi skal tænke på kunstig intelligens fremover.

Kilder:

  1. https://www.mathworks.com/matlabcentral/answers/uploaded_files/17053/Wisconsin%20Diagnostic%20Breast%20Cancer.xlsx
  2. Beck et al. ”Deep Learning for Identifying Metastatic Breast Cancer” arXiv:1606.05718v1 [q-bio.QM]  18 Jun 2016
  3. https://drive.google.com/open?id=0B2OKliO0YqClcHBBNHplSmtralU
  4. Noel et al. ”Using Machine Learning Algorithms for Breast Cancer Risk Prediction and Diagnosis” Procedia Computer Science 83 (2016) 1064–1069
  5. https://drive.google.com/open?id=0B2OKliO0YqClN2Q4TVJYdFNSSEU

Dette indlæg er/bliver også bragt i BioFag.

Dette indlæg blev udgivet i biologi, bioteknologi, Digital Dannelse. Bogmærk permalinket.