Hvor god er en AI til at besvare en skriftlig eksamensopgave?

Modellerne i maskinlæring (Machine Learning, ML) kan få noget til at ligne intelligens. Systemer, der bruger ML-modeller, kaldes i daglig tale ofte Artificial Intelligence (AI), selv om en generel AI ikke findes.

mikemacmarketing, CC BY 2.0 https://creativecommons.org/licenses/by/2.0, via Wikimedia Commons

Rune Schmidt gjorde på FB opmærksom på, at openAI har en online tjeneste, som benytter ML modeller og adgang til oplysninger på nettet, til at besvare spørgsmål. Og svarene er ikke bare et copy-paste fra Wikipedia -man kan indstille hvor unikt (kreativt) et svar skal formuleres.

Med forventning om, at model-systemet hurtigt ville fejle på viden eller sætningskonstruktion, fodrede jeg det med nogle spørgsmål fra en tilfældig biologi A eksamensopgave (2013 27. aug, opg 1). Da systemet p.t. kun bruger engelsk, er spørgsmålene oversat efter bedste evne.

1. Angiv nedarvningstypen for NF1. Begrund dit svar.

What kind of heredity does the NF1 gene exhibit?

Svar: “The NF1 gene is transmitted in an autosomal dominant pattern, which means that a person only needs to inherit one copy of the mutated gene in order to be affected by the condition. The gene is passed down from generation to generation in a family, with each successive generation having a 50% chance of inheriting the mutated gene. In some cases, the gene can be passed down from a parent who does not have the condition, but this is rare.”

Selv om ‘Angiv’ fordrer et kort svar, får systemet ikke så mange point, fordi dele af “begrund dit svar” er for generel. Der er nogle oplysninger i opgaven, som skal inddrages. En kvik elev kan dog let lave koblingen, men systemet alene kan ikke -nok fordi det ikke har fået hele teksten.

Jeg var sikker på, at systemet ville fejle på NF1, men det gen “kender” det godt. Ordet “transmitted” ville jeg ikke bruge om et gen, fordi jeg kommer til at tænke på smitsomme sygdomme, men måske er det ok på engelsk.

Der mangler nogle flere fagbegreber fx heterozygot, genotype, fænotype, allel. Så 1-0 til os!

2. Forklar, hvordan et protein som fx neurofibromin kan være med til at kontrollere cellers vækst.

Explain how a protein, i.e. neurofibromine, can regulate cell growth

Svar: “Proteins can regulate cell growth by interacting with other proteins in the cell to either promote or inhibit cell growth. For example, neurofibromine can interact with proteins that promote cell growth, such as growth factor proteins, to increase the rate of cell growth. Alternatively, neurofibromine can interact with proteins that inhibit cell growth, such as tumor suppressor proteins, to reduce the rate of cell growth.”

Svaret er igen lidt kortfattet og en dygtig elev ville nok tilføje noget om genregulering. Men svaret er acceptabelt, så 1-1.

3. Gør rede for, hvorfor et stort gen må forventes at have en høj spontan mutationsrate.

Explain why a large gene is expected to have a high rate of spontaneous mutation.

Svar: “There are several reasons why a large gene is expected to have a high rate of spontaneous mutation. First, a large gene is likely to have more DNA bases than a small gene, so there are more opportunities for mutations to occur. Second, a large gene is likely to be involved in more biochemical processes than a small gene, so it is more likely to be affected by environmental factors that can cause mutations. Finally, a large gene is likely to be more complex than a small gene, so it is more likely to contain mutations that can affect its function.”

Flot at den inddrager flere relevante forklaringer. Svaret er noget generelt, og flere detaljer ville give flere point. 1-2 til systemet.

4. Forklar, hvorfor forskellige mutationer kan medføre NF1 i forskellig sværhedsgrad

Explain why different mutations may cause varying degrees of Neurofibromatosis (navn hentet i opgaveteksten)

Svar: “Different mutations may cause varying degrees of Neurofibromatosis because they can affect different genes that are involved in the development and maintenance of the nervous system. Some mutations may only affect a single gene, while others may affect multiple genes. The severity of the condition can also be affected by the location of the mutation within the gene.”

Måske et ret kort svar fra systemet, omend det mest essentielle er med. Opgaveteksten inddrager deletion og punktmutation, så der skal flere detaljer på (og gerne en figur), hvis svaret skal give max point.

Men svaret er acceptabelt og består i sig selv Turing testen, selv om jeg godt kunne tænke mig flere konkrete detaljer og relevante begreber. 1-3 til systemet.

5. Vurder, om man ved at screene sæddonorer kan undgå at videregive NF1.

Assess wether it is possible to avoid Neurofibromatosis by screening sperm donors?

Svar: “There is no known way to prevent neurofibromatosis, as the cause is unknown. There is no way to screen sperm donors for the condition.”

Her fejler systemet. Ifølge opgaven er genfejlen og arvegangen kendt, og kan dermed findes i en gentest. Enten er modellens viden ikke opdateret (hvilket jeg tvivler på) eller spørgsmålet er ikke stillet på en sådan måde, at den kan give det rigtige svar.

Dertil bør et vurderingsspørgsmål besvares med en forklaring, der kan understøtte og give argumenter for den vurdering, der er foretaget. Her giver systemet ingen forklaring. 2-3.

Endeligt resultat: 2-3 til systemet, og med en grænse på 50% rigtige, er det bestået.

—–

Der er selvfølgelig mange mellemregninger. Måske har jeg lige ramt en opgave med mange spørgsmål på lavt taksonomisk niveau?

Systemet har svært ved at være konkret, nok fordi den mangler kontekst. Alligevel synes jeg, at den er overraskende god. Jeg tror godt, at det kan passere Turing testen (ikke til at skældne fra et menneske).

Det ville være interessant, at undersøge om systemet kan give mere konkrete svar, hvis det fik mere tekst med flere relevante fagudtryk fx ved at hvert spørgsmål blev fordelt på 3-4 underspørgsmål, og det endelige svar blev sat sammen ud fra svarene på underspørgsmålene.

Måske kræver det mere tid og fagligt overskud at formulere de fire underspørgsmål til systemet og sammenskrive svaret, end det kræver, at finde og skrive svaret selv. Men systemet har også en indstilling, hvor systemet kan udfylde et hul i en sætning, hvilket gør det nemmere at koble svarene sammen.

Desværre er det mit indtryk, at mange elever netop arbejder på den måde, at de først plukker inspiration fx på studieportalen (eller nu openAI), og derefter sammenskriver/formulerer deres “eget” svar.

Men det er ikke nyt. Vi har kæmpet mod studieportalen i flere år. Heldigvis kan systemet endnu ikke gemmes lokalt. Og sproglærerne har vist kæmpet mod AI et stykke tid (Google Translate).

  • Vi skal tænke os endnu mere om, når vi stiller faglige spørgsmål: Hvordan kan spørgsmålet stilles så kontekst-afhængigt, at et computer-system med adgang til Wikipedia, ikke kan besvare det?
  • Adskille med og uden hjælpemidler oftere.
  • “Os mod systemet” er en udfordring, der skal blive til “os med systemet”. Vi må prøve at bruge adgangen til IT-systemer, frem for kun at kæmpe imod dem.
Dette indlæg blev udgivet i Biologi, Maskinlæring, Skriftlighed. Bogmærk permalinket.