GenAI: gamechanger in computervisie?

Een AI-assistent die je op basis van een smartphonefoto vertelt wat het probleem is met je fiets en hoe je die kan herstellen? Wacht nog even en het kan. Afbeeldingen (om in de AI-sfeer te blijven): gegenereerd via DALL-E (OpenAI).

ChatGPT en DALL-E: het lijkt erop dat generatieve artificiële intelligentie (GenAI) in een rotvaart zijn weg vindt naar het grote publiek. Nieuwe technologie die ook nieuwe mogelijkheden biedt, bijvoorbeeld voor computervisie (beeldverwerking). Onderzoekers van PXL Smart ICT exploreren de mogelijkheden in hun nieuwe TranformAI-project en nodigen bedrijven uit om samen te werken en kennis te delen.

AI-assistent interpreteert beelden

Stel je voor: je fiets is stuk, en je staat er even alleen voor. Hoe los je dat op? Wel, wacht nog heel even en het antwoord luidt: met artificiële intelligentie. Je stuurt gewoon een foto naar je AI-assistent die je meteen kan wijzen op het probleem. Geen idee hoe je zelf aan de herstelling begint? Dan vertelt het systeem je perfect welke schroevendraaier of moersleutel je nodig hebt.

Ja, zover zitten we ondertussen al. Bovenstaand voorbeeld zit op dit moment in een bètaversie van ChatGPT: het interpreteren van beelden. Geavanceerder en gebruiksvriendelijker dan ooit. Daar moet meer mee te doen zijn, toch?

Voldoende en kwalitatieve data

Duik anders even mee in het verleden. We hoeven ook niet ver terug: neem pakweg drie jaar, toen we nog over (het op dat moment revolutionaire) deep learning spraken. Wilde je aan computervisie doen – beeldverwerking – dan was het antwoord nagenoeg altijd: zorg dat je voldoende en kwalitatieve data hebt.

Meestal betekende dat ook dat je een verzameling afbeeldingen moest hebben. En een verzameling labels die vertelden wat al die beelden inhielden (al dan niet met pixelcoördinaten erbij van het object in het beeld).

In onze dagelijkse werking bij PXL Smart ICT zijn we al een tijdje bezig met het oplossen van dergelijke problemen, en héél vaak merkten we dat de vraag of er voldoende en kwalitatieve data aanwezig was, echt cruciaal was. Waar je voor objecten zoals een auto of een fiets natuurlijk genoeg afbeeldingen online kan terugvinden, is dat voor een typisch industrieel object veel moeilijker.

Werken met AI verliep daardoor ook heel gestructureerd. Je had een aantal beelden, een aantal labels, en een AI-model moest aan nieuwe beelden ook weer diezelfde labels kunnen toewijzen.

Taal

De huidige evoluties lijken een heel aantal oudere problemen van de kaart te vegen. En dat dankzij één grote beweging van het AI-veld: het interpreteren van vele verschillende modaliteiten (tekst, beeld, geluid) door middel van taal.

Taal is alles, zeker voor ons als mensen. Als we onze passie willen delen, bijvoorbeeld over muziek, dan doen we dat met (en in) taal. Wanneer we willen beschrijven wat we zien: taal. Wanneer we in dialoog gaan met om het even wie in onze omgeving: taal. Omdat AI nu ook deze weg inslaat, worden de mogelijkheden alleen maar groter.

Transformers

Het expertisecentrum PXL Smart ICT is binnen het onderzoeksspeerpunt ‘AI & data’ druk in de weer om een aantal van deze mogelijkheden van dichtbij op te volgen. Met een nieuw speerpuntproject TransformAI – ‘Transformatie in AI: hoe zullen transformers de integratie van AI veranderen? – stellen we ons de vraag hoe transformers (lees: de backbonearchitectuur van generatieve AI) onder andere het concept van computervisie veranderen in het AI-domein.

Hebben we straks nog steeds miljoenen afbeeldingen nodig in industriële contexten voor computervisietoepassingen? Wanneer wel, en wanneer niet? Daarnaast maken we natuurlijk ook veel gelijkaardige afwegingen op het vlak van tekstinterpretatie of interpretatie van tijdsgebaseerde data.

Cybersecurity

Bovendien willen we met de introductie van het speerpunt cybersecurity bij PXL Smart ICT in de toekomst graag ook de focus leggen op de veiligheid van AI. Kan je een generatief AI-model beveiligen zodat het altijd betrouwbare resultaten geeft? Hoe kan je ervoor zorgen dat je model niet te veel feiten ‘verzint’ (lees: hallucineert)? Of hoe verhinder je dat gebruikers het model om de tuin leiden om verboden informatie vast te krijgen? (Denk aan ‘hoe maak ik een bom?’).

Warme oproep

De vragen die we ons kunnen stellen zijn eindeloos. Maar het is niet de bedoeling dat we ze onbeantwoord laten. Daarom doen we ook graag de oproep naar bedrijven die al werken met AI om contact met ons op te nemen en hun visie en noden met ons te delen.

Ben jij actief bezig met de implementatie van beeldverwerkingstechnieken, of met algoritmes op tekst- of tijdsgebaseerde data? Wanneer spreekt jouw bedrijf van een veilig geïmplementeerd AI-systeem? We horen het graag. Feedback, nieuwe inzichten en gedeelde kennis: het kan maar helpen om onze toepassingen nog beter af te stemmen op concrete noden in het werkveld.

Contact: robin.schrijvers@pxl.be