Kategoriarkiv: Mattias

Artificiell Intelligens genererade bilder.

O.k.s. ”AI-art”

Innan själva artikeln vill jag bara uppmärksamma att jag har använt ett antal förkortningar som kanske inte förekommer så ofta nu mera. Därför har jag valt att här tillhandahålla en lathund för dem.

bl.a. – bland annat
el. – eller
i.o.m. – i och med
o.k.s. – också känd/känt som
p.g.a. – på grund av
prof. – professor
t.ex. – till exempel

Om du surfar mycket på nätet och i synnerhet om du letar bilder, så har du troligen kommit i kontakt med så kallade ”AI generated images”, även om du kanske inte lagt märke till det. Sedan hösten 2022 har den här tekniken blivit välkänd, i.o.m. den explosionsartade trenden som kom till följd av att den blivit mer lätt tillgänglig för privatpersoner. I den här artikeln kommer jag ge en sammanfattning av vad jag anser att man behöver veta, och mina egna åsikter om tekniken.

Historisk sammanfattning
Konceptet för vad vi idag kallar artificiell intelligens, el. förkortat AI, har existerat sedan antiken. Men det var först under 1950-talet som forskning i det här området började på allvar. Och i slutet av 1960-talet skapades ett av de första stora systemen för att skapa bilder, kallat ”AARON”. Men trots det tidiga framstegen dröjde det ända till år 2014 innan nästa stora genombrott, året där efter lanserade Google ”DeepDream” som i sin tur ledde till en rad applikationer från olika företag. I.o.m. att ”Stable Diffusion” sedan lanserades den 22 augusti 2022 så blev tekniken billigare och mer tillgänglig för privatpersoner att använda, vilket ledde till internet trenden som populariserade tekniken.

Hur det fungerar
Jag tänker inte göra en lång teknisk genomgång av hur exakt sådana här program arbetar, men jag känner att en generell förklaring är nödvändig. I stort sätt finns det två metoder, i den första tillhandahåller användaren en bild, vanligtvis ett fotografi, som programmet bearbetar och genererar en ny bild utifrån. Resultatet beror på hur det specifika programmet arbetar och vilka tillgängliga inställningar som används. Enklare program kan använda en andra bild som referens och återskapa den första i samma stil, och mer komplexa använder en databas av referensbilder kombinerad med avancerade inställningar för mer kontroll och fler möjliga resultat. Utav programmen som använder den här metoden så är förmodligen Tiktoks inbyggda funktion en av det mest använda, även om den officiellt kallas för ett filter.

Den andra metoden, som är betydligt mer uppmärksammad, är så kallad ”text-till-bild”. Program som är byggda på den här metoden använder också databaser för referens, och fungerar på så sätt att användaren beskriver vad de vill att bilden ska föreställa i ordform. Där efter tolkar programmet texten och genererar en el. i vissa fall flera bilder. Kraven på texten varierar mellan olika program, i de flesta fallen accepteras både fulla meningar och ”nyckelord”, men det man behöver se sig för är huruvida ett specifikt program stödjer andra språk än engelska, vilket inte alltid är givet.

Det flesta programmen har också en inlärnings funktion, som med hjälp av algoritmiska uträkningar bedömer huruvida en genererad bild är lyckad el. misslyckad. Det här läggs sedan till i databasen för framtida referens. Det är också möjligt att vissa program kan ha en funktion som tillåter dem att söka efter och använda bilder direkt ifrån nätet, men det är inget jag hittat någon information om.

Resultatet
Beroende på hur avancerat programmet är och kvalitén på materialet, referens bilder och text, så kan slutresultatet se ut precis som om en person hade skapat den. Men det finns dock en handfull besvärliga problem med att använda den här tekniken. Det mest grundläggande är att oavsett hur specifik användaren är med inställningar och text, och oavsett hur hög kvalité materialet är av, så är det i slutändan den artificiella intelligensen som komponerar den färdiga bilden. Det här innebär att om användaren har en relativt klar idé av vad de vill att bilden ska föreställa, så är det mer sannolikt att de blir besvikna då programmet kan tolka inmatningen helt annorlunda. Och det här kan bli än mer besvärligt p.g.a. att resultaten aldrig är helt konsekventa. Det innebär att varje gång programmet genererar en bild, även med exakt samma material och inställningar, så kommer den vara lite annorlunda. Det är inte heller möjligt att använda ett motiv från en bild i en ny utan att detaljerna ändras. T.ex. om du har en bild av en specifik person i specifika kläder, så kan inte programmet återskapa den personen i de kläderna i en ny bild. Det måste också påpekas att många program, p.g.a. deras referens material, är mycket begränsade i sin förmåga att variera detaljer så som ansiktsuttryck och från vilken riktning motivet ses.

Men det mest spektakulära misslyckandena uppstår när ett program helt enkelt inte förstår vad det gör. Det är främst ”text-till-bild” där sådana misstag förekommer, kanske det inte märks vid första anblick men vissa detaljer kan vara förvrängda el. inkonsekventa med resten av bilden. Roten till många av problemen är det faktum att en artificiell intelligens helt enkelt inte ser bilder på samma sätt som en människa. Och eftersom de inte heller har full förståelse för vad som är rätt och fel generellt så kan det bli mycket bisarra resultat. Förmodligen den mest uppseendeväckande incidenten relaterad till den här tekniken, var när Tiktoks bildgenerator progressivt kom att generera mer och mer bisarra bilder, många av vilka också tolkades som sexuella. Till slut valde Tiktoks utvecklare att ingripa och korrigera trenden i programmet.

Kontroversiella ämnen
I.o.m. populariseringen av den här tekniken så har många hyllat den bl.a. för att ge personer, som vanligtvis inte har talang el. förmåga, möjlighet att ”skapa” bilder. Men den har också skapat debatter ända sedan de tidiga åren, och ett av det mer omdiskuterade ämnena är upphovsrätten till de genererade bilderna. År 1985 skrev prof. Pamela Samuelson artikeln ”Allocating Ownership Rights in Computer-Generated Works” där hon argumenterade att rättigheterna bör tillfalla användaren av programmet. En annan artikel publicerad i ”Florida Law Review” år 2019 lade fram tre möjliga alternativ. Det första var att den artificiella intelligensen som genererat bilden i sig skulle äga rättigheterna, det här skulle dock kräva en ändring av upphovsrättslagen då datorer, program och liknande inte anses vara befogade upphovsrättshavare. I det andra alternativet argumenterar man på ett sätt som liknar prof. Samuelsons artikel, alltså att rättigheterna tillfaller användaren av programmet, programmeraren som skapat programmet el. företaget som äger det. Och det tredje alternativet är att eftersom ingen person har ”skapat” bilden så kan ingen heller göra anspråk på den och blir därför allmän egendom.

Ett annat omstritt ämne kring upphovsrätt är angående bilderna som används som referens, eftersom de här programmen ”tränas” med existerande bilder som ”memoreras” i deras databas. Beroende på vem du frågar så kan ämnet omkring att använda någon annans bild utan samtycke vara väldigt känsligt. Efter att ”Stable Diffusion” lanserades så blev det grunden för ett stort antal olika företag och grupper att skapa sina individuella tjänster, men i många av fallen har inte bilderna som använts för att ”träna” programmen nyttjats med samtycke från de ursprungliga skaparna. Det här har skapat stort missnöje bland såväl professionella konstnärer som mer hobby inriktade bildskapare, och har resulterat i flera rättsfall mot olika programägare.

En annan diskussion är hur tekniken kommer att påverka konstnärer och illustratörer som arbetar med digitala bilder. Ett antal utövare inom relaterade yrken har uttryckt sin oro över hur det kan komma att påverka deras inkomst. En sådan ”digital konstnär”, R. J. Palmer, sa i augusti 2022, ”Jag kan lätt föreställa mig en situation där en ensam person som använder AI kan ersätta 5-10 nybörjare… jag har hört många mindre författare och liknande säga hur bra det kommer bli när de inte behöver anlita en illustratör”. Han tillade sedan, ”Den här sortens jobb för mindre skapare är vad som för många av oss lade grunden för våra professionella karriärer”. I september samma år sa den polska ”digitala konstnären” Greg Rutkowski, ”Det börjar se ut som ett hot mot våra karriärer”, han tillade också att det blivit allt svårare att söka efter hans egna verk på nätet då många av sökresultaten är bilder genererade av program som efterliknat hans stil.

Slutligen, liksom andra typer av fotomanipulation, som går ända tillbaka till tidigt 1800-tal, så har vissa personer sedan början av 2000-talet uttryckt sin oro över möjligheterna att skapa vilseledande material med tekniken, så kallade ”Deepfakes”.

Min personliga åsikt
Med tanke på hur övervägande negativ inverkan tekniken tycks ha, så är det väll inte överraskande hur reserverad jag är. I synnerhet p.g.a. hur professionella designer och illustratörs yrken kan komma att påverkas. Men något som jag själv är oroad över är, beroende på hur tekniken kommer att användas, hur den kommer påverka nybörjares engagemang att skapa bilder och känslan av att det finns en mening i det.

Något annat är diskussionen kring huruvida användaren har skapat en bild genererad av ett sådant program. Min åsikt är att användaren inte har ”skapat” bilden, att de har genererat den är en acceptabel förklaring, men inte att de skulle ha ”skapat” den. Jag resonerar så att det kan förlikas med att ge en annan person i uppgift att skapa en bild, ta ”text-till-bild” som exempel, det är i stort sätt som att beskriva för en konstnär vad du vill att bilden ska föreställa och sedan överlåta allt arbete till dem. I.o.m. det här anser jag också att användaren har en mycket begränsad kreativ involvering i bilden, och det här leder in på min åsikt angående bildernas kreativa värde. När en person arbetar med att skapa någonting, oavsett vad det är, så finns det alltid i någon mån ett kreativt tänkande bakom. Även fotografier, som många har menat på inte har samma värde som t.ex. en oljemålning, kan ha tagit åtskilliga timmar av arbete då professionella fotografer är väldigt måna om att få detaljer rätt. Kombinera det här med teknikerna personen använder och du får det som jag här kallar ”kreativt värde”. Saken är den att eftersom de artificiella intelligenser som finns idag inte är självmedvetna och på egenhand kapabla att förklara tillvägagångssätt och beslutsfattning, så anser jag att det inte finns något kreativt tänkande under arbetsförloppet då bilden genereras. Med andra ord så finns det ingen fri vilja och kan snarare liknas med hur t.ex. en blomma växer, självklart så är blommor vackra men det flesta personer skulle nog inte påstå att de är konstnärligt utformade.

Det går naturligtvis att diskutera vad som anses vara fri vilja och kreativt tänkande, men utifrån ett generellt perspektiv så är det min slutsats. Jag vill dock understryka att även om en genererad bild i sig inte har samma kreativa värde som en skapad av en person, så betyder inte det att den inte kan användas på ett kreativt sätt. En enklare variant vore att generera olika element som sedan kombineras till en bild med en ”klipp och klistra” teknik. Medan mer avancerade tillvägagångssätt vore att använda en genererad bild som grund och återskapa den med egen förmåga el. helt enkelt generera motiv för inspiration.

Kort sammanfattning
Även om den här tekniken har funnits i lite över 50 år så är den ändå relativt ny för allmänheten då den inte varit så lättillgänglig tidigare. Det finns många problem med att använda den, både i användningen av själva programmen och kring upphovsrättigheterna av bilderna som används för generering och de som genereras. Många är också oroliga att den kommer ersätta professionella yrken. Men i slutändan är det inte det faktum att tekniken existerar, utan hur den används som avgör om den bidra till att kommande generationer blir mindre kreativa el. om den blir ett verktyg som gynnar deras kreativitet.

//Mattias Aronsson