Litere în regim de probabilitate

Eseu

În ciuda tuturor cuvintelor pe care le mestecăm zilnic – citite, rostite, scrise, gândite prea mult, poate chiar visate, sau prea puțin, aruncate și, apoi, regretate – nu ne dăm seama cât de ușor se leagă între ele. Vorbim fără să planificăm fiecare pas, iar sensul pare să se formeze singur, din obișnuință și din context. Uneori, nici nu e nevoie să ducem o frază până la capăt ca să fim înțeleși, căci ceilalți știu deja ce urmează. E felul firesc în care funcționează limbajul, prin anticipare.

Aceeași idee stă și la baza modelelor lingvistice de mari dimensiuni (Large Language Models – LLM). Spre deosebire de oameni, LLM-urile procesează limbajul prin calcule statistice. Analizează tipare de apariție și succesiune, extrase din miliarde de texte, și estimează ce cuvânt este cel mai probabil să urmeze într-o secvență. Pentru ca un LLM să poată face predicții, contextul este esențial. Fiecare cuvânt este evaluat în raport cu toate celelalte – nu doar cu ce îl precede, ci și cu ceea ce urmează să apară. Sensul nu mai este fix, ci relațional: depinde de poziție, de frecvență, de vecinătate. Totuși, într-o propoziție, nu toate cuvintele contează la fel de mult. Aici intervine mecanismul de atenție, un algoritm care atribuie ponderi diferite termenilor în funcție de relevanța lor pentru predicție. Într-un fel, este echivalentul matematic al procesului prin care mintea umană filtrează informația: pune accent pe ceea ce este relevant și trece peste detaliile lipsite de importanță. Împreună, contextul și atenția definesc felul în care aceste modele procesează limbajul. LLM-urile nu reproduc sensul, ci relațiile din care el se formează. Astfel, dacă pot face asta suficient de bine, apare o altă curiozitate: pot surprinde și particularitățile unui stil? Poate că, într-un viitor apropiat, LLM-urile vor ajunge să scrie texte care par scrise de mine – și atunci nu va mai fi clar cine imită pe cine.

Subiectul lucrării mele de licență a apărut aproape întâmplător. Timp de câteva săptămâni am căutat o temă care să lege interesele mele personale de inteligența artificială, dar nimic nu părea potrivit. La un moment dat, am găsit un articol din The Washington Post care vorbea despre un studiu în care poeziile scrise de ChatGPT au fost considerate de cititori mai „umane” decât cele reale, scrise de T.S. Eliot. Am râs – we are doomed: AI-ul scrie poezii și nimeni nu se prinde. Semn că zilele de proto-tehnologie au trecut, iar acum nu mai putem distinge ce conținut vine de la AI și ce nu. Articolul, însă, nu a rămas doar un moment de ironie, ci și un pretext pentru o discuție mai serioasă.

Am abordat subiectul cu coordonatorul lucrării mele de licență și, timp de câteva ore, am conturat ideea unui posibil studiu: o comparație între un text scris de un autor real și unul generat de un model de limbaj care încearcă să-i imite stilul. De aici a venit și propunerea: „Ce-ar fi să încerci cu Joyce?”. Textul are un tipar clar, dar suficient de complex și neobișnuit încât să testeze cât de bine poate un model de limbaj să recunoască și să reproducă trăsături stilistice care depășesc nivelul conținutului. În esență, am încercat să traduc în cifre ceea ce, de obicei, percepem intuitiv atunci când citim un text. Am folosit GPT-4, cerându-i să genereze un fragment „în stilul lui James Joyce, capitolul Sirens din Ulysses”. Apoi am comparat cele două rezultate – textul original și cel generat automat – pentru a vedea cât de bine reușește LLM-ul să se apropie de stilul original.

Prima etapă a cercetării a fost analiza stilometrică, prin care am comparat textul original scris de James Joyce cu textul generat de GPT-4, din perspectiva trăsăturilor structurale și lexicale. Scopul a fost să observ cât de mult se aseamănă cele două texte în privința aspectelor cuantificabile: lungimea propozițiilor, complexitatea sintactică și varietatea vocabularului. Datele au arătat că, la nivelul cel mai general al limbii, există un grad mare de asemănare între cele două texte. Distribuțiile de caractere și combinațiile frecvente de litere sunt aproape identice, ceea ce înseamnă că modelul reproduce cu acuratețe tiparele ortografice și fonologice tipice limbii engleze. Totuși, dincolo de acest nivel de suprafață, analiza evidențiază diferențe clare între cele două texte.

Joyce folosește propoziții mai lungi și mai complexe, cu o adâncime sintactică mai mare. În textul generat, frazele sunt mai scurte și au o structură mai puțin ramificată. Există o reducere a nivelului de subordonare și o preferință pentru construcții simple. Diversitatea lexicală confirmă același tip de diferență: raportul tip-token este mai mare în textul lui Joyce, adică numărul de cuvinte diferite folosite în raport cu totalul cuvintelor din text este mai ridicat. Altfel spus, Joyce folosește un vocabular mai variat, în timp ce textul generat tinde să repete aceiași termeni, reducând astfel diversitatea lexicală.

Diferențele se văd cel mai bine direct în text. Am ales două fragmente care vorbesc despre cântece – o temă care se potrivește, până la urmă, unui capitol inspirat de muzică.

În textul original, Joyce scrie: „Thou lost one. All songs on that theme. Yet more Bloom stretched his string. Cruel it seems. Let people get fond of each other: lure them on. Then tear asunder. Death. Explos. Knock on the head. Outtohelloutofthat. Human life. Dignam”. Fragmentul generat de LLM are o structură vizibil mai simplă: „A basement club. Smoke thick as gravy. Men leaning close. Women sipping slow. She sang one song. ʻCry Me a Riverʼ. No one clapped at first”.

Pe lângă diferențele evidente de construcție, acest exemplu arată clar cum funcționează generarea probabilistică a unui text „în stilul” unui autor. În acest caz, modelul nu a fost instruit să continue Sirens, ci să scrie un text nou, folosind aceleași tipare lingvistice. Rezultatul este coerent, dar conținutul se îndepărtează complet de universul joycean. Iar dacă titlul Cry Me a River sună familiar, e posibil ca GPT-4 să fi fost, într-un fel, mai aproape de Justin Timberlake decât de James Joyce – o asociere care poate fi privită ca un exemplu de hallucination, fenomen des întâlnit în modelele de limbaj. Termenul are, în Oxford English Dictionary, o definiție nouă legată de inteligența artificială: „halucinația” nu înseamnă că algoritmul greșește, ci că inventează un detaliu care pare plauzibil, dar nu are legătură cu textul original.

Cel mai mare contrast se regăsește în analiza cuvintelor atipice. În textul original, am identificat 55 de termeni care nu există în limba engleză standard, precum pfrwritt, bootssnout, tschink sau pprrpffrrppffff. Aceste forme nu sunt greșeli, ci construcții deliberate, prin care Joyce experimentează cu structura și sunetul limbii. În textul generat, însă, nu apare niciun exemplu de acest fel. Explicația este una tehnică: în timpul antrenării, modelele de limbaj sunt optimizate să producă rezultate conforme cu normele lingvistice, iar abaterile de la acestea – greșeli ortografice, deformări, combinații neobișnuite – sunt tratate ca „zgomot”, adică date atipice sau valori extreme și sunt eliminate. Astfel, sistemul tinde să evite formele care se abat de la regulă și reproduce doar ceea ce există deja în datele de antrenament.

Privite în ansamblu, aceste limitări arată că modelele de limbaj funcționează, de fapt, în interiorul regulilor pe care le-au învățat. LLM-urile nu creează, ci reproduc, nu inventează, ci rearanjează ceea ce există deja în datele care le-au format. Originalitatea, în sensul uman al cuvântului, rămâne în afara algoritmului. De aceea, poate că miza reală nu este să vedem dacă un algoritm poate „scrie ca un om”, ci cum putem folosi aceste instrumente pentru a înțelege mai bine chiar limbajul uman, cu ambiguitățile, greșelile și libertățile lui.