Parametrii de generare Un LLM e controlat prin parametri + context + format —nu doar prin prompt
temperature
ca termostat al creativității
Controlează cât de previzibil sau de surprinzător este răspunsul. La 0,
modelul alege mereu cel mai probabil cuvânt următor. La 1.5,
explorează variante neașteptate — util pentru texte creative.
0 → răspuns identic la fiecare rulare | 1.5 → variat, creativ, uneori imprecis
top-p
ca pâlnie care filtrează cuvintele
Modelul consideră toate cuvintele posibile, dar alege doar din cele
care împreună acoperă p% din probabilitate. La 0.9, cuvintele rare și
puțin probabile sunt eliminate automat.
0.1 → vocabular foarte restrâns | 1.0 → toate cuvintele în joc
max_output_tokens
ca foarfecă pe un text lung
Setează lungimea maximă a răspunsului. Dacă modelul nu a terminat
fraza, aceasta este tăiată brusc. Util ca protecție împotriva
răspunsurilor uriașe și costisitoare.
256 → răspuns scurt, economic | 4096 → documente lungi, cod complet
context window
ca fereastră pe o masă de lucru
Tot textul pe care modelul îl poate citi simultan —prompt,
conversație, documente. Ce iese din fereastră este uitat complet. Nu
este memorie pe termen lung.
8k tokens ≈ ~6 pagini A4 | 2M tokens ≈ o carte întreagă
seed
ca rețetă cu ingrediente fixe
Un număr „secret” care ancorează aleatoriul modelului. Același seed
cu același prompt produce mereu același răspuns. Esențial pentru
teste și evaluări comparative.
fără seed → răspuns diferit la fiecare rulare | seed fix → reproductibil 100%
structured output
ca matriță care impune forma exactă
Forțează modelul să răspundă exclusiv în formatul JSON specificat.
Fără introduceri, fără text în plus — doar structura exactă cerută.
Indispensabil în pipeline-uri automate.
False → răspuns narativ liber | True → JSON valid garantat
frequency_penalty
ca taxă pe repetiție
Penalizează cuvintele care au apărut deja în răspuns. Cu cât un cuvânt
a fost folosit mai des, cu atât e mai puțin probabil să apară din nou.
Forțează modelul să varieze vocabularul.
0 → repetițiile sunt permise liber | 2.0 → vocabular forțat variat
presence_penalty
ca taxă pe prezență
Penalizează orice cuvânt care a apărut cel puțin o dată, indiferent de
frecvență. Împinge modelul spre teme și idei noi, nu spre variații ale
aceluiași subiect.
0 → modelul poate reveni la aceleași teme | 2.0 → forțează diversitate tematică
stop
ca semafor roșu în text
Definești un șir de caractere (ex. '###' sau 'END') la care modelul se
oprește imediat. Util în pipeline-uri unde știi exact unde se termină
răspunsul util.
ex. stop=["#"] → taie la primul # | fără stop → modelul scrie până la max_tokens