C4 - Prompting, adnotare si tipologii discursive

Despre acest curs

Scopul cursului este să construim un prompt de adnotare, să testăm tehnici de prompt engineering, să producem adnotări în JSON și să transformăm rezultatele în tipologii discursive rule-based.

Slide-urile C4 acoperă tematica, livrabilele, axele, pipeline-ul, tipologia și pregătirea pentru C5. Pagina aceasta păstrează structura și UX-ul din C3, dar conținutul este actualizat pentru etapa de adnotare și context engineering.

Mesaj-cheie: LLM-ul nu decide direct bula discursivă. Modelul produce variabile. Scriptul construiește tipologia.

Materiale

▤

Slides C4

Slide-urile C4 introduc prompting, schema de adnotare, axele discursive, tipologiile rule-based și pregătirea pentru C5.

▶ Deschide viewer ↓ PDF

⊞

Notebook-uri C4

Notebook demo pentru clasă și notebook de exercițiu individual, păstrate direct în secțiunea de materiale.

Notebook demo

↗ Deschide ↓ Descarcă

Notebook exercițiu

↗ Deschide ↓ Descarcă

⤓

Date C4

Arhiva de date pentru C4, păstrată ca zip unic în structura actuală a cursului.

↓ corpus_youtube_sample.zip

⌘

Prompt & script

Promptul de referință și scriptul de adnotare folosite pentru a produce variabilele și tipologiile C4.

↗ Prompt ref ↓ Script

Ce facem în C4

Comparăm zero-shot, role prompting, few-shot, JSON in prompt și structured output.
Construim și testăm un prompt de adnotare.
Adnotăm comentarii YouTube pe target, stance, tone și 5 axe discursive.
Construim tipologii rule-based din valorile pe axe.
Comparăm tipologia cu DBSCAN ca verificare exploratorie.
Fiecare student face un mini-prompt individual în notebook.

Schema de adnotare

annotation_schema.json

{
  "target": "",
  "stance": "",
  "tone": "",
  "institutional": 0,
  "legitimare": 0,
  "epistemic": 0,
  "geopolitic": 0,
  "mobilizare": 0,
  "justification": "",
  "confidence": 0.0
}

Cele 5 axe discursive

Axă	Capăt 1	Capăt 2	Notă
`institutional`	instituții corupte / capturate	lege și procedură legitimă	măsoară raportarea la instituții
`legitimare`	lider-salvator	reguli, instituții și pluralism	separă personalismul de logica democratică
`epistemic`	forțe ascunse / regie	dovezi, verificare, probe	urmărește logica explicativă
`geopolitic`	UE/NATO ca amenințare	UE/NATO ca garanție	captează orientarea externă
`mobilizare`	0 = absent	2 = chemare la acțiune	axă ordinală, nu neutră

Regulă importantă: 0 = absent, nu neutru. Un comentariu poate activa mai multe axe simultan.

Pipeline C4

corpus YouTube curățat → prompt de adnotare → LLM annotation → target + stance + tone + 5 axe → tipologie rule-based → DBSCAN exploratoriu → corpus typed pentru C5

Tipologii discursive

Tipurile sunt construite prin reguli, nu cerute direct modelului. Modelul produce variabilele de lucru, iar scriptul mapează combinațiile relevante în tipologii discursive.

T1T1_suport_personalist
T2T2_grievance_anti_sistem
T3T3_opozitie_suveranista
T4T4_conspiratie_externalism
T5T5_pro_democratic_european
T6T6_afectiv_pozitional

Livrabile C4

Prompt și script

01materiale/annotation_prompt.md
02materiale/annotate_axis.py

Date

03data/corpus_youtube_sample.zip

Notebook-uri

04notebooks/C4_adnotare_corpus_demo.ipynb
05notebooks/C4_adnotare_corpus_exercitiu.ipynb
06notebooks/student_XX/C4_adnotare_corpus_exercitiu.ipynb

GitHub Issues / Workflow

C4 - Prompting and annotation

C4.1 C4.1 - Add C4 data, script, and reference prompt echipă

adaugă datele sample, scriptul și promptul de referință în structura C4
verifică că linkurile din pagina cursului indică spre căile finale

C4.2 student_XX - C4.2 - Complete annotation exercise notebook individual

fiecare student lucrează în notebook-ul de exercițiu pentru adnotare
testează mini-promptul individual pe comentarii din corpus

C4.3 C4.3 - Add class demo annotation and typology notebook echipă

adaugă notebook-ul demo pentru clasă
documentează trecerea de la variabile la tipologie

C4.4 C4.4 - Build and test annotation prompt echipă

stabilește promptul final de lucru pentru adnotare
verifică rezultatele pe sample-ul din zip

Pregătire pentru C5

verificați că aveți fișierele C4 în repo
rulați C4_adnotare_corpus_exercitiu.ipynb
verificați arhiva data/corpus_youtube_sample.zip
pregătiți 5 întrebări de test pentru corpus
actualizați README cu ce ați făcut în C4

Legătura cu C5

c4_to_c5.txt

C4: comentarii → adnotare → axe → tipologii
C5: corpus typed → embeddings → retrieval → context automat

C5 pornește de la outputul C4. În C5 construim retrieval system, vector store și primul strat de RAG. Modelul nu mai primește context scris manual; sistemul recuperează automat pasaje relevante din corpus.

Resurse

Prompt / context engineering

Video context engineering

YouTube — Context engineering video↗

Prompting, adnotare și tipologii discursive