Despre acest curs
Scopul cursului este să construim un prompt de adnotare, să testăm tehnici de prompt engineering, să producem adnotări în JSON și să transformăm rezultatele în tipologii discursive rule-based.
Slide-urile C4 acoperă tematica, livrabilele, axele, pipeline-ul, tipologia și pregătirea pentru C5. Pagina aceasta păstrează structura și UX-ul din C3, dar conținutul este actualizat pentru etapa de adnotare și context engineering.
Mesaj-cheie: LLM-ul nu decide direct bula discursivă. Modelul produce variabile. Scriptul construiește tipologia.
Materiale
Ce facem în C4
- Comparăm zero-shot, role prompting, few-shot, JSON in prompt și structured output.
- Construim și testăm un prompt de adnotare.
- Adnotăm comentarii YouTube pe
target,stance,toneși 5 axe discursive. - Construim tipologii rule-based din valorile pe axe.
- Comparăm tipologia cu DBSCAN ca verificare exploratorie.
- Fiecare student face un mini-prompt individual în notebook.
Schema de adnotare
{
"target": "",
"stance": "",
"tone": "",
"institutional": 0,
"legitimare": 0,
"epistemic": 0,
"geopolitic": 0,
"mobilizare": 0,
"justification": "",
"confidence": 0.0
}
Cele 5 axe discursive
| Axă | Capăt 1 | Capăt 2 | Notă |
|---|---|---|---|
institutional |
instituții corupte / capturate | lege și procedură legitimă | măsoară raportarea la instituții |
legitimare |
lider-salvator | reguli, instituții și pluralism | separă personalismul de logica democratică |
epistemic |
forțe ascunse / regie | dovezi, verificare, probe | urmărește logica explicativă |
geopolitic |
UE/NATO ca amenințare | UE/NATO ca garanție | captează orientarea externă |
mobilizare |
0 = absent | 2 = chemare la acțiune | axă ordinală, nu neutră |
Regulă importantă: 0 = absent, nu neutru. Un comentariu poate activa mai multe axe simultan.
Pipeline C4
Tipologii discursive
Tipurile sunt construite prin reguli, nu cerute direct modelului. Modelul produce variabilele de lucru, iar scriptul mapează combinațiile relevante în tipologii discursive.
- T1
T1_suport_personalist - T2
T2_grievance_anti_sistem - T3
T3_opozitie_suveranista - T4
T4_conspiratie_externalism - T5
T5_pro_democratic_european - T6
T6_afectiv_pozitional
Livrabile C4
Prompt și script
- 01
materiale/annotation_prompt.md - 02
materiale/annotate_axis.py
Date
- 03
data/corpus_youtube_sample.zip
Notebook-uri
- 04
notebooks/C4_adnotare_corpus_demo.ipynb - 05
notebooks/C4_adnotare_corpus_exercitiu.ipynb - 06
notebooks/student_XX/C4_adnotare_corpus_exercitiu.ipynb
GitHub Issues / Workflow
- adaugă datele sample, scriptul și promptul de referință în structura C4
- verifică că linkurile din pagina cursului indică spre căile finale
- fiecare student lucrează în notebook-ul de exercițiu pentru adnotare
- testează mini-promptul individual pe comentarii din corpus
- adaugă notebook-ul demo pentru clasă
- documentează trecerea de la variabile la tipologie
- stabilește promptul final de lucru pentru adnotare
- verifică rezultatele pe sample-ul din zip
Pregătire pentru C5
- verificați că aveți fișierele C4 în repo
- rulați
C4_adnotare_corpus_exercitiu.ipynb - verificați arhiva
data/corpus_youtube_sample.zip - pregătiți 5 întrebări de test pentru corpus
- actualizați README cu ce ați făcut în C4
Legătura cu C5
C4: comentarii → adnotare → axe → tipologii C5: corpus typed → embeddings → retrieval → context automat
C5 pornește de la outputul C4. În C5 construim retrieval system, vector store și primul strat de RAG. Modelul nu mai primește context scris manual; sistemul recuperează automat pasaje relevante din corpus.
Resurse
Prompt / context engineering
Video context engineering