AI Engineering · ADC 2026 · C5

Context Engineering: regăsire semantică și vector stores

De la tipologii discursive la contexte recuperabile automat

În C5 trecem de la corpusul tipologizat la regăsire semantică. Nu generăm încă răspunsuri cu LLM. Construim prima jumătate a unui sistem RAG: texte curate, embeddings, index FAISS și testare top-k.

Curs AI Engineering Program ADC 2026 Limbă Română Sesiune C5

Scopul cursului este să construim prima jumătate a unui sistem RAG: curățăm o bulă discursivă, generăm embeddings cu un model multilingv, construim un index FAISS local și testăm regăsirea semantică prin top-k rezultate.

În C5 sistemul nu generează răspunsuri. Sistemul caută fragmente relevante. C6 va folosi aceste fragmente ca input pentru generare.

Slides C5
Slide-urile C5 introduc RAG, diferența dintre regăsire și generare, embeddings, FAISS, top-k și verificarea umană a rezultatelor recuperate.
Notebook-uri C5
Notebook-uri individuale pentru explorarea corpusului tipologizat, curățarea unei bule discursive și construirea unui vector store FAISS.
C5_01 — Explorare corpus tipologizat
C5_02 — Construire vectorstore
Date C5
Corpusul tipologizat produs după C4 și fișierele exportate pentru bulele discursive.
Script C5
Scriptul comun pentru construirea vectorstore-urilor după ce fișierele .jsonl din data/bubbles/ sunt curate.
corpus typed agent bubble texts embeddings FAISS + metadata query top-k results context

C5 — Retrieval

Corpus
→ Embeddings
→ FAISS
→ Top-k
→ Context

C6 — Generation

Context
→ Prompt
→ LLM
→ Răspuns

FAISS în EchoChamber

vectorstore_build.py
data/bubbles/<agent_slug>.jsonl
→ embeddings  normalize_embeddings=True
→ faiss.IndexFlatIP(dim)
→ assets/vectorstores/<agent_slug>/index.faiss
→ assets/vectorstores/<agent_slug>/index.pkl

index.faiss păstrează vectorii. index.pkl păstrează textele și metadatele.

Date

Notebook-uri

Vectorstore

Script

C5 - Retrieval, embeddings and vector stores
C5.1 C5.1 - Add shared C5 corpus and vectorstore script echipă
  • adaugă data/typed/corpus_typed.json
  • adaugă scripts/build_vectorstore.py
  • verifică structura folderelor pentru C5
C5.2 student_XX - C5.2 - Clean one agent bubble individual
  • fiecare student lucrează în notebooks/student_XX/
  • alege un agent / o bulă discursivă
  • inspectează textele; elimină exemplele slabe
  • exportă data/bubbles/<agent_slug>.jsonl
C5.3 student_XX - C5.3 - Build vectorstore for one agent bubble individual / Tema 2
  • încarcă fișierul .jsonl curățat
  • generează embeddings cu paraphrase-multilingual-MiniLM-L12-v2
  • construiește indexul FAISS
  • salvează index.faiss și index.pkl
  • face un test de regăsire semantică top-k
c5_to_c6.txt
C4: comentarii → adnotare → axe → tipologii
C5: corpus typed → embeddings → retrieval → context automat
C6: context recuperat → prompt → LLM → răspuns

C6 pornește de la vectorstore-ul construit în C5. În C6 adăugăm stratul de generation: contextul recuperat este trimis ca input unui LLM, iar răspunsul este generat pe baza fragmentelor relevante din corpus.