- Fase 1: Preprocessing avanzato del testo italiano – normalizzazione morfologica con lemmatizzazione tramite WordNet-Italiano e Stemmer adattati (es. Stemmer per “banco” → “banco”, “banche” → “banco”), rimozione sistematica di rumore (URL, caratteri non alfanumerici), tokenizzazione con consapevolezza morfologica per preservare significato (es. “prenotazioni” → “prenotazione+s”, “riva” → “riva_fiume”).
- Fase 2: Disambiguazione contestuale con modelli multilingue specializzati – utilizzo di BERT-Italiano fine-tunato su corpus ufficiali (es. normativa sanitaria, documentazione pubblica), con pesi dinamici per dialetti e varianti regionali (es. “fossa” in Lombardia vs. “pozzo” in Sicilia), integrando embedding temporali e geospatiali per contesti spazio-temporali precisi.
- Fase 3: Interpretazione semantica gerarchica con ontologie Italiane – applicazione dell’Italian Semantic Web Ontology per assegnare relazioni di sinonimia (es. “ambulatorio” ↔ “studio medico”), iperonimia (“visita” ↔ “intervento sanitario”) e contraposizione (“privato” ↔ “pubblico”), facilitando inferenze logiche contestuali.
- Fase 4: Ottimizzazione dei pesi di attenzione nei transformer – addestramento con loss function ibrida (cross-entropy + distanza semantica) per privilegiare contesti coerenti, riducendo risposte fuorvianti e accelerando l’inferenza.
- Fase 5: Validazione automatica con dataset multiforme – test su casi noti di ambiguità (es. “banca” finanziaria vs. riva fiume), misurazione di BLEU semantico, F1-score contestuale e tasso di disambiguazione in tempo reale, con reporting automatizzato per iterazioni di miglioramento.