Và al contegnud

Utent:Tresoldi

De Wikipedia

Un po' alla Martin Luther King Jr., direi che anche io ho un sogno: corpora paralleli per lingue regionali, locali, minoritarie e, essenzialmente, a rischio.

Un corpora parallelo non è nient'altro che una lista di frasi, parole e espressioni in una lingua con la traduzione in un'altra. Ecco, per esempio, una parte del corpus parallelo italiano-lombardo che ho cominciato a compilare dagli articoli della Wikipedia lombarda:

El grupp l'è famos per i sò test surreaj, umoristich e a voeult demenziaj ma anca per el sò alt nivell musegal, senza cuntà la soa capacità de passà de on stil de musega a l'alter senza problema. Il gruppo è famoso per i suoi testi surreali, umoristici e a volte demenziali ma anche il suo alto livello musicale, senza contare la sua capacità di passare da uno stile musicale all'altro senza problemi.
El tour del 2008 l'è staa dedicaa a la promozion del album noeuv e l'ha vist la partecipazion come corista de la Paola Folli. Il tour del 2008 fu dedicato alla promozione del nuovo album e vide la partecipazione come corista di Paola Folli.
Ma a lor la ghe pias nò questa definizion. Ma a loro non piace questa definizione.
A la fin de la sò vida Lissander el g'ha avuu di gross dispiasè: Alla fine della sua vita Alessandro ebbe alcuni grandi dispiaceri:
Ma, cont on fenòmen tipich di città italiann del XIV secol, anca Milan l'è diventada pian pianin ona Signoria, Ma, come fu un fenomeno tipico delle città italiane del XIV secolo, anche Milano si trasformò gradualmente in una Signoria,

E a cosa serve un corpus parallelo? Un corpus parallelo è la base per la maggior parte delle attività di linguistica computazionale, come correttori ortografici (anche on-line), modelli statistici delle lingue (che per esempio aiuterebbero a sistemare le problematiche conversioni di programmi di OCR) e forse persino sistemi di traduzione automatica o assistita. Ecco alcune voci di un glossario generato automaticamente (il valore numerico indica la probabilità statistica di una corrispondenza, che ovviamente dovrebbe essere confermata manualmente da uno o più parlanti), dove si possono notare anche errori di battitura e divergenze ortografiche presenti nel corpus:


dominiodomini0.5000000
performancesperformances1.0000000
vangelivanger1.0000000
scrivescriv0.3333333
ugualiistess0.5000000
ugualiiguaj1.0000000
conoscereconoss1.0000000
graziegrazie0.8000000
senzasenza1.0000000
climaclima1.0000000
consideratoconsideraa1.0000000
classeclass1.0000000
principalmentiprincipalment0.3333333
linguelengov1.0000000
peppinopeppin1.0000000
arrivariva0.5000000
qualchecerta1.0000000
luogositt1.0000000
ascoltatosentii1.0000000
avevaaveva0.8750000
ascoltarescoltà1.0000000
legalega1.0000000
ortolanoortolan1.0000000
librulibru1.0000000
competizionecompetizion1.0000000
iniziscominci1.0000000
nuovonoeuv0.6666667
cambiocambi1.0000000
sacrosacro1.0000000
carlettocarlin1.0000000
ereditatoeredità0.5000000
milanomilan0.9841270
milanomilàn0.8571429

Per tutti quelli che siano abituati ai più vecchi sistemi di traduzione automatica, come certi pacchetti software carissimi e siti, gratuiti e non, quali Babelfish e Google Translate, l'idea di motori di traduzione per lingue minori potrebbe sembrare un'impresa inutile o persino pura follia. Ma tra le nuove proposte di ingegneria di traduzione vi è esattamente la traduzione statistica, il cui più importante rappresentante è un software libero, ancora troppo accademico, chiamato Moses. L'idea della traduzione statistica, insopportabile ai più puristi, è che scrivere motori di traduzione tramite programmi di analisi grammaticale, dizionari curati a mano, sistemi di gestione delle eccezioni, ecc. non è pratico né efficiente, come lo ha dimostrato più di mezzo secolo di esperienze dai risultati molte volte deludenti. Un'alternativa sarebbe impiegare i computer esattamente per quello che possono fare meglio e con più facilità, ossia calcoli, e così questi nuovi motori di traduzione si propongono di analizzare traduzioni già fatte (esattamente quelle fornite nei corpora paralleli) e cercare di tradurre i testi con semplici basi statistiche. Se, per esempio, la maggior parte delle volte, tra tutte le frasi del corpus fornito, l'espressione lombarda "a manch che la parola la finissa" viene tradotta nell'italiana "a meno che la parola finisca", è probabile che la maggior parte delle altre volte la traduzione più adeguata (o, in termini più precisi, meno inadeguata) sia esattamente questa. Non c'è bisogno di dire che il funzionamento di questi sistemi è ben più complesso, e soprattutto che la traduzione statistica è lungi dall'essere la panacea per i problemi delle lingue a rischio.

Non avrebbe senso lavorare ad un sistema di traduzione completamente automatico queste lingue. Sono però convinto che lo sviluppo di corpora paralleli, con un'eventuale (anche se ancora molto lontana) "conseguenza" della traduzione assistita sarebbe utile: alcuni potrebbero trovare più facile correggere il lombardo di un testo tradotto da un articolo della Wikipedia italiana che scriverlo dallo zero. Oltre a questo, sviluppare un sistema di traduzione statistica tramite Wikipedia avrebbe un grandissimo vantaggio: siccome questi sistemi in genere sbagliano principalmente nel tradurre parole/frasi mai viste, se una traduzione sbagliata viene corretta il sistema è, almeno teoricamente, capace di imparare dai propri errori.

Insomma, non sogno con migliaia di nuovi articoli, ma un corpus parallelo, di qualità e libero. Ci proverò. :)

Esempi di traduzione (dall'italiano al lombardo

[Modifega | modifica 'l sorgent]

Esempio 1: Michelangelo Buonarroti

[Modifega | modifica 'l sorgent]

Michelangelo Buonarroti (Caprese Michelangelo, 6 marzo 1475 - Roma, 18 febbraio 1564) è stato uno scultore, pittore, architetto e poeta italiano, tra i protagonisti del Rinascimento e riconosciuto sin dai contemporanei come uno dei più grandi artisti di sempre.

Michelangelo Buonarroti (Caprese Michelangelo, 6 de marz del 1495 - Roma, 18 de fevree del 1564) l' è staa una scultore, pittore, architett e poeta italian, el protagonisti del rinascimento e riconosciuto sin da contemporanei come vun di püssee gross artista de semper.

Esempio 2: Lega Lombarda

[Modifega | modifica 'l sorgent]

La Lega Lombarda fu un'alleanza formata il 7 aprile 1167 presso l'abbazia di Pontida, e formata da Milano, Lodi, Ferrara, Piacenza e Parma. Il 1º dicembre 1167 venne allargata tramite l'alleanza con la Lega Veronese ed altri Comuni, che portò nella Lega ben 26 (in seguito 30) città dell'Italia settentrionale, tra cui Crema, Cremona, Mantova, Piacenza, Bergamo, Brescia, Milano, Bologna, Padova, Modena, Reggio nell'Emilia, Treviso, Venezia, Vercelli, Vicenza, Verona, Lodi, e Parma e che venne detta Concordia. La Lega venne formata per contrastare Federico I di Hohenstaufen detto "Il Barbarossa", imperatore del Sacro Romano Impero, nel suo tentativo di estendere l'influenza imperiale soprattutto nella regione padana.

La Lega Lombarda l'è staa on'alleanza formata el 7 de avril del 1167 presso l'abbazzia de Pontida, e formata de Milan, Lodi, Ferrara, Piacenza e Parma. El 1o de december del 1167 a l'è vegnuda allargata tramite l'alleanza con la Lega Veronese e alter comun, che portaa in de la lega ben 26 (in seguito 30) città de l'Italia settentrionale, tra qual Crema, Cremona , Mantoa, Piacenza , Berghem, Bressa , Milan, Bologna, Padova, Modena , Reggio in dell'Emilia, Treviso, Venezia, Vercelli, Vicenza, Verona, Lodi, e Parma e che a l'è vegnuda dita Concordia. La lega a l'è vegnuda formata per contrastare Federigh I de Hohenstaufen ciamaa "'l Barbarossa" , l'imperador del Sacro Roman Imperi, in del sò tentativo de estendere l'influenza imperial soratutt in de la region padana.

Esempio 3: Cuore (romanzo)

[Modifega | modifica 'l sorgent]

Cuore è un libro per ragazzi scritto nel 1886 da Edmondo de Amicis, pubblicato nel 1888. Fu un grande successo, tanto che de Amicis divenne lo scrittore più letto d'Italia.

Coeur l'è on liber per bagaj scritt in del 1886 de Admondo de Amicis, publicaa in del 1888. L'è staa on grand success, tant che de Amicis l'è diventaa ch'el scritor pussee letto d'Italia.

Esempio 4: Francia

[Modifega | modifica 'l sorgent]

La Francia, ufficialmente Repubblica Francese, è uno Stato dell'Europa occidentale confinante con Belgio, Lussemburgo, Germania, Svizzera, Italia, Monaco, Andorra e Spagna.

La Francia, ufficialmente Repubblica Frances, l'è vun staa de l'Euròpa Ocidentale confinante con Belgio, Lussemburgo, Germania, Sguizzera , l'Italia, Monaco, Andorra e Spagna.

Esempio 5: Angelo Branduardi

[Modifega | modifica 'l sorgent]

Angelo Branduardi (Cuggiono, 12 febbraio 1950) è un cantautore, violinista e chitarrista italiano. Nasce a Cuggiono, un piccolo paese alle porte di Milano, il 12 febbraio 1950. Assai giovane si è trasferito, al seguito della famiglia, a Genova dove ha conosciuto l'ambiente musicale della scuola genovese che ha rappresentato un importante stimolo per la sua attività artistica.

Angelo Branduardi (Cuggiono, 12 fevree 1950) l'è on cantautore, violinista e ghitarista talian. Nasce a Cuggiono, on piscinin paes aj port de Milan, el 12 fevree 1950. Assai giovane el s'è trasferito, al seguito de la famiglia, a Genova chì l'ha cognossuu l'ambiente musegal de la scoeula genovese che l'ha rappresentato on important stimolo per la soa attività artistega.

Esempio 6: Una frase per testare la sintassi (negazione post-posta)

[Modifega | modifica 'l sorgent]

Carlo porta non credeva che la lingua lombarda fosse poco importante.

Carl porta el pensava minga che la lengova lombard se pòcch important.

Ortografia e variante

[Modifega | modifica 'l sorgent]

Il primo grande problema è decide per una variante, e successivamente per un'ortografia, per il corpus iniziale. Se è vero che alcuni scripts, che potrebbe essere incorporati a bots, potrebbero convertire con relativa facilità da un'ortografia all'altra (specialmente dalle fonetiche ad altre) e che la traduzione statistica funzionerebbe molto bene da una variante all'altra (per esempio dal Milanese al Bergamasco), è anche vero che una prima decisione è necessaria e non facile. Per iniziare a organizzarmi, sto compilando la tabella di seguito comparando le grafie (forse potrò esportarla a una vera pagina di seguito); voglio solo organizzare, non difendo nessuna ortografia al momento (anche se a principio userei quella classica).

N.B.: questa tabella non solo è provvisoria, come non è ancora neanche finita. Oltre a ciò, non conosco il lombardo e le varie grafie così bene, ho deciso di compilarla esattamente per imparare.

SE QUALCUNO VOLESSE MODIFICARE QUESTA TABELLA, FACCIA PURE.

sun (IPA)cuntèstvecchia uü (cat.)graff m. classgraff uügraff dücatesempi (vecchia uü)
[i] tücciiiiliss
[e] tònicaéé?ée?fén
atunaeeeele
[ɛ] tònicaèè?ee?nètt
[e] / [ɛ] tònica, a seguunt dəl dialèttê (e)è?ee?rêsca, vêss
[e] / [a] atuna, a seguunt dël dialèttə (ë)eeepër, vündës
[y] tüccüuüütücc
[ø] tüccöoeu o œuööröda
[a] tüccaaaagat
tònicaaà?aà
atunaaaaa
[u] tüccuuuubun
[o] tònicaóóoo?róss
atunaoooosostituii
[ɔ] tònicaòòoo?vòtt
[o] / [ɔ] tònica, a seguunt dël dialèttô (o)o?oopôrta, grôss
[iː] tònicaiiiii (in mezzo a parola) o ii (alla fine)ï (?)riis, finii
[eː] tònicaéeéee (in mezzo a parola) o ee (alla fine)ë?dées, lée
[ɛː] tònicaèeèee (in mezzo a parola) o ee (alla fine)ë?pèert
[eː] / [ɛː] tònica, a seguunt dəl dialèttee (êe)èe?e (in mezzo a parola) o ee (alla fine)ë??
[yː] tònicaüüuuu (in mezzo a parola) o uu (alla fine)ü?müür
[øː] tònicaööoeu o œuöövöör
[uː] tònicauuuu?u (in mezzo a parola) o uu (alla fine)ü?amuur
[oː] tònicaóoôo (in mezzo a parola) o oo (alla fine)ö?cóolt
[ɔː] tònicaòoòo (?)o (in mezzo a parola) o oo (alla fine)ö?ròot
[oː] / [ɔː] tònica, a seguunt dəl dialèttoo (ôo)òo?o (in mezzo a parola) o oo (alla fine)ö?poort
[p] tüccpppppan
[b] tüccbbbbbun
[t] tücctttttass
[d] tüccbddddées
[k] danaanz a i, echchchchchi, che
in fin də paròlachchchchpacch
men che in fin də paròla e danaanz a i, ecccccan, cruus
sa tröva dumá danaanz a uqqqqquaant, áqua
[g] danaanz a i, eghghghghghigná, ghèll
in fin de paròlaghghgh
men che danaanz a i, egggggatt, grass
[ʧ] danaanz a i, ecccccéent
[ʦ] in fin də paròlazraanz
tra vucaalzzmazza
in fin də paròlacc?cc?tücc
men che in fin də paròla e danaanz a i, ecjci (?)cjaaf
[ʦ] / [ʧ] tücc, a seguunt dəl dialèttçençiclupedia
[ʦ] / [ʣ] da dré a cunsunanta sunòrazvanzá
in prinçipi də paròlazzòcur
[ʤ] / [ʒ] danaanz a i, e, a seguunt dəl dialèttggéel
[ʣ] tra vucaalzzá
men che in fin də paròla e danaanz a i, egjgigjaalt
[m] tücc, nasalizza la vocale che la precede se seguita da consonantemmmamm
[n] men che in fin də paròla cun sílaba tònica, nasalizza la vocale anteriorennnaas, asən, cana, can
non nasalizza la vocale anteriorenn
in fin də paròla cun sílaba tònicannn (?)fann
[ɲ] tüccgngngnücch, scagn, bagná
[ŋ] danaanz a c(h), g(h), qunnanca, inquadrá
in fin də paròla cun sílaba tònicancan, Milán
[r] e allofoni (come [ʀ]) tüccrrróss
[f] tüccfffamm
[v] tüccvvvéert
[s] / [ʦ] danaanz a vucala dòpu də na cunsunanta, seg. dial.spensá
[s] danaanz a vucala in prinçipi da paròlasszsètt
in fin də paròlassvündəs
tra vucaal e in fin də paròlassssssbassa, bass
[z] tra vucaalssstusa
tücc (suono medio tra sorda e la sonora)z
[ʃ] danaanz a i, escscscées
danaanz a cunsunanta surdas (?)
in fin də paròlascsccasc
men che in fin də paròla e danaanz a i, escjscscjatt
[ʃ] / [s] danaanz a cunsunanta surda, a seguunt dəl dialèttsspüzz
[ʃk] / [sk] men che in fin də paròla e danaanz a i, escs'cs-cscarpa
sə dröva danaanz a i, e e in fin də paròlaschs'cschivi, bósch
[ʒ] / [z] danaanz a cunsunanta sunòra, a seguunt dël dialèttssgsbatt
[h] dumá in prinçipi də paròlah[Livign] héi, hé
[ʋ] tra vucaalvvlavá
[j] in prinçipi də silabaj?jéer, paja
in fin de silabaj (?)bagaj (mil.)
[j] tra cunsunanta e vucalaiifiuur
[w] dumá tra q, g e vucalauuquaant, guaant
[l] tücclllarga, bèll
[ʎ] danaanz a igl[Livígn] fradeglín (fradelitt)
in fin də paròlagl[Pus'cjaaf] ögl (öcc)
danaanz a vucala diferenta da iglj[Livígn] igljóra (alura)

Primo test vero (Lega Lombarda)

[Modifega | modifica 'l sorgent]

La Lega Lombarda l'è staa on'alleanza formada el 7 de avril del 1167 a la abasia de Püntida, e formada da Milan, Lod, Ferrara, Piasensa e Parma. El 1º de december del 1167 a l'è stada alargada per mezz de la alleanza con la Lega Veronese e alter comun, che l'a portaa in de la lega ben 26 (in seguito 30) città de l'Italia setentrional, tra le qual Crema, Cremuna, Mantoa, Piasensa, Berghem, Bressa, Milan, Bologna, Padoa, Modena, Reggio in dell'Emilia, Trevis, Venesia, Vercej, Vicenza, Verona, Lod, e Parma e che a l'è vegnuda dita Concordia.

La Lega a l'è stada formada per contrastaa Federigh I de Hohenstaufen ciamaa "'l Barbarossa", l'imperador del Sacro Roman Imperi, in del sò tentatif de estendee l'influensa imperial soratutt in de la region padana. Federigh l'avia reclamaa el contròll dirett in su la Penisola a la Dieta de Roncaglia (1158), e la invase in del 1158 e in del 1166. La lega godeva del suport del Papa Lisander III, anca lu desideros de vedee declinaa el poter imperial in Italia. La città de Lissandria, fondaa in Piemont da la Lega Lombarda, prese el sò nòmm pròppi del pontefich e l'è nassuda come fortezza antimperial ai confin del Marchesato del Monferrato, alleato del Barbarossa .

In de la Battaglia de Legnan del 29 de mâgg del 1176, Federigh I a l'è battuu da le truppe comunali, guiaa, per i credenze popolar, dal condottier Alberto de Giussano (accreditaa come mero personaggio leggendario). Dòpo different alter sconfitte, l'imperador accettò ona tregua de ses ann dal 1177 al 1183, finna al Trattato de Costanza, in chì i città-staa padan accettarono de restare fedeli a l'Imperi in cambi de la piena giurisdizione locale aj lor territòri.

La Lega Lombarda a l'è vegnuda rinovada in del 1198 e in del 1208 duranta i guerr tra Ottone IV e Filipp de Svevia. In del 1126, la lega riottenne el sò antigh prestis contrastando i sfòrz de Federigh II de Hohenstaufen de aumentaa el sò potere in Italia. Questi sfòrz compresero de la conquista de Vicenza e la Battaglia de Cortenuova in su Oglio, che creò la reputazione de abile stratega del qual godeva l'imperador.

Egli in seguito sopravvalutò i sò forze, respingendo tücc i offerte de reappacifigazion di Milanes e insistendo in su la fada incondizionata. L'è staa on moment de grave importanza storica quell in qual la rabbia de Federigh ne offuscò el giudizio e bloccò qualsiasi possibilitaa de on accòrd pacifico. Milan e alter cinch città resistettero e in dell' ottobre del 1238 egli dovette togliere l'assedio a Bressa. Ancamò ona voeulta appoggiata del Papa, la Lega Lombarda riuscì a contrastare i tentativi de Federigh II , per poeu dissolversi in del 1250 a la mòrt de l' imperador.

Bibliografia