Utent:Mizardellorsa/Progetto: letteratura lombarda

De Wikipedia

Una lingua è un dialetto con un esercito ed una marina: è una famosa espressione, in genere attribuita a Max Weinreich, noto sociolinguista delle così dette lingue minoritarie. Quasi tutti concordano nell'individuare l'esercito e la marina necessari per elevare a dignità di lingua un idioma nella presenza di una letteratura. Il lombardo, nelle sue varie articolazioni ha avuto una storia letteraria ragguardevole e risalente nei secoli, ma in genere, tranne che per Carlo Porta, molto poco conosciuta al di fuori di una ridotta schiera di cultori.

Ho voluto cogliere l'occasione dell'Editathon/200Porta per lanciare una proposta concreta di valorizzazione della letteratura lombarda ovviamente in questo tempo limitato e finora senza aiuto di altri, pensando l'iniziativa in modo modulare che permetta un proseguimento ed un allargamento per coprire, con il tempo, una sezione importante dell'immensa produzione letteraria in lombardo.

Wikisource[Modifega | modifica 'l sorgent]

it:wikisource[Modifega | modifica 'l sorgent]

Su it:Wikisource da anni c'è una raccolta di testi e di autori. Attualmente c'è una chiara indicazione che i testi devono essere [[:s:Wikisource:ProofreadPage|Proofread]: di regola in formato .djvu con la parte destra della pagina con l'immagine del testo originario e nella parte sinistra la sua trascrizione in formato testo. Bisogna disporre di testi scansionati che siano in pubblico dominio o con licenza libera. Si passa poi alla trasformazione in formato testo tramite, in genere OCR automatico, ma per i testi c.d. dialettali l'OCR è meno affidabile. L'intero procedimento dà un risultato molto belo e utile, ma richiede uno sforzo notevole e una buona capacità tecnica. Un normale utente deve cominciare a contribuire dalla fase di rilettura, poi, con l'aiuto di persone esperte, può passare ad altre fasi.

Trascrivo i link:

lmo.wikisource[Modifega | modifica 'l sorgent]

Le altre principali lingue regionali (veneto, napoletano, ligure, piemontese) si sono sganciate da it:wikisource e hanno creato autonomi progetti wikisource. La prima fase di incubator avviene sulla versione con una parziale autonomia sulla versione miltilingue della mul.wikisource o anche oldwikisource. Si è creata una lmo.wikisource che avendo pochi utenti, è anche molto più accogliente per i nuovi contributori.

Trascrivo i link alle pagine raccolte, tutte in solo testi. Gran parte del materiale coincide con quello che si legge nel sito a cui contribuisce Eldomm.

Wikimedia Commons[Modifega | modifica 'l sorgent]

Come abbiamo visto sopra il primo requisito per avere testi prooferead è quello di disporre di testi scansionati fase che in genere è costosa ed impegnativa. Per fortuna in lingua lombarda. Google ha però fatto una campagna di notevole ampiezza di scansioni di testi per lo più di biblioteche delle università americane o canadesi. Stranamente le principali opere in lingua lombarda del xvii e xvii secolo e dei primi decenni delXIX secolo sono presenti e disponibili su Google Books. Con una operazione di copia-incolla si possono prendere i .pdf e caricarli su archive.org, dove ci sono già anche altri testi in lombardo caricati direttamente in genere da biblioteche pubbliche. In attesa di un futuro ed impegnativo caricamento su Wikisource sto provvedendo a un caricamento su Wikimedia Commons, con il vantaggio di poter disporre le immagini per metterle su lmo.wikipedia.

Archive.org[Modifega | modifica 'l sorgent]

Alcuni siti, in particolare la Biblioteca Braidense hanno una ricca raccolta di testi scansionati in milanese, ad esempio tutto il teatro degli ultimi decenni dell'Ottocento che sono chiaramente testi in Pubblico Dominio, ma le scansioni sono fornite con licenza CC NC, licenza non ammessa per i testi da caricare su Wikimedia Commons. L'operazione di copia-incolla genera una filigrana con la dicitura internetculturale che non può essere aggirata. La soluzione intrapresa è quella di caricare i testi su Archive.org che che fornisce in modo automatico una serie di opportunità come ad esempio l'OCR in formato testo.