Bondi, Google e il pubblico dominio
Mi dispiace non ci riesco. A me che Bondi vada in giro a raccontare orgoglione che siamo all’avanguardia perché ci siamo attaccati al tram di Google per mettere online opere che sono il patrimonio della nazione non mi rende per niente felice (Corriere, Repubblica).
Non mi piace sentirmi dire che siamo all’avanguardia, quando il Progetto Gutenberg esiste dal 1971, Gallica dal 1997, Europeana dal 2008.. tutti treni che abbiamo abbondantemente perso.
Non vanno bene perché sono progetti stranieri? Benissimo. Abbiamo “in casa” LiberLiber che dal 1993 porta avanti il “Progetto Manunzio”..
Ma Bondi le ha lette le condizioni d’uso di un libro di pubblico dominio pubblicato su Google Books prima di firmare? (domanda stupida, avete ragione, probabilmente quando verranno pubblicati anche sui siti delle biblioteche italiane, saranno “all rights reserved”)
Informazioni su questo libro
Si tratta della copia digitale di un libro che per generazioni è stato conservata negli scaffali di una biblioteca prima di essere digitalizzato da Google nell’ambito del progetto volto a rendere disponibili online i libri di tutto il mondo. Ha sopravvissuto abbastanza per non essere più protetto dai diritti di copyright e diventare di pubblico dominio. Un libro di pubblico dominio è un libro che non è mai stato protetto dal copyright o i cui termini legali di copyright sono scaduti. La classificazione di un libro come di pubblico dominio può variare da paese a paese. I libri di pubblico dominio sono l’anello di congiunzione con il passato, rappresentano un patrimonio storico, culturale e di conoscenza spesso difficile da scoprire. Commenti, note e altre annotazioni a margine presenti nel volume originale compariranno in questo file, come testimonianza del lungo viaggio percorso dal libro, dall’editore originale alla biblioteca, per giungere fino a te.Linee guide per l’utilizzo
Google è orgoglioso di essere il partner delle biblioteche per digitalizzare i materiali di pubblico dominio e renderli universalmente disponibili. I libri di pubblico dominio appartengono al pubblico e noi ne siamo solamente i custodi. Tuttavia questo lavoro è oneroso, pertanto, per poter continuare ad offrire questo servizio abbiamo preso alcune iniziative per impedire l’utilizzo illecito da parte di soggetti commerciali, compresa l’imposizione di restrizioni sull’invio di query automatizzate. Inoltre ti chiediamo di:
+ Non fare un uso commerciale di questi file Abbiamo concepito Google Ricerca Libri per l’uso da parte dei singoli utenti privati e ti chiediamo di utilizzare questi file per uso personale e non a fini commerciali.
+ Non inviare query automatizzate Non inviare a Google query automatizzate di alcun tipo. Se stai effettuando delle ricerche nel campo della traduzione automatica, del riconoscimento ottico dei caratteri (OCR) o in altri campi dove necessiti di utilizzare grandi quantità di testo, ti invitiamo a contattarci. Incoraggiamo l’uso dei materiali di pubblico dominio per questi scopi e potremmo esserti di aiuto.
+ Conserva la filigrana La “filigrana” (watermark) di Google che compare in ciascun file è essenziale per informare gli utenti su questo progetto e aiutarli a trovare materiali aggiuntivi tramite Google Ricerca Libri. Non rimuoverla.
+ Fanne un uso legale Indipendentemente dall’utilizzo che ne farai, ricordati che è tua responsabilità accertati di farne un uso legale. Non dare per scontato che, poiché un libro è di pubblico dominio per gli utenti degli Stati Uniti, sia di pubblico dominio anche per gli utenti di altri paesi. I criteri che stabiliscono se un libro è protetto da copyright variano da Paese a Paese e non possiamo offrire indicazioni se un determinato uso del libro è consentito. Non dare per scontato che poiché un libro compare in Google Ricerca Libri ciò significhi che può essere utilizzato in qualsiasi modo e in qualsiasi Paese del mondo. Le sanzioni per le violazioni del copyright possono essere molto severe.Informazioni su Google Ricerca Libri
La missione di Google è organizzare le informazioni a livello mondiale e renderle universalmente accessibili e fruibili. Google Ricerca Libri aiuta i lettori a scoprire i libri di tutto il mondo e consente ad autori ed editori di raggiungere un pubblico più ampio. Puoi effettuare una ricerca sul Web nell’intero testo di questo libro da
http://books.google.com”
Le opere di pubblico dominio sono patrimonio dell’umanità, non di Google. Quando un mese fa tutti hanno gridato alla meraviglia del Public Domain Manifesto ed erano in prima linea a spintonarsi per firmarlo e pubblicizzarlo, mi chiedo se veramente lo hanno letto e cosa ne pensano oggi dell’accordo con Google.
Il manifesto dice:
Non vanno applicati contratti o misure tecniche di protezione che restringono l’accesso e il ri-utilizzo di opere già nel pubblico dominio. Lo stato di pubblico dominio di un’opera deve garantirne il diritto di ri-uso, modifica e riproduzione. Ciò vale anche per le prerogative dell’utente derivanti da eccezioni e limitazioni, dal “fair use” e “fair dealing”, assicurando che queste opzioni non vengano limitate da mezzi tecnologici o contrattuali.
Google risponde (ribadisco):
[..]abbiamo preso alcune iniziative per impedire l’utilizzo illecito da parte di soggetti commerciali[..]
+ Non fare un uso commerciale di questi file
+ Conserva la filigrana
Sarò talebana ma questo accordo per me invece che portare l’Italia all’avanguardia, come sostiene Bondi, la getta nell’Antinferno.
..e, just for fun, confrontate questa affermazione la missione di Google è organizzare le informazioni a livello mondiale con i “prodotti” della Fondazione Google.
Ti ho risposto qui: http://aubreymcfato.wordpress.com/2010/03/11/google-digitalizza-litalia/
La licenza Google non è granché; priva il pubblico dominio di una delle sue virtù: quella di creare ricchezza per chi rielabora o semplicemente distribuisce i contenuti liberi. Spero la correggano quanto prima.
Ma sull’accordo trovo soprattutto curioso (e fuori luogo) il sentimento di soddisfazione che Bondi lascia trapelare. Che il Ministero abbia fatto poco o nulla nell’ambito della conservazione e distribuzione digitale dei libri non mi sembra una cosa di cui essere contenti. Né mi sembra si debba gioire quando un privato si sostituisce allo Stato in una funzione che è costituzionalmente dello Stato. Forse Bondi non ci ha fatto caso, ma sul suo sito, là dove si spiega a che serve il Ministero, leggiamo:
“Il Ministero per i Beni Culturali e Ambientali fu istituito […] con il compito di affidare unitariamente alla specifica competenza di un Ministero appositamente costituito la gestione del patrimonio culturale e dell’ambiente al fine di assicurare l’organica tutela di interesse di estrema rilevanza sul piano interno e nazionale.”
Italiano zoppicante a parte, mi sembra più che evidente che la digitalizzazione del nostro patrimonio letterario dovrebbe essere a cura dello Stato. Il cittadino può rallegrarsi che in mancanza di meglio provveda Google, o – nel suo piccolo – Liber Liber. Ma un Ministro un annuncio del genere dovrebbe – se non altro – farlo con un po’ di imbarazzo.
P.S. A chi venisse in mente che lo Stato non se ne occupa perché non ci sono soldi: si ricreda. Il Ministero di soldi ne ha a valanga; solo che vengono spesi… male. Diciamo così per farla breve. Si legga il libro “La casta” di Rizzo e Stella se invece si vogliono più dettagli.
La divisione libri di Google è attualmente l’unica a possedere la tecnologia adatta ad effettuare le scansioni in maniera adeguata e veloce (vedi il loro brevetto)
http://news.cnet.com/8301-11386_3-10232931-76.html
LiberLibri NON è e non è mai stata, né ha mai avuto tra i suoi obiettivi la digitalizzazione del patrimonio librario, ma solo la trascrizione ed è una iniziativa del tutto differente
Le scansioni di googlebooks sono effettuate riducendo a due bit la profondità colore (la pagina si presenta cok testo nero su sfondo bianco), così da poterle stampare facilmente all’occorrenza
l’algoritmo di compressione utilizzato e generalmente il jbig2 le cui specifiche sono state rese pubbliche da Adam Langley creatore dell’encoder jbig2enc
http://github.com/agl/jbig2enc
google usa talvolta anche la compressione jpeg2000 o un misto di jbig2 e jpeg2000 per includere aree a colori(es: mappe dettagliate) nei suoi file compressi con jbig2
il formato finale è un pdf il la cui versione è di norma 1.4 (compatibile con tutti gli strumenti liberi per modificare pdf – pdftk, pdfsam, multivalent ecc…)
La digitalizzazione di googlebooks è una garanzia contro la brevimiranza delle biblioteche in materia di digitalizzazione (basta vedere le poche e confuse idee ed i formati inadeguati rispetto alla risoluzione, nonché agli algoritmi di compressione di taluni progetti avviati in proprio – non tutti fortunatamente)
il numero di un milione di volumi complessivi è certamente una stima iniziale, essendovi molte più opere di pubblico dominio
i diritti sulle opere si estendono infatti fino a 70 anni dopo la morte dell’autore (ci sono, per le opere pubblicate in tempo di guerra, 4-5 anni di estensione); dunque:
2010-70=1940
tutte le opere di autori morti nel 1940 o prima sono di pubblico dominio e liberamente digitalizzabili
la data del 1870 indicata come anno limite iniziale è certamente prudenziale in una fase in cui i metadati accompagnanti ogni libro (fra cui data di nascita e di morte dell’autore) sono largamente incompleti, ma certamente dopo dovranno essere digitalizzate anche tutte le opere di autori morti fino al 1940
Google dice che la sua missione è digitalizzare i libri per “renderli universalmente disponibili“, Liber Liber dice “Il progetto Manuzio ha l’ambizione di concretizzare un nobile ideale: la cultura a disposizione di tutti. Come? Capolavori della letteratura, manuali, tesi di laurea, riviste e altri documenti in formato elettronico disponibili sempre, in tutto il mondo, a costo zero e con accorgimenti tecnici tali da garantirne la fruibilità anche a non vedenti e altri portatori di handicap.“. Francamente non vedo differenze tra i due obiettivi.. tutto il resto (come lo fanno, for profit o meno, ecc.) è diverso, lo scopo però no.
Per inciso, quest’anno cadono nel pubblico dominio le opere degli autori morti nel 1939, non nel ’40. Devono trascorrere 70 anni completi.. e questo, ovviamente, vale in Italia e in un po’ di altri posti, ma non in tutto il mondo.
Last but not least sono felice della superiorità tecnologica di Google, da cui non mi aspetto – in effetti – niente di meno. Ma anche se fossero gli unici su questo mondo in grado di digitalizzare un documento, questo non sposterebbe di una virgola le mie considerazioni nel post qui sopra.
Ci sono, come è risaputo, differenze sostanziali concrete
Liberlibri trascrive il testo
Googlebooks effettua il riconoscimento ottico dei caratteri e in più preserva l’immagine dell’oggetto libro, così che l’arte legatoria e tipografica si possa preservare anche se l’originale dovesse andar distrutto
Tutti noi, con la data di morte dell’autore alla mano, possiamo d’altronde digitalizzare libri caduti nel pubblico dominio, utilizzando l’encoder jbig2 e python per riassemblare le immagini in un pdf (dettagli nel sito di jbig2enc)
Liberlibri (che pure accorge tra le sue opere testi donati da editori non riutilizzabili commercialmente), invece di recriminare, ed allo scopo di superare il complesso d’inferiorità (che non sussiste, essendo due progetti differenti il suo e quello di google), dotandosi di uno scanner antipiano come il booksnap della Atiz
http://www.atiz.com/
potrà fargli concorrenza, poiché la preservazione dell’aspetto originale del libro ha un valore assai più alto del trascriverne il solo testo: dall’immagine del ibro si può sempre ricavare il testo; mentre dal solo testo non l’immagine dell’aspetto originale del libro
Grazie Teone per le informazioni dettagliate (grazie davvero, a me interessano molto.)
Sono d’accordo sul fatto che la digitalizzazione del testo sia decisamente importante (assieme alla trascrizione): sai pure se Google si occuperà di digital preservation?
Il discorso qui comunque verte sui diritti di queste copie digitali, e la questione non mi sembra banale. Le copie digitali dovrebbero ricadere sotto la tutele delle immagini, quindi 20 anni dalla scansione, mentre l’OCR di Google (che però è spesso pessimo e inservibile) a rigore non dovrebbe avere copyright (riproduzione meccanica, non è una vera edizione e non è un’opera derivata perchè non creativa). Sai dirci qualcosa a riguardo?
Quello che il riconoscimento ottico dei caratteri di googlebooks non sia ottimale è una falsa percezione dovuto al grande parco di opere antiche antiche sui cui è stato eseguito e con una tipografia tanto lontana dalla nostra anche le versioni di software commerciali come Abbeyy Finereader, dopo un adeguato addestramento ai particolari tipi del libro, avrebbero problemi
Se si prova a vedere il risultato dell’OCR su testi recenti si nota che è di gran lunga migliore e pressoché esente a errori
Google dovrebbe utilizzare, per l’OCR una sua versione sviluppata in proprio di tesseract; ai fini di un riuso del testo in wikipedia e progetti similari, non sarebbe una cattiva idea presentare una richiesta scritta per ulteriori delucidazioni; le considerazioni che si possono fare leggendo i termini d’uso che accompagnano ogni libro, sono che:
– esse nascono per proibire la ricopyritazione dell’opera (magari sotto forme assai più restrittive)
esistono società (vedi bibliobazaar) che mettono in vendita copie stampate di libri digitalizzati da googlebooks
(esisteva) la http://www.publicdomainreprints.org/ che stampava su ordinazione copie cartacee di libri sempre digitalizzati da googlebooks ed altre fonti librarie
lo scenario sembra quindi concedere molte libertà, sicuramente molte di più di quelle che si sarebbero potute avere se la digitalizzazione fosse avvenuta sotto la tutela delle autorità italiane
Ciao a tutti, interessante questo thread. La mia opinione è che sia comunque un bene la digitalizzazione dei libri che sta avvenendo. Da quello che capisco il pubblico dominio continua ad essere pubblico dominio dal punto di vista giuridico qualsiasi cosa ci si scriva di fianco come regole aggiunte più o meno restrittive. Sono messe li da Google probabilmente per rassicurare gli editori, ma di fatto un testo di pubblico dominio si può usare con una certa libertà indipendentemente che si abbia il libro in mano oppure una copia fotografica. Sto parlando del testo in sè. Per quanto riguarda la versione digitalizzata non saprei se alla luce del diritto d’autore la copia ha un’originalità tale da poter essere considerata tutelabile in modo separato. Secondo me no, nella prassi non so. Quello che penso sia di sicuro garantito è appunto l’uso e la disponibilità del testo e secondo me questa è già una gran cosa. E’ certo che “imporre” limitazioni su foto/scansioni prive di originalità creativa su testi public domain stona. Qual’è la vostra opinione su questi due aspetti? Per i testi eventualmente passi la cosa perchè sono comunque trascrivibili, ma è un vero peccato quando la copia vincolata è ad esempio la riproduzione esatta di opere d’arte diventate public domain. Li cosa si trascrive? Sarei a sostegno di un progetto per la digitalizzazione del patrimonio artistico italiano diventato di pubblico dominio, in cui poi le immagini siano liberamente disponibili per tutti (wikipedia, siti, blog…), perchè di fatto in termini legali SONO di tutti.