OSSERVATORIO PERMANENTE EUROPEO SULLA LETTURA 2002

EBOOK: STANDARD E METADATI
di Damiana Luzzi


EBOOK. Il termine ebook indica il libro in formato digitale, il software necessario alla sua elaborazione e lettura, il dispositivo hardware di lettura.

L'ULTIMA NOVITÀ. E-Ink e Philips hanno presentato il 20 maggio 2003 al Display Exposition and Symposium di Baltimora il primo prototipo di ebook realizzato con carta e inchiostro elettronico. Spessore ridotto a 0,3 millimetri, consumi energetici minimi, buona risoluzione (16 pixel per pollice), durata media della vita del foglio di carta elettronica, che si può anche piegare, di 30.000 ore. Questa è l'ultima novità tra i dispositivi hardware dedicati all'ebook e sarà immesso nel mercato nel 2004.
http://www.eink.com/news/releases/pr69.html

HARDWARE PER SFOGLIARE. Il 24 agosto 2003 Huw Robson, del laboratorio della Hewlett-Packard di Bristol in Inghilterra, ha presentato un nuovo dispositivo hardware per leggere gli ebook. Un software di animazione e una striscia di comandi posta in basso permette, sfiorando con il dito indice, di sfogliare le pagine di un ebook come quelle di un libro di carta.
http://news.bbc.co.uk/2/hi/technology/3173835.stm

FORMATI. Gli ebook vengono realizzati e pubblicati in diversi formati. Il mercato ha indirizzato le scelte dell'industria editoriale verso formati di ebook protetti, leggibili con software proprietario (si dice proprietario ogni formato, o più in generale ogni tecnologia, legata agli strumenti software e hardware di un singolo produttore,http://www.laterza.it/internet/leggi/frontieredirete/online/testo_05.htm#20). Ad esempio, Amazon.com nel marzo 2000 si allea con AdobeSystem e nell'agosto dello stesso anno con il concorrente Microsoft per vendere ebook on line. Adobe Reader e MSReader vengono entrambi utilizzati per leggerli. La differenza sostanziale tra i due software è la piattaforma: Adobe Reader è multipiattaforma (sistemi operativi Macintosh, Windows e Linux) mentre MSReader funziona solo su sistemi operativi Windows.
http://www.cnnitalia.it/2000/TECNOLOGIA/08/28/libri
http://www.adobe.it
http://www.microsoft.com/reader

L'ebook è in una fase di transizione, l'uso e le vendite aumenteranno quando le aziende adotteranno uno standard prefissato condiviso dagli autori, dagli editori e dai distributori. Adesso un ebook comprato per leggerlo con Myfriend (http://www.myfriend.it) non può essere copiato per leggerlo ad esempio con un PowerBook (http://www.apple.com). Il problema non è solo di piattaforme ma anche di chiavi di codifica dei file criptati per evitare la distribuzione di copie non autorizzate dell'ebook che ledono i diritti di proprietà intellettuale.
I più diffusi formati proprietari per la realizzazione di ebook sono: .lit di Microsoft, .tk3 di Night Kitchen, .pdb della Peanut Press e .pdf di Adobe.

LIT. La Microsoft, uno dei membri dell'OeBF, ha sviluppato il formato .lit basato sullo standard dell'OeBF e leggibile con il software proprietario MSReader. Il formato .lit protegge gli ebook soggetti a copyright e non autorizza la stampa. La protezione è legata al software di lettura MSReader. Il sistema permette, appena effettuato il download e l'installazione del lettore software, di leggere gli ebook distribuiti gratuitamente. L'acquisto e la lettura degli ebook protetti da copyright è consentita solo dopo la registrazione della copia del lettore software con la propria identità. L'operazione è semplice e gratuita: l'utente registra un profilo su Passport seguendo le istruzioni, al termine della procedura di registrazione viene assegnata una chiave dipendente dalla copia personale di Microsoft Reader installata sul proprio computer. Quindi un ebook protetto da copyright è letto esclusivamente dal lettore software attivato con la propria indentità. È possibile installare e attivare il lettore software con la propria identità anche in un altro computer. Gli ebook realizzati in formato .lit possono essere letti su: PC e computer portatili con sistema operativo Windows; Pocket PC 2002 e Tablet PC – lanciati nel 2003 da Microsoft come "evoluzione del portatile" – per i quali è stata sviluppata una versione ad hoc di Windows XP Professional.
Il software per la creazione di un ebok in formato .lit è Reader Works (http://www.overdrive.com/readerworks), mentre il sito Ebookexpress (http://www.ebookexpress.com) offre un servizio di conversione online.

TK3. Il formato .tk3 prodotto da Night Kitchen (http://www.nightkitchen.com) gestisce all'interno del testo l'inserimento di file audio, video e immagini. Il lettore software TK3Reader sfruttta per i formati audio e video integrati le applicazioni software (ad esempio QuickTime o Real Player) del dispositivo hardware su cui è installato. Il software per produrre ebook in formato .tk3 è TK3Author. Sia TK3Reader che TK3Author sono disponibili per le piattaforme Macintosh e Windows. La strategia dell'azienda è giungere a un dispositivo ebook che supporti applicazioni multimediali avanzate come le animazioni realizzate con Macromedia Director. La nuova versione TK3Author 1.1 ha introdotto caratteristiche avanzate di protezione del copyright e altre opzioni: disabilitare la funzione di stampa, impedire la copia e permettere di distribuire copie libere con una data di scadenza dopo la quale è impossibile aprire il documento.

PDB. Peanut Press (http://www.peanutpress.com) ha realizzato un formato proprietario per dispositivi palmari (PDA, PocketPC e palmari con sistema operativo Palm OS): il .pdb, associato al linguaggio di marcatura del contenuto Palm Markup Language (PLM). Il PML è un linguaggio di marcatura testuale non compatibile con lo standard OeB.
http://www.palmdigitalmedia.com/makebook/index.cgi/pml
Palm Reader (versione avanzata di Peanut Reader sviluppato dalla Peanutpress, dopo l'acquisizione della Peanutpress, da parte di Palm, nel marzo 2001, e la sua trasformazione nel gruppo Palm Digital Media) si è affermato come lo standard di fatto degli e-book per palmari basati su sistema operativo Palm.
La creazione di ebook per palmari ha necessità: di un modello di documento "word2pml.dot" utilizzato in Microsoft Word per generare testi formattati in PML, di MakeBook il software scritto in Java per convertire il testo in formato .pdb e del lettore software Palm Reader. Palm Reader è compatibile oltre che con il sistema operativo Palm anche con Windows, e Pocket PC.

PDF. Il Portable Document Format (.pdf), introdotto nel 1994 da Adobe, è divenuto il più diffuso formato per la distribuzione di documenti in forma digitale da poterlo considerare, anche se proprietario, uno standard. Fino ad oggi ne sono state distribuite più di 500 milioni di copie. Gli enti governativi e le aziende di tutto il mondo hanno adottato il formato Adobe PDF per snellire la gestione di documenti, aumentare la produttività e ridurre la quantità di documenti cartacei. Per esempio, .pdf è il formato standard per la presentazione in forma elettronica delle domande di approvazione dei medicinali alla Food and Drug Administration (FDA) statunitense e per l'archiviazione elettronica dei casi delle corti federali negli U.S.A. È utilizzato anche dal governo britannico e da quello tedesco per lo scambio di documenti elettronici.
http://www.adobe.it/products/acrobat/adobepdf.html

ISO PDF/X. La specifica ISO PDF/X è il formato di file standard utilizzato per la distribuzione di materiale pubblicitario destinato alla pubblicazione. È la naturale evoluzione di PostScript, un linguaggio di programmazione inventato nel 1985 per preservare e trasmettere inalterate le caratteristiche originarie di formattazione della pagina del documento su ogni piattaforma e in ogni condizione di visualizzazione. La filosofia di PostScript e .pdf è simile, Lesk in Practical Digital Libraries: Books, Bytes and Bucks (San Francisco, CA, Morgan Kaufmann, 1997) scrive che "the creator of a document specifies what it should look like and the reader gets that appearance. Thus, neither is suitable for an application in which, for example, people with limited vision wish to reprint everything in triple-size normal type".
La stampa di un documento in formato PostScript o .pdf, se la stampante è dotata di un processore in grado di supportare e interpretare questo formato, mantiene le stessa grafica e impaginazione stabilita dall'autore, eccetto per le caratteristiche tecniche proprie di ogni dispositivo di output come la risoluzione. Questa peculiarità può rivelarsi un ostacolo quando, ad esempio, un ipovedente ha necessità di aumentare la dimensione del carattere in fase di stampa. La rigidità nella struttura e nelle dimesioni della pagina è inadatta alle variazioni di risoluzione e dimensione dello schermo e obbliga a scorrere la pagina in verticale per leggerne tutto il contenuto.
Il formato .pdf permette di visualizzare la struttura gerarchica del documento agevolando la navigazione al suo interno; l'inserimento di hyperlink; il mantenimento di font, immagini, elementi grafici e impaginazione del documento originale, indipendentemente dall'applicazione e dalla piattaforma usate per la sua creazione. I software di lettura di file in Post script o .pdf non permettono la loro manipolazione. L'intervento sugli elementi costitutivi di un documento, sia contenutistici che formali, in PostScript o .pdf è attuabile con il software di editing (ad esempio Adobe Acrobat Standard o Professional) sempre che l'autore del documento non abbia assegnato protezioni: non consetire modifiche al documento, non consentire la stampa, ecc.
Il file .pdf, prodotto utilizzando il software Adobe Acrobat Professional è tra i formati proprietari presenti da tempo sul mercato utilizzati per scopi diversi che è stato con successo applicato anche per generare ebook. Acrobat Reader 6.0, la nuova versione dell'applicazione per la lettura dei file .pdf rilasciata nel 2003, ha inglobato la possibilità di lettura degli ebook in tale formato sostituendosi a Acrobat eBook Reader 2.2 (http://www.adobe.com/products/ebookreader/main.html). Offre la possibilità di: integrare contenuti multimediali, moduli interattivi, grafica vettoriale, disabilitare la funzione di stampa, modifica e copia del documento, protezione del copyright, ecc. Il vantaggio è la disponiblità per tutte le piattaforme e sistemi operativi inclusi i Palm Pilots e Pocket PC.

LATEX. LaTeX è uno dei migliori linguaggi di markup procedurali per la struttura tipografica della pagina, utilizzato sopratutto dalla comunità scientifica. LaTeX è stato sviluppato nel 1985 da Leslie Lamport, come evoluzione di TeX un programma per pubblicazioni scientifiche realizzato da Donald Ervin Knuth nel 1977 che permette di utilizzare layout predefiniti. LaTeX è molto più stabile di tutti i word processor in commercio soprattutto per la formattazione di tabelle complesse o di formule matematiche. È applicato a memorandum, lettere, articoli, ipertesti, slides, fino alla realizzazione di libri e ebook. AMS-LaTeX (per complesse formule matematiche) e BIBTeX (per la bibliografia) sono due dei pacchetti disponibili per estendere le funzioni di LaTeX. La versione attuamente disponibile è la LaTeX2e rilasciata dal LaTeX3 Project Team.
È molto flessibile e offre una qualità di output eccellente, anche se imparare il linguaggio può apparire complicato e poco veloce visti gli editor in commercio.
È un software gratuito, compatibile con qualsiasi sistema operativo. In pochi anni è diventato standard di riferimento per le pubblicazioni in tutte le principali aree scientifiche e per alcune case editrici (ad esempio Springer-Verlag e Addison Wesley).
I documenti prodotti con LaTeX sono espressi in semplice testo ASCII e contengono tag di formattazione che ne esplicitano all'utente i dettagli della rappresentazione interna.
La realizzazione di un documento con LaTeX avviene con un editor di testo ASCII (Notepad per Windows, TexEdit per Macinthos, Vi, Pico e Emacs per Linux), un sistema completo di LaTeX (ad esempio MiKTeX per Windows, TeX i-Installer per Macintosh e teTeX per Unix) e programmi per vedere il file di output. Il file generato ha estensione .tex inserito poi in un file con estensione .dvi, mentre il file definitivo di output può avere estensioni diverse in base al tipo e alla funzione del documento prodotto: .ps, .pdf, .html, ecc. I programmi più comuni e gratuiti per vedere i file di output sono: GSview e Ghostscript (per file .ps e .pdf)Adobe Acrobat Reader (solo per file .pdf), Explorer, Netscape o altri browser (per file .html).

WYSIWYG. Altri due formati nati come editor testuali e poi utilizzati per gli ebook sono il .doc e il .rtf di Microsoft. Il file .doc generato dal programma proprietario Microsoft Word appartiene alla categoria di sistemi di elaborazione digitale del testo detti WYSIWYG (What You See Is What You Get), a differenza di Rich Format Text (RTF) che appartiene a quella dei markup language o linguaggi di marcatura.
I WYSIWYG, che mostrano sul video esattamente ciò che apparirà sulla pagina stampata, facilitano l'utente che imposta la formattazione del documento attraverso l'interfaccia grafica. Il codice con il tipo di formattazione indicata è invisibile, immesso all'interno del file di testo rende leggibile il file solo dal software che lo ha generato. In questo modo l'elaborazione del testo è legata ad un software specifico, ostacolando la portabilità tra ambienti software e hardware diversi che al contrario è uno dei requisiti chiave per la distribuzione delle risorse in rete.
Microsoft Word è un esempio significativo di questo problema: nello scambio di file .doc tra PC e Macintosh spesso si perdono le caratteristiche di formattazione impostate, e crea difficoltà analoghe il passaggio da una versione all'altra dello stesso software.

RTF. L'RTF, una specifica ideata da Microsoft nel 1987, diversamente dal .doc, è letto dalla gran parte dei word processor in commercio e da tutte le piattaforme avendo ampia diffusione, per questo è da considerare anche se non ufficialmente uno standard per la formattazione e lo scambio dei file di testo. L'RTF è una specifica per codificare testo e grafica molto simile per la definizione della pagina a PostScript. L'RTF ha una codifica del testo "tagged": il documento codificato come testo "semplice" viene marcato con tag indicanti il tipo di formattazione — grassetto, corsivo, font, dimensioni e orientamento della pagina, tabelle, ecc. — da assegnargli. Il file .rtf è identificato dal tag iniziale \rtf, seguito dal numero di versione RTF (solitamente 1) e dal set dei caratteri usato (solitamente \ansi).
Il documento RTF può essere generato scrivendo manualmente il codice con un editor testuale (ad esempio Edit per DOS, Notepad per Windows, TexEdit per Macinthos, Vi, Pico e Emacs per Linux), oppure con un word processor (Microsoft Word, Think Free Office, AppleWorks, ecc.) impostando le caratteristiche volute e salvando il documento come file .rtf.
Il .doc e il .rtf non sono i formati più adatti per l'ebook ma sono stati affiancati ad altri per offrire all'utente un range più vasto di possibilità per leggere lo stesso ebook. Nelle librerie e biblioteche digitali si possono ancora trovare ebook in formato .doc e .rtf, un esempio è la italiana Liber Liber (http://www.liberliber.it) che recentemente ha rivisto la sua politica di distribuzione degli ebook optando per formati standard e gratuiti (HTML e OeB) e progressivamente abbandona i formati proprietari come .doc di Microsoft e .pdf di Adobe.

QUALITY IN IMAGE DEFINITION. Il Quality in Image Definition (QUID) e-book-book (QUID e-b2) sviluppato da un'azienda italiana (http://mall.shopla.it/quid/page0.html) è un formato per l'elaborazione di immagini a alta definizione applicato alla digitalizzazione di testi antichi.

HTML. L'HTML, il formato dei documenti del World Wide Web, è una DTD di SGML.
http://www.sgmlsource.com/history/AnnexA.htm
http://www.oasis-open.org/cover/sgml-xml.html
HTML è nato nel 1989 per lo scambio di documenti scientifici e successivamente affermato come standard per la descrizione delle pagine web. La specifica HTML 4.0.1 del 24 dicembre 1999 (preceduta dalla versione HTML 4.0 del 1997 e da una Release del 24 aprile 1998) è una "Raccomandazione" del World Wide Web Consortium (W3C) (http://www.w3.org/TR/html401/). È il linguaggio che gode della maggiore diffusione. La sua diffusione, portabilità e l'essere un linguaggio aperto lo hanno reso un formato usato anche per l'ebook. Nonostante questo è inadatto all'archiviazione e alla ricerca perchè i suoi tag non permettono di dichiarare l'informazione contenuta nel documento, ma solo il suo aspetto esteriore. Le numerose versioni ne ampliano le capacità estendendo il linguaggio di marcatura. Il tag META è il primo tentativo di sopperire alle deficienze del codice HTML descrivendo semanticamente i contenuti delle pagine web. Il Cascadin Style Sheet (CSS) introdotto nel 1996, risolve il conflitto tra presentazione e struttura spostando le specifiche di layout del documento formattato in HTML in un file separato.

TXT. Il formato aperto più utilizzato è il .txt. Gli ebook in tale formato sono privi di formattazione: niente corsivo, grassetto, immagini, ecc. La scelta di questo formato fatta tra gli altri anche dal Progetto Gutenberg (http://gutenberg.net/), è in direzione della massima portabilità. La quasi totalità dei computer, compresi palmari, e dispositivi cellulari è in grado di visualizzare documenti .txt in modo nativo, senza ricorrere a programmi forniti da terze parti. Il limite di questo formato è l'impossibilità di inserire immagini, video e altri documenti multimediali.

STANDARD. Gli standard sono un aspetto determinante nella creazione di un ebook, il tentativo di risolvere l'eccessiva proliferazione di formati ebook diversi. Interessano la codifica del testo, l'immissione di metadati, l'interoperabilità, la presentazione grafica (layout) sul reading device e l'inserimento di oggetti multimediali, la protezione del diritto d'autore (copyright).
L'importanza degli standard è evidenziata dalla loro menzione nella definizione di ebook dell'Open eBook Forum (OeBF, http://www.openebook.org), la principale organizzazione internazionale non-profit per il commercio e gli standard dell'editoria elettronica.

L'OeB è il formato aperto sviluppato dall'OeBF per applicare all'ebook elementi descrittivi e catalografici standardizzati e uniformi. Scopo dello standard OeB è fornire linee guida comuni per generare ebook rispondenti ai requisiti di accessibilità, portabilità e presentazione su tutti i dispostivi hardware e i sistemi operativi. L'OeB è costruito in XML (http://www.w3.org/XML/). I marcatori XML e la DTD permettono la codifica semantica del testo e il suo collegamento a metadata descrittivi. I metadata descrittivi utilizzati dall'OeB supportano lo standard Dublin Core (http://www.dublincore.org). L'OeB non protegge il testo che può essere copiato e distribuito ledendo il diritto di proprietà intellettuale, perciò non viene utilizzato dagli editori per la vendita dell'ebook ma è adottato quando non c'è necessità di questa limitazione.
Il 27 agosto 2002 l'OeBF ha pubblicato la versione 1.2 di The Open eBook Publication Structure (OeBPS) la specifica tecnica pubblica per la gestione di testi e contenuti basata su tecnologie standard promosse dal World Wide Web Consortium. http://www.openebook.org/oebps/oebps1.2/download/oeb12-xhtml.htm
Lo standard OeB ha nell'XML la chiave di tutte le applicazioni e specifiche aperte utilizzate che comprendono anche i CSS. Un ebook o pubblicazione in formato OeB è chiamata package (pacchetto).
Un OeB Package è "An XML file that describes an OeBPS Publication. It identifies all other files in the pubblication and provides descriptive information about them. [...] which specifies the OeBPS Documents, images, and other objects that make up the OeBPS Publication and how they relate to each other. The package file should be named using extension .opf, in order to make it readily indentifiable within the group of files making up the pubblication. Package files are of MIME media type text/xml. This specification does not define means for physically bunding files together to make one data trasfer object (such as using zip or tar). It is not requires that the OeBPS Package DTD be physically included in very pubblication. If included, it should be rederenced from the manifest."
http://www.openebook.org/doc_library/ecology/AFrameworkfortheEpublishingEcology.pdf
Il pacchetto ha un file radice da cui diramano tutti gli altri elementi necessari alla creazione di un ebook. Questo permette l'inclusione ad esempio di un'immagine in formato di file .jpg inserendo il corrispondente file sostitutivo di uno dei formati supportati (.png) che verrà utilizzato automaticamente da tutti i dispositivi che non hanno la capacità di visualizzare il formato iniziale, garantendo la compatibilità di un ebook OeB con qualsiasi software di lettura.
Un OeB Package contiene informazioni che descrivono il contenuto e le informazioni necessarie a editori, distributori, commercianti per vendere un ebook.
Gli elementi collegati al file radice sono: identity, metadata, manifest, spine, tours, e guide.
Identity: indentifica l'OeB Package garantendo una identità univoca. In molti casi l'identificatore usato è il codice ISBN. Il Document Object Identifier for Ebook (DOI-EB) (http://www.doi.org/ebooks.html) è uno standard internazionale, tuttora in fase di studio, per la classificazione degli ebook, l'equivalente del codice ISBN per i libri. L'assegnazione del codice DOI-EB agli ebook li identifica in modo univoco e ne garantisce la proprietà intellettuale.
Metadata: indica le informazioni sulle informazioni che descrivono l'ebook: autore, contenuto, data, ecc. I metadati proposti dall'OeB seguono la specifica Dublin Core.
Manifest è una lista di tutti i file necessari a completare un ebook. Manifest include un attributo e un identificatore per ogni oggetto: testo, immagine, ecc.
Spine fornisce al lettore l'ordine lineare dei contenuti nell'ebook compresi i riferimenti a: tabelle di contenuti, capitoli, ecc.
Tours è una collezione di contenuti che aiutano l'utente nella navigazione dentro l'ebook per trovare informazioni. L'OeB paragona Tours a una guida turistica che segnala i punti di interesse per compiere un percorso guidato all'interno dell'ebook.
I principali software non proprietari e gratuiti per la lettura dell'ebook in formato OeB sono tre: Flipviewer, eMonocle, Mentoract Reader.
http://www.openebook.org/doc_library/ecology/AFrameworkfortheEpublishingEcology.pdf
http://www.flipviewer.com/
http://www.ionsystems.com/emonocle/
http://www.globalmentor.com/software/reader/default.jsp

LIBERGNU. Il progetto italiano LiberGnu (sta realizzando un editor e un lettore aperto e gratuito per l'ebook in formato OeB.
http://www.libergnu.org/blogs/

OPENBERG. Il progetto OpenBerg sta sviluppando Lector 4.5, il lettore aperto e multipiattaforma per il formato OeB.

NIST READER. Il 25 settembre 2000 il National Institute of Standards and Technology (NIST) ha annunciato lo sviluppo di NIST Reader, un'applicazione per la trasformazione del testo dell'ebook in formato OeB in braille.
http://www.itl.nist.gov/div895/docs/exe/winebook.html

SOFTWARE. I software di lettura proprietari e gratuiti per leggere gli ebook in formato OeB sono MSReader e Mobipocket Reader. Mobipocket Reader si basa su OEB e può essere letto da Personal Computer, tablet pc e computer palmari.
http://www.microsoft.com/reader
http://www.mobipocket.com).

DTB. Il Digital Talking Book (DTB) è uno standard per la lettura dell'ebook prodotto dalla National Information Standards Organization (NISO) per i non vedenti e chi ha difficoltà di lettura. Lo standard DTB è stato approvato il 15 marzo 2002.
Un DTB è un "group of digitally-encoded files containing an audio portion recorded in human speech; the full text of the work in electronic form, marked with the tags of a descriptive markup language; and a linking file that synchronizes the text and audio portions. As this document illustrates, such a structure will allow the DTB user a broad range of capabilities not possible in current talking books".
L'essenza del DTB è la trasformazione di un testo per l'ebook in un "ebook parlato". La specifica () del DTB segue quella dell'OeBPS e quindi si basa su standard precedentemente sviluppati: XML, DTD, CSS, Unicode, Dublin Core, il Digital Rights Managements per il copyright, ecc; definisce i formati per le immagini e l'audio.
http://www.loc.gov/nls/newsreleases/20020315.html
http://www.niso.org/standards/resources/Z39-86-2002.html
http://www.niso.org/talkbookdraft.html

METADATI. I metadati sono informazioni sulla forma e il contenuto delle risorse informative. Dalla metà degli anni Novanta l'aumento delle risorse disponibili in rete ha accresciuto l'interesse verso i metadati come strumento per la gestione, il controllo e il reperimento delle risorse. I metadati in un ebook includono informazioni di base (autore, titolo, data di pubblicazione, ecc.) e dati utili all'organizzazione e ricerca: parole chiave, descrizione del contenuto, codice indentificativo, copyright, ecc. L'autore, l'editore e il distributore hanno necessità dei metadati in un ebook per catalogarlo e venderlo, l'utente per trovarlo.
L'autore da tempo può inserire facilmente alcuni metadati negli ebook o nei documenti digitali. Un documento generato con Microsoft Word permette l'inserimento di metadati — titolo, soggetto, autore, compagnia, manager, categoria, parole chiave, commenti — selezionando File-Property-Summary. Lo stesso avviene con Adobe Acrobat Professional (File-Document Information-General Information) i metadati da inserire sono: titolo, autore, oggetto, parole chiave, creato e modificato.
Gli autori solitamente non inseriscono i metadati, o segnalano solo il titolo e l'autore, perchè non ne conoscono l'utilità. La ricerca di un file .pdf o .doc, ad esempio, tra le centinaia archiviati nell'hard disk del nostro computer quando non ci ricordiamo il nome assegnato al file, può essere velocizzata e semplifica se abbiamo immesso i metadati.
Harold Henke in Electronic Books and ePublishing. A Practical Guide for Authors (New York, Springer-Verlag, 2001) paragona i metadati ai segnali stradali: "If you think of ePublishing as a highway that enables electronic books to be distribuited and sold, then metadata would be the highway signs that guide you on the highway. Without consistent use and definition of metadata, users will be lost on the ePublishing highway". L'importanza dei metadati per le pubblicazioni elettroniche ha coinvolto organismi internazionali nella definizione di standard: Metadata Standards for Ebooks e Dublin Core (DC).

METADATA STANDARDS FOR EBOOKS. L'Open Ebook Standards Project sviluppato dall'Association of American Publishers (AAP) ha rilasciato, il 31 dicembre 2000, la Metadata Standards for Ebook Version 1.0. La Metadata Standards for Ebook Version 1.0 è stato resa disponibile dal 27 novembre, prima della sua pubblicazione ufficiale, ai membri dell'AAP e alle altre parti interessate per revisioni e commenti. L'AAP con questo documento vuole promuovere l'uso dell'ebook e facilitarne lo sviluppo tecnologico. La proposta di metadati standard ha l'obiettivo di supportare la creazione, la distribuzione e la vendita di ebook. L'ebook può essere proposto come un unicum o sezionato ad esempio in capitoli distribuiti singolarmente. La diffusione oltre a avvenire per i normali canali del mercato può interessare il peer-to-peer. L'industria editoriale deve confrontarsi con il nuovo prodotto ebook e reagire diversificando le strategie di marketing e di controllo.
La Metadata Standards for Ebook Version 1.0 fornisce un comune set di termini e informazioni usati per descrivere efficacemente il contenuto dell'ebook. Le linee guida estendono l'Online Information Exchange International (ONIX International) (http://www.editeur.org/onix.html) sviluppato da EDItEUR congiuntamente all'AAP per adattarlo alle esigenze dell'ebook.
L'assunto iniziale è che "The existing ONIX International Standard (ONIX), which was created to support the trasmission of content rich traditional print book metadata, will be the baseline for all Metadata standards recommendations. The Metadata team focused on analyzing metadata requirements necessary to support ebooks. In so doing, the team considered the work of other stadards effort in thsi area, but did not focus or have bias towards the objectives or finding of any particular group(s). The team employed feedback from publishers and other industry participants in arriving at standards recommendations"
(http://www.publishers.org/digital/index.cfm).

ONIX INTERNATIONAL. ONIX International è un set di metadati standard per rappresentare, archiviare e trasmettere informazioni on line sui contenuti del libro – immagine di copertina, sinossi, recensione, biografia dell'autore, titolo, autore, ecc. – utili all'industria editoriale. ONIX International è stato creato con lo scopo di "enabling publishers to supply 'rich' product information to Internet booksellers".
http://www.publishers.org/digital/index.cfm
ONIX International è scritto in XML. La DTD descrive gli attributi definisce i valori per un record , indica i campi richiesti e quelli opzionali. La creazione di record ha due livelli: il livello 1 fornisce un sottoinsieme di campi base; il livello 2 contiene tutti i campi del livello 1 e altri campi per informazioni più specifiche ampliando la possibilità di descrizione (http://www.editeur.org/onix.html).

APP. L'APP partendo da ONIX International definisce un gruppo di metadati flessibile per consentire a ciascun editore di adattare il modello alle proprie esigenze. L'ebook è un pacchetto. L'ePackage proposto dall'AAP è descritto da tre gruppi di metadati: Discovery Metadata, Core Metadata e Private Metadata.
I Discovery Metadata forniscono le informazioni necessarie – titolo, autore, immagine della copertina, descrizione dell'ebook e biografia dell'autore – a aiutare l'utente nella ricerca e nell'acquisto dell'ebook desiderato.
I Core Metadata sono il "cuore" delle meta-informazioni che definiscono le caratteristiche dell'ebook, sia contenutistiche che tecniche. Il numero delle informazioni contenute lo rende applicabile alla catalogazione dell'ebook anche nella biblioteca digitale.
I Private Metadata sono utilizzati per gestire la vendita dell'ebook. Includono altri elementi: Rights Specification language per supportatre il DRM, il Format Specific Information per la definizione del formato, il Return Metadata per lo scambio di servizi e incentivi tra utente e venditore.

METADATA STANDARDS FOR EBOOK VERSION. La Metadata Standards for Ebook Version 1.0 non è molto diffusa. La causa principale è da imputare alla scelta determinante fatta dall'OeBF di inserire nell'OeBPS lo standard Dublin Core (DC). Scelta dovuta alla diffusione e interoperabilità raggiunta dal DC nell'archiviazione, gestione e ricerca delle risorse digitali. Il DC originariamente concepito per descrivere le risorse web (http://dublincore.org/about/history/), per semplicità, flessibilità e interoperabilità semantica è stato applicato alla descrizione delle risorse digitali (e non) di biblioteche, musei, organizzazioni e amministrazioni, raggiungendo il consenso internazionale. Il DC è una DTD in XML.

DUBLIN CORE METADATA ELEMENT. L'ultima versione del Dublin Core Metadata Element Set version 1.1. rilasciata dalla Dublin Core Metadata Initiative (DCMI) si è caraterizzata per: semplicità d'uso – può essere impiegata anche dai non specialisti della catalogazione – interoperabilità semantica – i dati sono descritti per significato e valore – e flessibilità – integra e sviluppa la struttura dei dati con significati semantici diversi, è indipendente dall'applicazione software o hardware in uso e può descrivere oggetti differenti per tipologia e supporto. Il set minimo dei 15 elementi nativi costituenti il DC è stato esteso con sottoelementi o qualificatori (http://dublincore.org/documents/2000/07/11/dcmes-qualifiers/). Lo standard è tuttora in sviluppo ma il "core" dei 15 elementi della descrizione rimane stabile. I 15 elementi possono essere raggruppati per descrizione: del contenuto, della proprietà intellettuale e della versione della risorsa:

CONTENUTO: PROPRIETÀ INTELLETTUALE: VERSIONE:
DC: Coverage DC: Contributor DC: Date
DC: Description DC: Creator DC: Format
DC: Relation DC: Publisher DC: Indetifier
DC: Source DC: Rights DC: Language
DC: Subject
DC: Title
DC: Type


http://dublincore.org/documents/dces/
http://www.iccu.sbn.it/dublinco.html
L'impiego corrente del DC, nella descrizione delle informazioni degli ebook, da parte di autori, editori e venditori, crea un catalogo o inventario su base comune e estende la possibilità di interazione e scambio dati tra tutti gli attori del processo di vendita e le organizzazioni preposte alla conservazione.