![]() | |
---|---|
![]() | |
![]() | |
Estensione | |
Magic number | |
Tipo MIME | application/pdf |
Uniform Type Identifier (UTI) | com.adobe.pdf |
Type code (Mac OS) | |
Sviluppatore | Adobe |
1ª pubblicazione | 15 giugno 1993 |
Ultima versione | 2.0 (dicembre 2020) |
Tipo | Formato documentale |
Esteso a | PDF/A, PDF/E, PDF/UA, PDF/VT, PDF/X |
Standard | ISO 32000-2 |
Formato aperto? | Sì |
Sito web | |
Portable Document Format (abbreviato PDF) è un formato di file documentale sviluppato da Adobe. Evoluzione del Camelot Project di John Warnock, lo scopo del formato è quello di distribuire e scambiare documenti mantenendo invariati font, immagini e layout in maniera indipendente dal software, dall'hardware o dal sistema operativo utilizzato.
Sviluppato nel 1993 come formato proprietario basato su PostScript, nel 2008 è diventato uno standard noto come ISO 32000-1, basato sulla versione 1.7 del formato. Il comitato ISO TC-171 ha prodotto una revisione del formato PDF, denominata ISO 32000-2, che corrisponde a PDF 2.0.
Creato da Adobe nel 1993, ha avuto una serie di evoluzioni; nel 2005 venne creato il sottoformato PDF/A e nel gennaio 2007 Adobe ha intrapreso la strada della standardizzazione per far diventare il PDF un formato standard ISO; a luglio 2008 è stata approvata la norma ISO 32000.
Un file PDF può descrivere documenti che contengono testo e/o immagini in qualsiasi risoluzione. È un formato aperto, nel senso che chiunque può creare applicazioni che leggono e scrivono file PDF senza pagare i diritti (Royalty) ad Adobe. Adobe ha un numero elevato di brevetti relativamente al formato PDF, ma le licenze associate non includono il pagamento di diritti per la creazione di programmi associati. Ogni documento PDF contiene una completa descrizione del document bidimensionale (e, con la comparsa di Acrobat 3D, documenti 3D incorporati) composta da proprietà (Titolo, Autore, ecc.), testo, stili di carattere (font), immagini e oggetti di grafica vettoriale 2D che compongono il documento.
Il documento PDF non dovrebbe includere informazioni specifiche per software, hardware e sistema operativo usato. Ciò permetterebbe al documento di venire visualizzato e renderizzato nella stessa esatta maniera indipendentemente dalla piattaforma e/o dispositivo utilizzato per leggerlo. Anche questo fatto ha contribuito a farlo diventare un formato standard de facto molto diffuso per la condivisione immediata dei documenti. In realtà il PDF nella sua forma standard è un formato che non può essere considerato compatibile con un processo di conservazione digitale (l'archiviazione digitale dei documenti al fine di eliminare o ridurre l'uso della carta), in quanto non è in grado di garantire la riproducibilità a lungo termine e neanche la conservazione dell'aspetto visivo. Questo aspetto dipende da vari fattori come, ad esempio, il fatto che i file PDF standard non sono necessariamente auto-contenuti, ma possono presentare dipendenze dai font utilizzati o da oggetti esterni al file stesso. Pertanto, se si cerca di visualizzare questi file su sistemi informatici diversi da quelli sui quali sono stati creati, non è garantita la loro riproduzione in maniera coerente, da cui consegue che il loro utilizzo a lungo termine non è pensabile se non associato ad uno standard preciso.
La stampa di documenti in formato .pdf può dare dei problemi se si usano dei caratteri locali (ad esempio le vocali italiane accentate) e se chi stampa ha il proprio PC impostato su una lingua diversa.
Un file PDF contiene caratteri ASCII a 7 bit, ad eccezione di alcuni elementi che possono avere contenuto binario. Il file inizia con un'intestazione contenente un numero magico (come una stringa leggibile) e la versione del formato, ad esempio %PDF-1.7. Il formato è un sottoinsieme di un formato COS ("Carousel" Object Structure). Un file albero COS consiste principalmente di oggetti , di cui esistono otto tipi:
Inoltre, potrebbero essere presenti commenti, introdotti con il segno di percentuale ( %). I commenti possono contenere caratteri a 8 bit.
Gli oggetti possono essere diretti (incorporati in un altro oggetto) o indiretti . Gli oggetti indiretti sono numerati con un numero di oggetto e un numero di generazione e definiti tra le parole chiave obje endobjse risiedono nella radice del documento. A partire dalla versione PDF 1.5, gli oggetti indiretti (ad eccezione di altri flussi) possono anche essere posizionati in flussi speciali noti come flussi di oggetti (contrassegnati /Type /ObjStm). Questa tecnica consente agli oggetti non flusso di applicare filtri di flusso standard, riduce le dimensioni dei file che hanno un numero elevato di piccoli oggetti indiretti ed è particolarmente utile per PDF con tag. I flussi di oggetti non supportano la specifica di un oggetto numero di generazione (diverso da 0).
Una tabella indice, chiamata anche tabella dei riferimenti incrociati, si trova in genere vicino alla fine del file e fornisce l'offset di byte di ogni oggetto indiretto dall'inizio del file. Questo design consente un accesso casuale efficiente agli oggetti nel file e consente anche di apportare piccole modifiche senza riscrivere l'intero file ( aggiornamento incrementale ). Prima della versione PDF 1.5, la tabella sarebbe sempre stata in uno speciale formato ASCII, sarebbe stata contrassegnata con la xrefparola chiave e avrebbe seguito il corpo principale composto da oggetti indiretti. La versione 1.5 ha introdotto flussi di riferimento incrociato opzionali, che hanno la forma di un oggetto stream standard, eventualmente con filtri applicati. Tale flusso può essere utilizzato al posto della tabella dei riferimenti incrociati ASCII e contiene gli offset e altre informazioni in formato binario. Il formato è flessibile in quanto consente la specifica della larghezza intera (utilizzando /Warray), in modo che, ad esempio, un documento di dimensioni non superiori a 64 KiB possa dedicare solo 2 byte per gli offset degli oggetti.
Alla fine di un file PDF c'è un piè di pagina contenente:
Se non viene utilizzato un flusso di riferimenti incrociati, il piè di pagina è preceduto dalla parola chiave trailerseguita da un dizionario contenente informazioni che altrimenti sarebbero contenute nel flusso di riferimenti incrociati del dizionario dell'oggetto:
Ci sono due layout per i file PDF: non lineare (non "ottimizzato") e lineare ("ottimizzato"). I file PDF non lineari possono essere più piccoli delle loro controparti lineari, sebbene l'accesso sia più lento perché parti dei dati necessari per assemblare le pagine del documento sono sparse in tutto il file PDF. I file PDF lineari (chiamati anche file PDF "ottimizzati" o "ottimizzati per il Web") sono costruiti in modo da consentirne la lettura in un plug-in del browser Web senza attendere il download dell'intero file, poiché vengono generati in modo lineare (come nell'ordine delle pagine). I file PDF possono essere ottimizzati utilizzando il software Adobe Acrobat o QPDF.
Il formato è stato effettivamente standardizzato in una serie di sottoformati, che sono:
Quindi, se si vuole archiviare o inviare un file PDF in modo stabile e con la massima possibilità di diffusione, si deve utilizzare il formato PDF/A, che è articolato in ulteriori sottoformati; questo formato è stato codificato il 28 settembre 2005 come standard ISO 19005-1:2005 Document management - Electronic document file format for long-term preservation - Part 1: Use of PDF (PDF/A1)
La norma ISO 19005-1 specifica comunque due possibili diversi livelli di conformità allo standard:
Entrambi sono implementati nella più blanda versione 1.4, che è certo più flessibile dal punto di vista dell'inseribilità dei contenuti, ma comunque instaura un certo livello di dipendenza dal sistema informatico sul quale viene creato il documento.
La norma ISO 19005-2 specifica invece tre possibili diversi livelli di conformità allo standard:
La norma ISO 19005-3 specifica altri tre possibili diversi livelli di conformità allo standard:
Il formato è oggetto di ulteriori evoluzioni in fase di sviluppo come la PDF/E ed il PDF/VT (dove “V” sta per “Variable” e “T” per “Transactional”) nel quale dovrebbero essere inclusi anche formati come U3D (Universal 3D), un formato scalabile finalizzato alla condivisione e visualizzazione di progetti 3D interattivi, provenienti dai settori del CAE (Computer-Aided Engineering) e del CAM (Computer-Aided Manufacturing). Si può per esempio creare un modello 3D tramite software come Blender e incorporarlo in un PDF.
Le specifiche del formato PDF sono state rese pubbliche, per questo motivo è possibile creare file.pdf in diversi linguaggi di programmazione.
Il PDF eredita molte delle funzionalità del PostScript, un linguaggio di descrizione della pagina anch'esso sviluppato da Adobe. Postscript permette di descrivere una pagina come il risultato di un'esecuzione di un programma, che contiene istruzioni su come e dove disegnare linee, punti, lettere dell'alfabeto e altri elementi grafici. In questo modo, ogni apparecchio capace di eseguire il programma (ossia, che abbia un interprete Postscript), sarà in grado di riprodurre tale immagine al meglio delle sue capacità. Questo processo, tuttavia, richiede grandi risorse da parte del terminale.
PDF, invece, è un formato, non un linguaggio di programmazione, e per questo motivo non ha bisogno di essere interpretato (per i dettagli vedi Linguaggio compilato e Linguaggio interpretato). Per esempio, il controllo di flusso esercitato dai comandi come if e loop è stato rimosso, mentre comandi grafici come lineto rimangono.
Questo significa che il processo di creare o trasformare un PDF nella sua immagine grafica è semplicemente dato dalla lettura delle descrizioni, invece che dall'esecuzione di un programma con l'interprete PostScript. Tutte le funzionalità del PostScript come i caratteri, layout e misure rimangono invariate.
Spesso il codice PDF è generato da un file sorgente PostScript. I comandi grafici che vengono generati dal codice PostScript vengono raccolti così come tutti i file, risorse grafiche e riferimenti di caratteri nel documento e, finalmente, tutto viene compresso in un singolo file.
Come linguaggio di documenti, il PDF ha molti vantaggi rispetto al PostScript:
PDF garantisce che vengano visualizzati font sostitutivi affini a quello mancante. Mentre questo è possibile con PostScript, questi file non possono essere normalmente distribuiti per accordi di licenza dei font.
All'interno del file PDF vengono tenute informazioni sulla sicurezza (documento stampabile o non stampabile, protetto da password, con selezione di testo bloccata o non bloccata, ecc.) e l'indicizzazione.
La protezione di un documento PDF presenta una chiave di crittografia attualmente fino a 128 bit (tempo fa era di 40 bit), e per il futuro non è escluso che possa aumentare in relazione all'aumento di potenza dei calcolatori in grado di elaborare chiavi di accesso random a più di 128 bit.
La protezione crittografica dei PDF è molto debole, ed esistono numerosi programmi che riescono a rompere la chiave in tempi strettissimi. La protezione password PDF è sconsigliata per salvaguardare l'informazione al suo interno.
È possibile incrementare le possibilità di indicizzazione e posizionamento di un file PDF attraverso alcuni interventi di ottimizzazione compilando correttamente i campi della descrizione.
I file PDF possono contenere due tipi di metadati. Il primo è il Dizionario delle informazioni sul documento, un insieme di campi chiave/valore come autore, titolo, oggetto, data di creazione e aggiornamento. Questo è memorizzato nel trailer informativo opzionale del file. Viene definito un piccolo insieme di campi e può essere esteso con valori di testo aggiuntivi, se necessario. Questo metodo è deprecato in PDF 2.0.
In PDF 1.4, è stato aggiunto il supporto per Metadata Streams, utilizzando Extensible Metadata Platform (XMP) per aggiungere metadati estensibili basati su standard XML utilizzati in altri formati di file. Ciò consente di allegare metadati a qualsiasi flusso nel documento, come le informazioni sulle illustrazioni incorporate, così come l'intero documento (allegando al catalogo del documento), utilizzando uno schema estensibile.
I documenti PDF possono contenere impostazioni di visualizzazione, incluso il layout di visualizzazione della pagina e il livello di zoom. Adobe Reader utilizza queste impostazioni per sostituire le impostazioni predefinite dell'utente all'apertura del documento. Adobe Reader gratuito non può rimuovere queste impostazioni.
Adobe Acrobat è un esempio di software proprietario che consente all'utente di annotare, evidenziare e aggiungere note a file PDF già creati. Un'applicazione UNIX disponibile come software gratuito (sotto la GNU General Public License) è PDFedit. Il freeware Foxit Reader, disponibile per Microsoft Windows, macOS e Linux, consente di annotare i documenti. Il visualizzatore PDF-XChange di Tracker Software consente annotazioni senza restrizioni nella sua alternativa freeware. PDF-XChange Viewer di Tracker Software, visualizzatore PDF integrato, abilita anche le annotazioni così come il software open source Skim, con quest'ultimo che supporta l'interazione con LaTeX, SyncTeX e PDFSync e l'integrazione con il software di gestione dei riferimenti BibDesk. Il freeware Qiqqa può creare un rapporto di annotazione che riassume tutte le annotazioni che l'utente ha fatto nella sua libreria di PDF. Lo strumento di verifica del testo esporta le differenze nei documenti come annotazioni e markup.
Esistono anche sistemi di annotazione web che supportano l'annotazione in pdf e altri formati di documenti. Nei casi in cui ci si aspetta che i PDF abbiano tutte le funzionalità dei documenti cartacei, è necessaria l'annotazione dell'inchiostro.
Moduli interattivi è un meccanismo per aggiungere moduli al formato di file PDF. Attualmente esso supporta due diversi metodi per l'integrazione di dati e moduli PDF. Entrambi i formati oggi coesistono nella specifica PDF:
Gli AcroForm sono stati introdotti nel formato PDF 1.2. Gli AcroForm consentono l'utilizzo di oggetti (ad esempio caselle di testo, pulsanti di opzione, ecc. ) E del codice (ad esempio JavaScript). Oltre ai tipi di azione PDF standard, i moduli interattivi (AcroForms) supportano l'invio, il ripristino e l'importazione dei dati. L'azione "invia" trasmette i nomi e i valori dei campi del modulo interattivo selezionati a un URL (Uniform Resource Locator) specificato. I nomi e i valori dei campi del modulo interattivo possono essere inviati in uno dei seguenti formati (a seconda delle impostazioni dei flag ExportFormat, SubmitPDF e XFDF):
Formato modulo HTML Specifiche HTML 4.01 a partire da PDF 1.5; HTML 2.0 dalla 1.2 Forms Data Format (FDF) basato su PDF, utilizza la stessa sintassi e ha essenzialmente la stessa struttura di file, ma è molto più semplice del PDF poiché il corpo di un documento FDF è costituito da un solo oggetto richiesto. Forms Data Format è definito nella specifica PDF (dal PDF 1.2). Il formato dei dati dei moduli può essere utilizzato quando si inviano i dati del modulo a un server, si riceve la risposta e la si incorpora nel modulo interattivo. Può anche essere utilizzato per esportare i dati del modulo in file indipendenti che possono essere reimportati nel modulo interattivo PDF corrispondente. Formato dati XML Forms (XFDF) (Specifica esterna del formato dei dati dei moduli XML, versione 2.0; supportato da PDF 1.5; ha sostituito il formato di invio dei moduli "XML" definito in PDF 1.4) la versione XML di Forms Data Format, ma XFDF implementa solo un sottoinsieme di FDF contenente moduli e annotazioni. Alcune voci nel dizionario FDF non hanno equivalenti XFDF, come lo stato, la codifica, JavaScript, le chiavi della pagina, i file PDF incorporati, le differenze e la destinazione. Inoltre, XFDF non consente la generazione, o l'aggiunta, di nuove pagine in base ai dati forniti; come si può fare quando si utilizza un file FDF. La specifica XFDF è referenziata (ma non inclusa) nella specifica PDF 1.5 (e nelle versioni successive). È descritto separatamente in XML Forms Data Format Specification. La specifica PDF 1.4 consentiva l'invio di moduli in formato XML, ma questo è stato sostituito da invii in formato XFDF nella specifica PDF 1.5. XFDF è conforme allo standard XML. XFDF può essere utilizzato allo stesso modo di FDF; ad esempio, i dati del modulo vengono inviati a un server, vengono apportate modifiche, quindi rinviate e i nuovi dati del modulo vengono importati in un modulo interattivo. Può anche essere utilizzato per esportare i dati del modulo in file indipendenti che possono essere reimportati nel modulo interattivo PDF corrispondente. A partire da agosto 2019, XFDF 3.0 è uno standard ISO / IEC con il nome formale ISO 19444-1: 2019 - Gestione documenti - Formato dati moduli XML - Parte 1: Uso di ISO 32000-2 (XFDF 3.0). Questo standard è un riferimento normativo della ISO 32000-2. PDF È possibile inviare l'intero documento anziché singoli campi e valori, come definito nel PDF 1.4.AcroForms può mantenere i valori dei campi del modulo in file indipendenti esterni contenenti coppie chiave: valore. I file esterni possono utilizzare file Forms Data Format (FDF) e XML Forms Data Format (XFDF). Le firme dei diritti di utilizzo (UR) definiscono i diritti per importare i file di dati del modulo nei formati FDF, XFDF e di testo (CSV / TSV) e esportare i file di dati del modulo nei formati FDF e XFDF.
In PDF 1.5, Adobe Systems ha introdotto un formato proprietario per i moduli; Adobe XML Forms Architecture (XFA). I moduli Adobe XFA non sono compatibili con la funzione AcroForms di ISO 32000 e la maggior parte dei processori PDF non gestisce il contenuto XFA. La specifica XFA è referenziata da ISO 32000-1 / PDF 1.7 come specifica proprietaria esterna ed è stata completamente deprecata da PDF con ISO 32000-2 (PDF 2.0).
È possibile visualizzare, navigare e stampare contenuto su più livelli nei PDF creati da software come InDesign, Illustrator, Photoshop, Gimp, Inkscape, AutoCAD.
L'effetto sfoglia-pagina (o "flipbook") dei PDF (online e su Acrobat) consiste in un opuscolo digitale che permette all'utente di sfogliare il documento in modo simile a uno sfogliabile cartaceo. Viene creato in modo automatico tramite appositi software online e non, per la maggior parte a pagamento. Questo effetto si può ottenere anche con HTML5 Canvas e convertire un PDF sfogliabile in Canvas.
Chiunque può creare applicazioni in grado di leggere e scrivere file PDF senza dover pagare royalty ad Adobe Systems; Adobe detiene i brevetti per PDF, ma li concede in licenza per l'uso gratuito nello sviluppo di software conforme alle sue specifiche PDF.
Con le funzionalità di OCR integrate in programmi quali Microsoft OneNote, PDF-XChange Viewer, Google Keep, è possibile estrarre il contenuto non grafico (testo e tabelle) dalle immagini salvate in formato .pdf. L'autore dei singoli file può tuttavia escludere questa funzionalità.
Tale funzione può essere utile in modo particolare per l'archiviazione di documenti cartacei in formato digitale, che prima vengono sottoposti a scansione, generando un file immagine, che è successivamente analizzato e convertito dall'OCR in un file .txt o .xml, a sua volta elaborabile con un programma di videoscrittura o un foglio di calcolo.
Adobe ha introdotto una nuova modalità di lettura per i PDF su mobile in modo che essi si adattino ai dispositivi mobili come fanno le media queries dei CSS3 e l'utente non debba in continuazione zoomare avanti e indietro per leggerli o fare scrolling orizzontali.
L'Open XML Paper Specification è un formato concorrente utilizzato sia come linguaggio di descrizione della pagina che come formato nativo dello spooler di stampa per Microsoft Windows a partire da Windows Vista.
L'ottimizzazione dei documenti in formato PDF prevede alcuni interventi al momento della creazione del file.
Gli elementi più importanti da compilare correttamente ai fini del posizionamento sulle SERP di un documento PDF sono:
Per quanto riguarda l'inserimento di un link cliccabile all'interno delle pagine, si noti che un file pdf viene letto da Google come una sorta di pagina web a sé stante e risulta, pertanto, un backlink al proprio sito. L'importante è tematizzare il link, cioè inserire l'esatta pagina di riferimento. Per esempio, se abbiamo un PDF che parla di animali domestici su un portale di animali, sarà meglio inserire il link alla pagina che parla esattamente di quelli domestici.
Numerose compagnie e organizzazioni hanno sviluppato software in grado di creare, visualizzare e manipolare file PDF. Adobe distribuisce una serie di software per il formato PDF, alcuni gratuiti e altri a pagamento, tra cui Adobe Acrobat. L'applicazione Anteprima di macOS è in grado di visualizzare e modificare i PDF, fornendo all'utente la capacità di compilare moduli.
Nel 2001 la Free Software Foundation ha avviato la campagna PDFreaders.org invitando gli utenti a scaricare e utilizzare software libero per leggere e scrivere documenti. Tra i lettori consigliati figurano Evince, Skim, Sumatra PDF, Okular, Xpdf e PDF.js.
Adobe e Microsoft hanno stretto una partnership in modo da rendere interoperabili i prodotti Acrobat e Microsoft 365, permettendo la conversione di documenti Word in PDF.
Controllo di autorità | LCCN (EN) sh00002670 · GND (DE) 4523240-4 · J9U (EN, HE) 987007291610605171 |
---|