Gli strumenti della riga di comando come grep e ack-grep sono utili per cercare i file di testo normale per i modelli che corrispondono a un'espressione regolare e a un delimitatore. Ma hai mai provato a utilizzare queste utilità per cercare modelli in un file PDF? Ok, no! Non otterrai alcun risultato perché questi strumenti non possono Cerca file PDF. Leggono solo file di testo normale.
pdfgrep, come suggerisce il nome, è un piccolo strumento da riga di comando che consente di cercare del testo in un file PDF senza aprire il file. Il processo di ricerca è incredibilmente veloce, più veloce del processo di ricerca offerto da quasi tutti i lettori PDF. Una grande differenza tra grep e pdfgrep è che pdfgrep viene eseguito su pagine, mentre grep viene eseguito su righe. Stampa anche una riga più volte se su quella riga viene trovata più di una frase. Diamo un'occhiata a come utilizzare esattamente lo strumento.
Link veloci
Installazione
Per Ubuntu e altre distribuzioni Linux basate su Ubuntu, è molto semplice:
sudo apt install pdfgrep
Per altre distribuzioni, semplicemente fornendo pdfgrep Come input per il gestore di pacchetti, che deve essere ottenuto e installato. Puoi anche controllare la pagina del progetto su GitLab, nel caso tu voglia giocare con il tuo codice.
Esegui il test
Ora che lo strumento è installato, andiamo a eseguire il test. Il comando pdfgrep assume la forma:
pdfgrep [OPTION...] PATTERN [FILE...]
- OPTION è un elenco di attributi aggiuntivi da fornire a un comando come -i o -ignore-case, che ignora sia il caso di una distinzione tra lo stile regolare dato sia una volta in cui viene trovato una corrispondenza nel file.
- PATTERN è solo un'espressione regolare estesa.
- FILE è solo il nome del file, se si trova nella stessa directory di lavoro, o il percorso del file.
Ho eseguito il comando sulla documentazione ufficiale per Python 3.6. L'immagine seguente è il risultato.
La linea rossa indica tutti i luoghi in cui è apparsa la parola “coda”. Passa -i come opzione di comando per le parole che includono la parola "Coda". Ricorda, il caso non ha importanza quando -i viene passato come opzione.
Extra
pdfgrep ha un gran numero di opzioni interessanti da usare. Tuttavia, qui tratterò solo alcuni.
Un elenco completo delle opzioni supportate può essere trovato nelle pagine man o su Manuale in linea pdfgrep. Non dimenticare che pdfgrep può cercare più file contemporaneamente, nel caso tu stia lavorando con alcuni file sciolti. Il colore di evidenziazione predefinito può essere modificato modificando la variabile di ambiente GREP_COLORS.
Conclusione
La prossima volta che pensi di aprire un PDF per cercare qualsiasi cosa. Puoi considerare l'utilizzo di pdfgrep. Lo strumento è utile e ti farà risparmiare tempo.