Tema Janna La licenza non è convalidata, vai alla pagina delle opzioni del tema per convalidare la licenza, è necessaria una singola licenza per ogni nome di dominio.

Come cercare file PDF tramite Terminale con lo strumento pdfgrep

Gli strumenti della riga di comando come grep e ack-grep sono utili per cercare i file di testo normale per i modelli che corrispondono a un'espressione regolare e a un delimitatore. Ma hai mai provato a utilizzare queste utilità per cercare modelli in un file PDF? Ok, no! Non otterrai alcun risultato perché questi strumenti non possono Cerca file PDF. Leggono solo file di testo normale.

Immagine di Come cercare file PDF nel Terminale con pdfgrep | ricerca-pdf-terminale-DzTechs

pdfgrep, come suggerisce il nome, è un piccolo strumento da riga di comando che consente di cercare del testo in un file PDF senza aprire il file. Il processo di ricerca è incredibilmente veloce, più veloce del processo di ricerca offerto da quasi tutti i lettori PDF. Una grande differenza tra grep e pdfgrep è che pdfgrep viene eseguito su pagine, mentre grep viene eseguito su righe. Stampa anche una riga più volte se su quella riga viene trovata più di una frase. Diamo un'occhiata a come utilizzare esattamente lo strumento.

Per Ubuntu e altre distribuzioni Linux basate su Ubuntu, è molto semplice:

sudo apt install pdfgrep

Per altre distribuzioni, semplicemente fornendo pdfgrep Come input per il gestore di pacchetti, che deve essere ottenuto e installato. Puoi anche controllare la pagina del progetto su GitLab, nel caso tu voglia giocare con il tuo codice.

Esegui il test

Ora che lo strumento è installato, andiamo a eseguire il test. Il comando pdfgrep assume la forma:

pdfgrep [OPTION...] PATTERN [FILE...]
  • OPTION è un elenco di attributi aggiuntivi da fornire a un comando come -i o -ignore-case, che ignora sia il caso di una distinzione tra lo stile regolare dato sia una volta in cui viene trovato una corrispondenza nel file.
  • PATTERN è solo un'espressione regolare estesa.
  • FILE è solo il nome del file, se si trova nella stessa directory di lavoro, o il percorso del file.

Ho eseguito il comando sulla documentazione ufficiale per Python 3.6. L'immagine seguente è il risultato.

Immagine di Come cercare file PDF nel Terminale con pdfgrep | pdfgrep-screenshot-DzTechs

La linea rossa indica tutti i luoghi in cui è apparsa la parola “coda”. Passa -i come opzione di comando per le parole che includono la parola "Coda". Ricorda, il caso non ha importanza quando -i viene passato come opzione.

Extra

pdfgrep ha un gran numero di opzioni interessanti da usare. Tuttavia, qui tratterò solo alcuni.

-c o -count: annulla il normale output delle corrispondenze. Invece di visualizzare un lungo output di corrispondenze, mostra semplicemente un valore che rappresenta il numero di volte in cui la parola viene incontrata nel file
-p o -page-count: questa opzione stampa i numeri di pagina delle corrispondenze e il numero di volte in cui il motivo si verifica sulla pagina
-m o -max-count [numero]: specifica il numero massimo di corrispondenze. Ciò significa che quando viene raggiunto un numero di corrispondenze, il comando interrompe la lettura del file.

Un elenco completo delle opzioni supportate può essere trovato nelle pagine man o su Manuale in linea pdfgrep. Non dimenticare che pdfgrep può cercare più file contemporaneamente, nel caso tu stia lavorando con alcuni file sciolti. Il colore di evidenziazione predefinito può essere modificato modificando la variabile di ambiente GREP_COLORS.

Conclusione

La prossima volta che pensi di aprire un PDF per cercare qualsiasi cosa. Puoi considerare l'utilizzo di pdfgrep. Lo strumento è utile e ti farà risparmiare tempo.

Vai al pulsante in alto