Ennece chiàcchiera:Viaggio di Parnaso 1666.djvu
Aggiunge chiacchierataAspietto
Ultimo commento: 4 anni fa, lasciato da Cryptex in merito all'argomento Codice R regex
Quanto piú trascrivo questo libro, tanto piú mi rendo conto che la scansione è veramente pessima - mi spiace. Su Google Books c'è la stessa edizione ma con una qualità migliore, se può essere utile. --Cryptex (chiacchiere) 18:41, 10 mar 2022 (CET)
Codice R regex
[cagna]library(magrittr)
library(stringr)
vdp <- "copia il testo OCR qui"
vdp %>%
str_replace_all("\\.\\.\\.", "…") %>% # ...
str_replace_all("…\\.", "…") %>%
str_replace_all("'", "’") %>% # correggi apostrofi
# Rimuovi spazio prima di segni di punteggiatura
str_replace_all("’ ", "’") %>%# apostrofo
str_replace_all(" \\?", "?") %>% # ?
str_replace_all(" ;", ";") %>% # ;
str_replace_all(" ,", ",") %>% # ,
# Aggiungi spazio dopo segni di punteggiatura
str_replace_all(",", ", ") %>% # aggiungi spazio dopo virgola
str_replace_all("c ", "e ") %>%
str_replace_all("c,", "e,") %>%
str_replace_all("cchii", "cchiù") %>%
str_replace_all(" cofe", " cose") %>%
str_replace_all(" cofa", " cosa") %>%
str_replace_all("cf", "ef") %>%
str_replace_all("ct", "et") %>%
str_replace_all("cz", "ez") %>%
str_replace_all("fc", "sc") %>%
str_replace_all("fd", "sd") %>%
str_replace_all(" fe ", " se ") %>%
str_replace_all(" fempe", " sempe") %>%
str_replace_all("fg", "sg") %>%
str_replace_all(" fia ", " sia ") %>%
str_replace_all("fl", "ss") %>%
str_replace_all("fp", "sp") %>%
str_replace_all("fs", "ss") %>%
str_replace_all("ft", "st") %>%
str_replace_all("h’c", "h’e") %>%
str_replace_all("hauc", "have") %>%
str_replace_all("Mufa", "Musa") %>%
str_replace_all("Mufe", "Muse") %>%
str_replace_all("ne’e", "nc’e") %>%
str_replace_all("ne’h", "nc’h") %>%
str_replace_all("Poefia", "Poesia") %>%
str_replace_all("respofe", "respose") %>%
str_replace_all("ſ", "s") %>%
str_replace_all("ß", "ss") %>%
str_replace_all("\\(", "s") %>%
str_replace_all("vn", "un") %>%
str_replace_all("y", "v") %>%
str_replace_all("0", "o") %>%
# Sostituisci u con v
str_replace_all("aua", "ava") %>%
str_replace_all("aue", "ave") %>%
str_replace_all("aui", "avi") %>%
str_replace_all("auo", "avo") %>%
str_replace_all("eua", "eva") %>%
str_replace_all("eue", "eve") %>%
str_replace_all("eui", "evi") %>%
str_replace_all("euo", "evo") %>%
str_replace_all("iua", "iva") %>%
str_replace_all("iue", "ive") %>%
str_replace_all("iui", "ivi") %>%
str_replace_all("iuo", "ivo") %>%
str_replace_all("oua", "ova") %>%
str_replace_all("oue", "ove") %>%
str_replace_all("oui", "ovi") %>%
str_replace_all("ouo", "ovo") %>%
str_replace_all(" ", " ") # rimuovi doppi spazi
# L'ultimo passo è di copiare l'output in n++ e sostituire \\n con \n: