If-Koubou

Kā es varu kopēt tekstu no PDF formātā, saglabājot formatējumu?

Kā es varu kopēt tekstu no PDF formātā, saglabājot formatējumu? (Kā)

PDF, visuresošais dokumentu formāts, ir lieliski piemērots dokumentu kopīgai, saglabājot fontus, attēlus un vispārējo izkārtojumu visā platformās. Tomēr ir vienkāršs veids, kā saglabāt šo formatējumu, kopējot un ielīmējot tekstu no dokumenta?

Šodienas jautājumu un atbilžu sesija mums priecājas par SuperUser - Stack Exchange dalību, kas ir kopienas vadīta Q & A tīmekļa vietņu grupa.

Jautājums

SuperUser lasītājs Colen meklē veidu, kā iegūt tekstu no PDF failiem, vienlaikus saglabājot formatējumu:

Kad es kopēju tekstu no PDF faila un uz teksta redaktoru, tas tiek izkropļots dažādos veidos. Formatēšana, piemēram, treknrakstā un slīprakstā, tiek zaudēta; mīksto līniju pārtraukumi teksta rindā tiek pārvērsti par cieto līniju pārtraukumiem; domuzīme, lai salauztu vārdu divās rindās, tiek saglabāti pat tad, ja tiem nav jābūt; un ar vienvietīgām un dubultām kotētām? zīmes.

Ideālā gadījumā es gribētu, lai būtu iespējams kopēt tekstu no PDF un formatējumu pārveidot par HTML kodiem, "viedās cenas" pārvēršot par "un" un taisnīgi veiktas līnijas pārtraukumus. Vai ir kāds veids, kā to izdarīt?

Vai Colen (un pārējais no mums) ir ātrs un vienkāršs veids, kā iegūt tekstu, nezaudējot formatējumu?

Atbilde

SuperUser veicinātājs Frabjous piedāvā risinājumu apvienojumā ar smagu piesardzību:

Pirmkārt, jums ir jāsaprot, kas ir PDF. PDF faili ir veidoti tā, lai atdarinātu izdrukātu lapu, un tie ir veidoti tikai kā izvades formāts, nevis ievades formāts. PDF pamatā ir karte, kurā ir precīza rakstzīmju atrašanās vieta (atsevišķas burti vai pieturzīmes uc) vai attēli. Lielākajā daļā gadījumu PDF failā pat netiek saglabāta informācija par to, kur beidzas viens vārds un sākas kāds cits, un vēl jo vairāk - piemēram, mīksto pārtraukumu un stingru pārtraukumu attiecībā uz rindkopu galiem.

(Dažos nesenajos PDF failos tiek saglabāta neliela informācija par šo saturu, taču tā ir jauna tehnoloģija, un jums būs laimīgs, ja atradīsiet tādus PDF failus. Pat ja jūs to darītu, jūsu PDF skatītājs var to nezināt.)

Jebkurā gadījumā jūsu programmatūrai ir jāievieš sava veida "mākslīgais intelekts", lai iegūtu tikai atsevišķu rakstzīmju atrašanās vietas, kāds ir vārds, kāds ir punkts un tā tālāk. Dažāda programmatūra to darīs labāk nekā citi, un tā arī būs atkarīga no tā, kā tika izveidots PDF. Jebkurā gadījumā nekad nevajadzētu gaidīt nevainīgus rezultātus. Atskaņošanas PDF faili nav tādi paši kā avota dokumenta izmantošana. Labāk mēģiniet to iegūt, ja varēsiet.

Jūsu problēmas veida standarta risinājums ir izmantot Adobe Acrobat Professional (dārgu, nevis bezmaksas lasītāju), lai PDF pārvērstu par HTML. Pat tas nenāks par perfektiem rezultātiem.

Ir bezmaksas programmatūra, ko var izmantot, lai tekstu no PDF izvilktos ar dažiem noformējumiem neskartiem, bet atkal neparedziet perfektu rezultātu. Skatiet, piemēram, kalibrs (kas var konvertēt uz RTF formātu), pdftohtml / pdfreflow vai tekstapstrādes AbiWord (ar visiem iespējotajiem importēšanas / eksporta spraudņiem). OpenOffice ir arī PDF importēšanas spraudnis.

Bet, lūdzu, nedodiet pilnību ar kādu no šiem rezultātiem. Jūs atrodaties šeit pret graudu. PDF vienkārši nav domāts kā rediģējams ievades formāts.

Ja jums ir grūti izlemt, ar kuru instrumentu sākt, Caliber ir īsts dokuments Šveices armijas nazis. Jūs to varat arī izmantot, lai pārveidotu PDF failus lietošanai jūsu ebook lasītājā un organizētu savu ebook / dokumentu bibliotēku.

Vai kaut ko pievienot paskaidrojumam? Skatieties komentāros. Vēlaties lasīt citas atbildes no citiem tehnoloģiju savvy Stack Exchange lietotājiem? Šeit skatiet pilnu diskusiju pavedienu.