Vai jums ir PDF dokuments, no kura vēlaties izvilkt visu tekstu? Kā skenēta dokumenta attēla faili, kuru vēlaties pārvērst par rediģējamu tekstu? Šie ir daži no visbiežāk sastopamajiem jautājumiem, kurus esmu redzējis darba vietā, strādājot ar failiem.
Šajā rakstā es runāšu par vairākiem dažādiem veidiem, kā varat mēģināt iegūt tekstu no PDF vai no attēla. Jūsu ekstrakcijas rezultāti būs atkarīgi no PDF vai attēla teksta veida un kvalitātes. Tāpat arī jūsu rezultāti būs atkarīgi no izmantotā rīka, tāpēc vislabāk ir izmēģināt pēc iespējas vairāk no iespējām, lai iegūtu labākos rezultātus.
Vienkāršākais un ātrākais veids, kā sākt, ir izmēģināt tiešsaistes PDF teksta nosūcēju servisu. Tās parasti ir brīvas un var dot tieši to, ko jūs meklējat, neinstalējot neko savā datorā. Šeit ir divi, kurus esmu izmantojis ar ļoti labiem līdz izciliem rezultātiem:
ExtractPDF ir bezmaksas rīks, lai no PDF faila paņemtu attēlus, tekstu un fontus. Vienīgais ierobežojums ir tas, ka PDF faila maksimālais lielums ir 10 MB. Tas ir nedaudz mazs; tādēļ, ja jums ir lielāks fails, izmēģiniet kādu no tālāk minētajām metodēm. Izvēlieties failu un pēc tam noklikšķiniet uz Sūtīt failu poga Rezultāti parasti ir ļoti ātri, un, noklikšķinot uz cilnes Teksts, teksta priekšskatījums jāapskata.
Tas ir arī jauks pievienots ieguvums, ka tas izraksta arī attēlus no PDF faila, tikai gadījumā, ja tiem ir vajadzīgi! Kopumā tiešsaistes rīks darbojas lieliski, bet es nokļuvu pāris PDF dokumentos, kas man iedod smieklīgu izlaidi. Teksts tiek izvilkts tikai labi, taču kaut kāda iemesla dēļ pēc katra vārda tam būs rindiņas pārtraukums! Nav liela problēma īsam PDF failam, bet noteikti ir problēma attiecībā uz failiem ar lielu tekstu. Ja tas notiks ar jums, izmēģiniet nākamo rīku.
Tiešsaistes OCR parasti mēdz strādāt ar dokumentiem, kas nav pareizi konvertēti ar ExtractPDF, tādēļ ir ieteicams izmēģināt abus pakalpojumus, lai noskaidrotu, kuri no tiem sniedz labāku rezultātu. Tiešsaistes OCR ir arī dažas labākas funkcijas, kuras var izrādīties noderīgas ikvienam, kuram ir liels PDF fails, kuram tikai jāpārvērš tekstu dažās lapās, nevis visam dokumentam.
Pirmā lieta, ko vēlaties darīt, ir iet uz priekšu un izveidot bezmaksas kontu. Tas ir mazliet kaitinošas, bet, ja jūs neredzat bezmaksas kontu, tas tikai daļēji pārvērsīs jūsu PDF failu, nevis visu dokumentu. Tāpat, tā vietā, lai tikai augšupielādētu tikai 5 MB dokumentu, varat augšupielādēt līdz 100 MB vienā failā ar kontu.
Vispirms izvēlieties valodu un pēc tam izvēlieties izvades formātu veidu, kāds vēlaties konvertētajam failam. Jums ir pāris iespējas, un, ja vēlaties, varat izvēlēties vairāk nekā vienu. Zem Vairāklapu dokuments, jūs varat izvēlēties Lapu numuri un pēc tam izvēlieties tikai lapas, kuras vēlaties konvertēt. Tad jūs izvēlaties failu un noklikšķiniet uz Konvertēšana!
Pēc konvertēšanas jūs tiksiet novirzīts uz sadaļu Dokumenti (ja esat pieteicies), kur varat redzēt, cik daudz pieejamo bezmaksas lapu esat atstājis, un saites, lai lejupielādētu savus konvertētos failus. Šķiet, ka jums ir tikai 25 lapas dienā bez maksas, tādēļ, ja jums ir nepieciešams vairāk, jums ir vai nu jāgaida nedaudz, vai arī jāpērk vēl citas lapas.
Tiešsaistes OCR paveicis lielisku darbu pārveidojot PDF failus, jo tas spēja saglabāt faktisko teksta izkārtojumu. Manā pārbaudījumā es paņēmu Word doc, kas izmantoja lodes, dažādus fontu izmērus u.tml. Un pārveidoja to PDF formātā. Tad es izmantoju tiešsaistes OCR, lai to pārvērstu atpakaļ Word formātā, un tas bija aptuveni 95% tāds pats kā oriģināls. Tas ir diezgan iespaidīgs man.
Turklāt, ja jūs meklējat konvertēt attēlu uz tekstu, Tiešsaistes OCR var to darīt tikpat viegli kā teksta noņemšana no PDF failiem.
Tā kā runājam par tekstu OCR tekstā, ļaujiet man pieminēt vēl vienu labu vietni, kas ļoti labi darbojas attēlos. Bezmaksas Tiešsaistes OCR bija ļoti labs un ļoti precīzs, iegūstot tekstu no maniem testa attēliem. Es paņēmu pāris fotogrāfijas no sava iPhone no grāmatām, brošūrām u.tml. Un esmu pārsteigts par to, cik labi tas varēja pārvērst tekstu.
Izvēlieties failu un pēc tam noklikšķiniet uz pogas Augšupielādēt. Nākamajā ekrānā ir vairākas opcijas un attēla priekšskatījums. Jūs varat apgriezt to, ja nevēlaties OCR visu lieta. Tad vienkārši noklikšķiniet uz OCR pogas un jūsu pārveidotais teksts parādīsies zem attēla priekšskatījuma. Tam arī nav nekādu ierobežojumu, kas ir patiešām jauks.
Papildus tiešsaistes pakalpojumiem ir vēl divi bezmaksas programmatūras PDF pārveidotāji, kurus vēlos pieminēt, ja datorā ir nepieciešama programmatūra, kas ļauj veikt reklāmguvumus. Izmantojot tiešsaistes pakalpojumus, jums vienmēr būs nepieciešams interneta pieslēgums, un tas var nebūt pieejams ikvienam. Tomēr es pamanīju, ka bezmaksas programmatūras reklāmguvumu kvalitāte bija ievērojami sliktāka nekā vietnēs.
PDF Teksta Extractor ir bezmaksas programma, kas dara diezgan labu darbu, lai iegūtu tekstu no PDF failiem. Kad jūs to lejupielādējat un instalējat, noklikšķiniet uz pogas Atvērt, lai izvēlētos PDF failu. Tad noklikšķiniet uz Iegūt tekstu, lai sāktu procesu.
Tas lūgs jums uzzināt vietu, kur saglabāt teksta izvades failu, un pēc tam tas sāks ieguvi. Varat arī noklikšķināt uz Opcija pogu, kas ļauj jums izvēlēties tikai noteiktas lapas, lai iegūtu un ekstrakcijas veidu. Otrā iespēja ir interesanta, jo tā izraksta tekstu dažādos izkārtojumos, un ir vērts mēģināt visus trīs, lai redzētu, kuri no tiem dod jums vislabāko rezultātu.
PDF2Text Pilot labs uzdevums ir iegūt tekstu. Tai nav nevienas iespējas; jūs vienkārši pievienojat failus vai mapes, konvertējiet un ceram uz labāko. Dažos PDF failos tā labi strādāja, taču lielākajai daļai no tiem bija daudz jautājumu.
Vienkārši noklikšķiniet uz Pievienot failus un pēc tam noklikšķiniet uz Konvertēšana. Kad reklāmguvums ir pabeigts, noklikšķiniet uz Pārlūkot, lai atvērtu failu. Jūs nobraukums mainīsies, izmantojot šo programmu, tāpēc negaidiet daudz.
Tāpat ir vērts pieminēt, ka, ja strādājat korporatīvajā vidē vai arī varat noņemt darbus no Adobe Acrobat kopijas, tad jūs tiešām varēsiet iegūt daudz labākus rezultātus. Acrobat, protams, nav brīva, bet tai ir iespējas pārveidot PDF uz Word, Excel un HTML formātā. Tas vislabāk palīdz saglabāt oriģinālā dokumenta struktūru un pārveidot sarežģītu tekstu.