Szöveg kivonatolása PDF és képfájlokból


Van egy PDF dokumentum, amelyből ki szeretné vonni az összes szöveget? Mi a helyzet a szkennelt dokumentum képfájljaival, amelyeket szerkeszteni kívánt szövegként szeretnénk konvertálni? Ezek a leggyakoribb problémák, amelyeket a munkahelyen láttam a fájlok feldolgozásakor.

Ebben a cikkben több különböző módon lehet beszámolni a szöveg PDF-ből történő kivonásáról vagy egy képből. A kitermelési eredmények a PDF és képen megjelenő szöveg típusától és minőségétől függően változnak. Továbbá, az eredményei a használt eszköztől függően változnak, ezért legjobb, ha a lehető legegyszerűbben kipróbálhatja a lehető legegyszerűbb eredményeket.

Szöveg kivonatolása képből vagy PDF-ből

A legegyszerűbb és leggyorsabb módja annak, hogy megpróbáljunk egy online PDF-szövegkiemelő szolgáltatást. Ezek általában ingyenesek és pontosan megadhatják, amit keresel anélkül, hogy bármit is telepítenének a számítógépére. A következő két nagyon jó és kiváló eredményt használtam:

ExtractPDF

extractpdf

1 egy ingyenes eszköz, amely megragadja a képeket, szöveget és betűtípusokat PDF fájlból. Az egyetlen korlátozás az, hogy a PDF fájl maximális mérete 10 MB. Ez kicsit kicsi; ezért ha nagyobb fájlod van, próbáld ki az alábbiakban felsorolt ​​módszerek valamelyikét. Válassza ki a fájlt, majd kattintson a Fájl küldésegombra. Az eredmények általában nagyon gyorsak, és a Szöveg lapra kattintva megjelenik a szöveg előnézete.

download text

hozzáadott előnye, hogy kivágja a képeket a PDF-fájlból is, csak abban az esetben, ha szükség van rájuk! Összességében az online eszköz remekül működik, de néhány PDF-dokumentumot futtattam, ami vicces eredményt adott nekem. A szöveg csak finom, de valamilyen oknál fogva lesz egy sortörés minden szó után! Nem egy hatalmas probléma egy rövid PDF fájlhoz, de minden bizonnyal egy probléma a sok szöveges fájlokhoz. Ha ez megtörténik, próbálkozzon a következő eszközzel.

Az online OCR

Online OCR általában az olyan dokumentumok esetében működött, amelyek nem alakultak megfelelően az ExtractPDF , ezért jó ötlet mindkét szolgáltatás kipróbálásához, hogy megnézze, melyik jobb kimenetet biztosít. Az online OCR-nek is vannak olyan szebb tulajdonságai, amelyek kézenfekvőnek bizonyulhatnak bárkinek, aki nagy PDF-fájllal rendelkezik, csak az egész dokumentum helyett néhány oldalt kell átalakítania.

Az első dolog, amit akarsz csinálni és hozzon létre egy ingyenes számlát. Ez egy kicsit bosszantó, de ha nem készíted el az ingyenes számlát, akkor csak a PDF dokumentumot fogja átalakítani, mint az egész dokumentumot. Ahelyett, hogy csak 5 MB-os dokumentumot tölthet fel, legfeljebb 100 MB fájlt tud feltölteni egy fiókkal.

online ocr

Első , válasszon nyelvet, majd válassza ki az átalakított fájlhoz tartozó kimeneti formátumok típusát. Van néhány lehetőséged és többet is választhatsz, ha tetszik. A Többoldalas dokumentumalatt kiválaszthatja az Oldalszámoklehetőséget, majd válassza ki az átalakítani kívánt oldalakat. Ezután kiválasztja a fájlt, majd kattintson a Konvertálás!

gombra

online ocr docs

A konverzió után a Dokumentumok részre kerül (ha be van jelentkezve), ahol láthatja, hogy hány elérhető ingyenes oldal van és az átalakított fájlok letöltéséhez szükséges linkek. Úgy tűnik, hogy naponta csak 25 oldala van ingyen, ezért ha többre van szüksége, akkor legalább várni kell, vagy több oldalt kell vásárolnia.

Az online OCR kiváló munkát végzett a PDF-fájlokat, mert képes volt fenntartani a szöveg tényleges elrendezését. A teszt során vettem egy Word doc-ot, amely golyókat használt, különböző betűméreteket stb., És PDF-be konvertálta. Aztán használtam az Online OCR-t, hogy visszaalakítsam Word-formátumba, és körülbelül 95% -a ugyanaz, mint az eredeti. Ez elég lenyűgöző számomra.

Plusz, ha meg szeretné konvertálni egy képet szöveggé, akkor az Online OCR meg tudja csinálni ugyanolyan egyszerűen, mint a PDF fájlokból történő kivonást.

Ingyenes Online OCR

Mivel a kép szöveges OCR-ről beszélt, hadd említsek egy másik jó webhelyet, amely nagyon jól működik a képeken. Ingyenes online OCR nagyon jó és nagyon pontos volt, amikor kivettem a szöveget a tesztképekből. Néhány fotót vettem fel a könyvekről, brosúrákról stb. Szóló oldalakról, és meglepődtem, hogy mennyire tudta átkonvertálni a szöveget.

free online ocr

>

Válassza ki a fájlt, majd kattintson a Feltöltés gombra. A következő képernyőn néhány lehetőség és egy kép előnézete látható. Akkor vághatja le, ha nem akarja az OCR-t az egészet. Ezután kattintson az OCR gombra, és a konvertált szöveg megjelenik a kép előnézetében. Az online szolgáltatások mellett két freeware PDF konvertáló is szeretné megemlíteni, hogy szükség van a helyi számítógépen futó szoftverre a számítógépen való megjelenítéshez. a konverziók. Az online szolgáltatásoknál mindig internetkapcsolatra van szükséged, és ez nem mindenki számára lehetséges. Azonban észrevettem, hogy a freeware programok konverzióinak minősége lényegesen rosszabb, mint a weboldalakon.

A-PDF Text Extractor

A-PDF szövegszerkesztő a freeware, amely elég jó feladat a PDF-fájlok szövegének kitermelésével. Miután letöltötte és telepítette, kattintson a Megnyitás gombra a PDF fájl kiválasztásához. Ezután kattintson a Szöveg kivonása gombra a folyamat elindításához.

apdf extractor

. Az Opciógombra kattintva kiválaszthatja az extrakciót és az extrakciót. A második lehetőség azért érdekes, mert kivonatolja a szöveget különböző elrendezésekben, és érdemes megpróbálni mindháromat, hogy melyik adja a legjobb kimenetet.

PDF2Text Pilot

PDF2Text Pilot a szöveg kivonatolásának megfelelő feladata. Nincs más lehetősége; csak fájlokat vagy mappákat adsz hozzá, konvertálsz és remélsz a legjobbat. Néhány PDF-fájlban jól működött, de többségüknél számos kérdés merült fel.

pdf2text

Csak kattintson a Fájlok hozzáadása gombra, majd a Átalakítás. Miután az átalakítás befejeződött, kattintson a Tallózás gombra a fájl megnyitásához. A futásteljesítmény változik a program használatával, ezért ne számítsunk sokat.

Emellett érdemes megemlíteni, hogy ha vállalati környezetben vagy az Adobe Acrobat másolatát kapja a munkából, akkor tényleg sokkal jobb eredményeket érhet el. Az Acrobat nyilvánvalóan nem ingyenes, de lehetősége van a PDF konvertálására Word, Excel és HTML formátumban. A legjobb feladat az eredeti dokumentum szerkezetének megőrzése és a bonyolult szöveg átalakítása.

Kapcsolódó hozzászólások:


13.11.2014