The indispensable tool for creating e-Books
Digitization of old texts like books can be very labor intensive. There is scanning of the source, transforming the scans into actual text, getting rid of all the errors due to scanning or the quality of the source and when that is done, you still need to create the e-book.
For scanning and transforming the scans to text (called OCR), there are numerous tools. You can use a professional scanner, a flatbed scanner at home, a scanning service or even build your own scanning rig so the books don't get damaged. When the scan is finished, you have to transform the scans into text and sometimes images. There are a number of OCR tools available, most of them paid and a few Open Source with different quality. Personally I would recommend ABBYY FineReader.
After the OCR the text still has errors due to this process. Depending on the source, scans of the source and the used font in the source, this can be a lot of not so much. Tracking and correcting these errors can be a real pain. There are some OCR mistakes that are common (e.g. b and h), others are more difficult. Small text like quotation marks can get lost and good luck tracking those. Proofreading is essential for digitization of texts. This toolkit can help in (semi-)automatic repair of these errors and mistakes before proofreading. Potentially it can save you many hours of work.
It is a Word Add-in, giving you the word processing power of MS Word with a kick.
Catches and repairs a lot of common mistakes with user extendible lists.
Find those missing quotation marks and parenthesis, whatever type they may be.
Export your Word document directly as ePUB or import an ePUB for correction. Caution, it is not an ePUB editor!
Check the usage of small caps, which often go wrong due to OCR.
There are many more options, like an alternative spelling checker, equation handler, checker for sub-/superscript and more.
Read the documentation for information and advanced settings
DocumentationCurrent version is: ePUBTools 1.27.0 (March 15nd – 2018)
SHA256:
3A38F64F34317EA4A71E673C6BAC2E740C9007DCC84B450A67E48A54C77E65A1
There are some prerequisites.
Digitalisatie van oude teksten zoals boeken kan erg arbeidsintensief zijn. Het bestaat uit vele stapen zoals het scannen van de bron, omzetten van de scans naar werkelijke text, verwijderen van alle fouten ontstaan door het scannen of de kwaliteit van de bron en wanneer dit gebeurd is, moet nog altijd het e-boek gemaakt worden.
Voor het scannen en omzetten van de scans naar text (ook wel OCR genaamd) zijn er meerdere hulpmiddelen beschikbaar. Zo kun je een professionele scanner gebruiken, een flatbed scanner thuis, gebruik van een externe dienst of zelfs zelf je eigen scanner opstelling maken om te voorkomen dat de boeken beschadigen. Zodra de scan klaar is, moeten de scans worden omgezet in text en soms ook afbeeldingen. Er zijn verschillende OCR programma's in de markt. De meeste zijn betaald, maar er zijn een paar Open Source programma's. De kwaliteit van de programma's wisselt. Persoonlijk raad ik ABBYY FineReader aan.
Na het OCR process bevat de tekst nog steeds fouten. Afhankelijk van de bron, de scans van de bron of het gebruikte lettertype in de bron, kan dit variëren van een paar tot heel veel. Opsporen en corrigeren van deze fouten is een lang en intensief proces. Sommige OCR fouten zijn algemeen (bijvoorbeeld b en h), anderen zijn een stuk lastiger. Kleine tekst elementen zoals aanhalingstekens kunnen snel wegvallen en dit soort fouten zijn lastig op te sporen. Proeflezen is essentieel voor digitalisatie van teksten. Deze toolkit kan helpen in (semi-)automatische correctie van dit soort fouten en vergissingen voor het proeflezen. Potentieel kan het vele uren werk besparen.
De toolkit is een Word Add-in waardoor het je de kracht van het tekstverwerken van MS Word, maar dan in overtreffende kracht.
Vind en repareert veel algemene fouten door middel van lijsten die eenvoudig door de gebruiker uitgebreid kunnen worden.
Vind die vermiste aanhalingstekens en haakjes, wat voor types het ook mogen zijn.
Exporteer je Word document direct als ePUB of importeer een ePUB voor verdere correcties. Let op, het is geen ePUB bewerkingsprogramma!
Controleer het gebruik van kleine kapitalen, welke vaak mis gaan in het OCR proces.
Er zijn nog veel meer mogelijkheden en hulpmiddelen, zoals een alternatieve spellings controle, omgang met vergelijkingen, een controle proces voor onder- en bovenschrift en nog veel meer.
Lees de documentatie voor meer informatie en geadvanceerde instellingen.
DocumentatieHuidige versie is: ePUBTools 1.27.0 (15 Maart – 2018)
SHA256:
3A38F64F34317EA4A71E673C6BAC2E740C9007DCC84B450A67E48A54C77E65A1
Er zijn enkele voorwaarden: