ePUB-Tools

The indispensable tool for creating e-Books

  • Nederlands
  • English

 

Digitization of old texts like books can be very labor intensive. There is scanning of the source, transforming the scans into actual text, getting rid of all the errors due to scanning or the quality of the source and when that is done, you still need to create the e-book.

For scanning and transforming the scans to text (called OCR), there are numerous tools. You can use a professional scanner, a flatbed scanner at home, a scanning service or even build your own scanning rig so the books don't get damaged. When the scan is finished, you have to transform the scans into text and sometimes images. There are a number of OCR tools available, most of them paid and a few Open Source with different quality. Personally I would recommend ABBYY FineReader.

After the OCR the text still has errors due to this process. Depending on the source, scans of the source and the used font in the source, this can be a lot of not so much. Tracking and correcting these errors can be a real pain. There are some OCR mistakes that are common (e.g. b and h), others are more difficult. Small text like quotation marks can get lost and good luck tracking those. Proofreading is essential for digitization of texts. This toolkit can help in (semi-)automatic repair of these errors and mistakes before proofreading. Potentially it can save you many hours of work.

toolbar

Word Add-in

It is a Word Add-in, giving you the word processing power of MS Word with a kick.

Common OCR mistakes

Catches and repairs a lot of common mistakes with user extendible lists.

Quotation Marks

Find those missing quotation marks and parenthesis, whatever type they may be.

Export/Import

Export your Word document directly as ePUB or import an ePUB for correction. Caution, it is not an ePUB editor!

Smallcaps

Check the usage of small caps, which often go wrong due to OCR.

Many more

There are many more options, like an alternative spelling checker, equation handler, checker for sub-/superscript and more.

Read the documentation for information and advanced settings

Documentation

Installation instructions

Current version is: ePUBTools 1.27.0 (March 15nd – 2018)

SHA256:

3A38F64F34317EA4A71E673C6BAC2E740C9007DCC84B450A67E48A54C77E65A1

There are some prerequisites.

  • Word 2007 and up (Windows only, blame MS)
  • .Net Framework 4.0 (client is enough)
  • VSTO 2010 runtime - it can be found here

Changelog

v1.27

10/12/2017
  • New: Option te remove hidden text during conversion to HTML/ePUB

v1.26

7/30/2017
  • New: Option to skip confirmation messages when doing a ‘Replace’ action in Spellingcheck module
  • Update: Some small improvements in correcting quotes
  • Fix: NCX/Nav document not filled correctly. Last entry was not present
  • Fix: Word files originating from InDesign can cause issues
  • Fix: First group on Ribbon was not hidden when empty

v1.25.2

5/10/2017
  • Fix: Fixed bug that changes in visibility of Postprocess OCR and Fieldcodes buttons were not retained

 

Digitalisatie van oude teksten zoals boeken kan erg arbeidsintensief zijn. Het bestaat uit vele stapen zoals het scannen van de bron, omzetten van de scans naar werkelijke text, verwijderen van alle fouten ontstaan door het scannen of de kwaliteit van de bron en wanneer dit gebeurd is, moet nog altijd het e-boek gemaakt worden.

Voor het scannen en omzetten van de scans naar text (ook wel OCR genaamd) zijn er meerdere hulpmiddelen beschikbaar. Zo kun je een professionele scanner gebruiken, een flatbed scanner thuis, gebruik van een externe dienst of zelfs zelf je eigen scanner opstelling maken om te voorkomen dat de boeken beschadigen. Zodra de scan klaar is, moeten de scans worden omgezet in text en soms ook afbeeldingen. Er zijn verschillende OCR programma's in de markt. De meeste zijn betaald, maar er zijn een paar Open Source programma's. De kwaliteit van de programma's wisselt. Persoonlijk raad ik ABBYY FineReader aan.

Na het OCR process bevat de tekst nog steeds fouten. Afhankelijk van de bron, de scans van de bron of het gebruikte lettertype in de bron, kan dit variëren van een paar tot heel veel. Opsporen en corrigeren van deze fouten is een lang en intensief proces. Sommige OCR fouten zijn algemeen (bijvoorbeeld b en h), anderen zijn een stuk lastiger. Kleine tekst elementen zoals aanhalingstekens kunnen snel wegvallen en dit soort fouten zijn lastig op te sporen. Proeflezen is essentieel voor digitalisatie van teksten. Deze toolkit kan helpen in (semi-)automatische correctie van dit soort fouten en vergissingen voor het proeflezen. Potentieel kan het vele uren werk besparen.

toolbar

Word Add-in

De toolkit is een Word Add-in waardoor het je de kracht van het tekstverwerken van MS Word, maar dan in overtreffende kracht.

Algemene OCR fouten

Vind en repareert veel algemene fouten door middel van lijsten die eenvoudig door de gebruiker uitgebreid kunnen worden.

Aanhalingstekens

Vind die vermiste aanhalingstekens en haakjes, wat voor types het ook mogen zijn.

Export/Import

Exporteer je Word document direct als ePUB of importeer een ePUB voor verdere correcties. Let op, het is geen ePUB bewerkingsprogramma!

Kleine kapitalen

Controleer het gebruik van kleine kapitalen, welke vaak mis gaan in het OCR proces.

En nog meer...

Er zijn nog veel meer mogelijkheden en hulpmiddelen, zoals een alternatieve spellings controle, omgang met vergelijkingen, een controle proces voor onder- en bovenschrift en nog veel meer.

Lees de documentatie voor meer informatie en geadvanceerde instellingen.

Documentatie

Installatie instructies

Huidige versie is: ePUBTools 1.27.0 (15 Maart – 2018)

SHA256:

3A38F64F34317EA4A71E673C6BAC2E740C9007DCC84B450A67E48A54C77E65A1

Er zijn enkele voorwaarden:

  • Word 2007 of hoger (alleen Windows, geen MacOS)
  • .Net Framework 4.0 (client versie is voldoende)
  • VSTO 2010 runtime - kan heirgevonden worden

Veranderingen

v1.27

10/12/2017
  • Nieuw: Optie om verborgen tekst te verwijderen tijdens de conversie naar HTML/ePUB

v1.26

7/30/2017
  • Nieuw: Optie om de bevestigings boodschappen over te slaan tijdens een ‘Vervang’ actie in de Spellingscontrole module
  • Update: Enkele kleine verbetreingen in de correctie aanhalingstekens
  • Fix: NCX/Nav document werd niet correct gevuld. Het laatste item was niet aanwezig
  • Fix: Word files afkomstig uit InDesign kunnen problemen veroorzaken
  • Fix: Eerste groep op het lint werd niet verborgen als er geen onderdeel in zijn

v1.25.2

5/10/2017
  • Fix: Fout gerepareerd waarbij wijzigingen in zichbaarheid of het Nabewerken OCR en Veldcodes knoppen niet behouden werden.