Dit artikel behandelt alle benodigde informatie voor het extraheren van tekst uit documenten met behulp van een van de beste .NET API’s om documentgegevens te extraheren en begeleidt u bij het extraheren van tekst uit een Word document met behulp van C#. Verder biedt het de informatie voor het configureren van het vereiste pakket en een werkvoorbeeld om de implementatie te demonstreren van de toepassing C# tekst extraheren uit Word-document. Hier zijn de belangrijkste stappen en voorbeeldcode om de tekst uit Word-documenten te halen.
Stappen om tekst uit Word-document te extraheren met C#
- Installeer het GroupDocs.Parser for .NET-pakket van de NuGet-website in het .NET-project om tekst uit een Word-document te extraheren
- Voeg een verwijzing toe van de benodigde naamruimten voor het extraheren van de tekst uit het Word-bestand
- Maak een object van de klasse Parser voor het laden van het invoer DOCX-document
- Roep de methode GetText van de klasse Parser aan en verkrijg een TextReader-object
- Gebruik ten slotte de ReadToEnd-methode om de tekst van het reader-object te lezen
Met de bovenstaande punten kunt u snel de toepassing maken om tekst uit Word-document C# te extraheren. Deze stappen zijn niet afhankelijk van een tool van derden voor het extraheren van tekst uit documenten en u kunt ze gebruiken op elk platform zoals MS Windows, Linux en macOS dat een .NET-omgeving ondersteunt. Verder moet je een paar regels code schrijven die een paar API-aanroepen van de vereiste bibliotheek verbruiken om de tekst uit de DOC- of DOCX-documenten te krijgen.
Code om tekst uit Word-document te extraheren met C#
De lees tekst uit Word-document C#-mogelijkheid is ontwikkeld in het bovenstaande codefragment om u te laten zien hoe u tekst uit een DOCX-document kunt extraheren. U kunt echter ook documenten in DOC-indeling gebruiken in deze voorbeeldcode om de tekst op te halen. Verder kan dit voorbeeld worden aangepast voor het extraheren van tekst uit verschillende andere documentformaten, waaronder DOT, RTF, XLSX, CSV, MHTML, EML, PPTX, ZIP, PDF en nog veel meer.
We hebben het proces besproken om tekst uit Word-documenten in C# te extraheren en hebben er in dit bericht een voorbeeldcode voor ontwikkeld. Onlangs hebben we een artikel gepubliceerd voor het extraheren van afbeeldingen uit PDF in C#, bekijk de hoe afbeeldingen uit PDF te extraheren met C#-handleiding voor meer informatie.