Jak wyodrębnić tekst z dokumentu programu Word za pomocą języka C#

Ten artykuł zawiera wszystkie informacje niezbędne do wyodrębniania tekstu z dokumentów przy użyciu jednego z najlepszych interfejsów API platformy .NET do wyodrębniania danych z dokumentów oraz zawiera wskazówki dotyczące wyodrębniania tekstu z dokumentu Word przy użyciu języka C#. Ponadto zawiera informacje dotyczące konfigurowania wymaganego pakietu oraz działający przykład demonstrujący implementację aplikacji wyodrębniania tekstu w języku C# z dokumentu programu Word. Oto kluczowe kroki, a także przykładowy kod do pobierania tekstu z dokumentów programu Word.

Kroki, aby wyodrębnić tekst z dokumentu programu Word za pomocą języka C#

  1. Zainstaluj pakiet GroupDocs.Parser for .NET ze strony internetowej NuGet w projekcie .NET, aby wyodrębnić tekst z dokumentu Word
  2. Dodaj odwołanie do przestrzeni nazw niezbędnych do wyodrębnienia tekstu z pliku programu Word
  3. Utwórz obiekt klasy Parser do ładowania wejściowego dokumentu DOCX
  4. Wywołaj metodę GetText klasy Parser i pobierz obiekt TextReader
  5. Na koniec użyj metody ReadToEnd, aby odczytać tekst z obiektu czytelnika

Powyższe punkty umożliwiają szybkie utworzenie aplikacji do wyodrębniania tekstu z dokumentu Word C#. Te kroki nie zależą od żadnego narzędzia innej firmy do wyodrębniania tekstu z dokumentów i można ich używać na dowolnej platformie, takiej jak MS Windows, Linux i macOS, która obsługuje środowisko .NET. Ponadto musisz napisać kilka linii kodu, które zużywają kilka wywołań API wymaganej biblioteki do pobrania tekstu z dokumentów DOC lub DOCX.

Kod do wyodrębniania tekstu z dokumentu programu Word przy użyciu języka C#

Możliwość odczytywania tekstu z dokumentu programu Word C# została rozwinięta w powyższym fragmencie kodu, aby pokazać, jak wyodrębnić tekst z dokumentu DOCX. Możesz jednak również użyć dokumentów w formacie DOC w tym przykładowym kodzie, aby uzyskać tekst. Ponadto ten przykład można dostosować do wyodrębniania tekstu z różnych innych formatów dokumentów, w tym DOT, RTF, XLSX, CSV, MHTML, EML, PPTX, ZIP, PDF i wielu innych.

W tym poście omówiliśmy proces wyodrębniania tekstu z dokumentów programu Word w języku C# i opracowaliśmy dla niego przykładowy kod. Niedawno opublikowaliśmy artykuł na temat wyodrębniania obrazów z PDF w C#, zajrzyj do przewodnika jak wyodrębnić obrazy z pliku PDF za pomocą C#, aby uzyskać więcej informacji.

 Polski