У цій статті міститься вся необхідна інформація для отримання тексту з документів за допомогою одного з найкращих інтерфейсів API .NET для видобування даних документа та вказівки, як витягнути текст із документа Word за допомогою C#. Крім того, він надає інформацію для налаштування необхідного пакета та робочий приклад для демонстрації реалізації програми C# вилучення тексту з документа Word. Ось основні кроки, а також зразок коду для отримання тексту з документів Word.
Кроки для вилучення тексту з документа Word за допомогою C#
- Установіть пакет GroupDocs.Parser for .NET із веб-сайту NuGet у проекті .NET, щоб отримати текст із документа Word
- Додайте посилання на необхідні простори імен для вилучення тексту з файлу Word
- Створіть об’єкт класу Parser для завантаження вхідного документа DOCX
- Викличте метод GetText класу Parser і отримайте об’єкт TextReader
- Нарешті, використовуйте метод ReadToEnd, щоб прочитати текст з об’єкта reader
Наведені вище пункти дозволяють швидко створити програму для вилучення тексту з документа Word C#. Ці кроки не залежать від будь-якого стороннього інструменту для вилучення тексту з документів, і ви можете використовувати їх на будь-якій платформі, як-от MS Windows, Linux і macOS, яка підтримує середовище .NET. Крім того, вам потрібно написати кілька рядків коду, які споживають пару викликів API необхідної бібліотеки для отримання тексту з документів DOC або DOCX.
Код для вилучення тексту з документа Word за допомогою C#
Можливість читання тексту з документа Word C# розроблена у наведеному вище фрагменті коду, щоб показати вам, як витягти текст із документа DOCX. Однак ви також можете використовувати документи у форматі DOC у цьому прикладі коду для отримання тексту. Крім того, цей приклад можна адаптувати для вилучення тексту з багатьох інших форматів документів, включаючи DOT, RTF, XLSX, CSV, MHTML, EML, PPTX, ZIP, PDF та багато інших.
У цій публікації ми обговорили процес вилучення тексту з документів Word на C# та розробили для нього зразок коду. Нещодавно ми опублікували статтю про видобування зображень із PDF у C#, перегляньте посібник як витягти зображення з PDF за допомогою C#, щоб отримати додаткові відомості.