Ekstrak Teks dari Dokumen MS Word di C#

Dokumen Microsoft Word banyak digunakan untuk membuat dan berbagi konten teks. Jika Anda bekerja dengan dokumen Word dalam aplikasi C# Anda, Anda mungkin perlu mengekstrak teks dari dokumen Word menggunakan C# ASP.NET dan mengekstrak teks sambil mempertahankan format. Misalnya, Anda mungkin ingin menganalisis teks, mengekstrak bagian tertentu dari dokumen, atau menggabungkannya ke dalam satu dokumen. Dalam blog ini, kita akan menjelajahi cara mengekstrak teks dari dokumen Word di C# menggunakan pustaka C# terbaik untuk ekstraksi teks dokumen Word.

Pustaka C# untuk Ekstrak Teks dari Dokumen Word

Aspose.Words untuk .NET adalah pustaka kaya fitur dan mudah digunakan untuk bekerja dengan dokumen Word. Ini menawarkan berbagai kemampuan, termasuk ekstraksi teks dokumen Word .NET, pembuatan dokumen, manipulasi, dan konversi. Dengan Aspose.Words untuk .NET, Anda dapat menangani berbagai aspek dokumen Word, menjadikannya alat yang berharga bagi pengembang yang mencari ekstraksi teks Word C# yang efisien.

Anda dapat mengunduh DLL atau menginstal pustaka langsung dari NuGet menggunakan konsol pengelola paket.

PM> Install-Package Aspose.Words

Mengekstrak Teks dari Dokumen Word

Dokumen MS Word terdiri dari berbagai elemen termasuk paragraf, tabel, gambar, dll. Oleh karena itu, persyaratan ekstraksi teks bisa bervariasi dari satu skenario ke skenario lainnya. Misalnya, Anda mungkin perlu mengekstrak teks dari dokumen Word yang dipindai C# atau mengekstrak teks dari file Word C# .NET. Setiap jenis elemen dalam dokumen Word direpresentasikan sebagai node. Oleh karena itu, untuk memproses dokumen, Anda harus berinteraksi dengan node tersebut. Mari kita mulai dan lihat bagaimana mengekstrak teks dari dokumen Word dalam berbagai skenario sambil memastikan kita menangani format kata saat mengekstrak teks C# secara efektif.

Ekstrak Teks dari DOC Word di C#

Dalam bagian ini, kita akan mengimplementasikan ekstraktor teks C# untuk dokumen Word, dan alur kerja ekstraksi teks akan sebagai berikut:

  • Pertama, kita akan mendefinisikan node yang ingin kita sertakan dalam proses ekstraksi teks.
  • Kemudian, kita akan mengekstrak konten antara node yang ditentukan (termasuk atau tidak termasuk node awal dan akhir).
  • Akhirnya, kita akan menggunakan salinan dari node yang diekstrak, misalnya, untuk membuat dokumen Word baru yang terdiri dari konten yang diekstrak.

Mari kita tulis metode bernama ExtractContent di mana kita akan mengoper node dan beberapa parameter lain untuk melakukan ekstraksi teks. Metode ini akan memparsing dokumen dan mengkloning node. Berikut adalah parameter yang akan kita oper ke metode ini:

  1. StartNode dan EndNode sebagai titik awal dan akhir untuk ekstraksi konten, masing-masing. Ini bisa berupa node level blok (Paragraf, Tabel) atau node level inline (misalnya, Run, FieldStart, BookmarkStart, dll.).
    1. Untuk mengoper suatu field, Anda harus mengoper objek FieldStart yang sesuai.
    2. Untuk mengoper bookmark, node BookmarkStart dan BookmarkEnd harus dioper.
    3. Untuk komentar, node CommentRangeStart dan CommentRangeEnd harus digunakan.
  2. IsInclusive mendefinisikan apakah penanda disertakan dalam ekstraksi atau tidak. Jika opsi ini disetel ke false dan node yang sama atau node berurutan dioper, maka daftar kosong akan dikembalikan.

Berikut adalah implementasi lengkap dari metode ExtractContent yang mengekstrak konten antara node yang dipassing, secara akurat mengekstrak teks dari dokumen Word yang dilindungi C#.

Beberapa metode bantu juga diperlukan oleh metode ExtractContent untuk menyelesaikan operasi ekstraksi teks, yang diberikan di bawah ini.

Sekarang kita siap untuk memanfaatkan metode ini dan mengekstrak teks dari dokumen Word menggunakan C#.

Ekstrak Teks antara Paragraf Dokumen Word

Mari kita lihat bagaimana mengekstrak konten antara dua paragraf dalam dokumen Word DOCX. Langkah-langkah berikut melakukan operasi ini di C#.

  • Pertama, muat dokumen Word menggunakan kelas Document.
  • Dapatkan referensi ke paragraf awal dan akhir ke dalam dua objek menggunakan metode Document.FirstSection.Body.GetChild(NodeType.PARAGRAPH, int, boolean).
  • Panggil metode ExtractContent(startPara, endPara, true) untuk mengekstrak node ke dalam sebuah objek.
  • Panggil metode bantu GenerateDocument(Document, extractedNodes) untuk membuat dokumen yang terdiri dari konten yang diekstrak.
  • Akhirnya, simpan dokumen yang dikembalikan menggunakan metode Document.Save(string).

Berikut adalah contoh kode yang menunjukkan cara mengekstrak teks dari file Word besar dengan mengekstrak teks antara paragraf ke-7 dan ke-11 dalam dokumen Word di C#.

Ekstrak Teks antara Berbagai Jenis Node

Anda juga dapat mengekstrak konten antara berbagai jenis node. Untuk demonstrasi, mari kita ekstrak konten antara paragraf dan tabel dan simpan ke dalam dokumen Word baru. Langkah-langkah berikut melakukan operasi ini.

  • Muat dokumen Word menggunakan kelas Document.
  • Dapatkan referensi ke node awal dan akhir ke dalam dua objek menggunakan metode Document.FirstSection.Body.GetChild(NodeType, int, boolean).
  • Panggil metode ExtractContent(startPara, endPara, true) untuk mengekstrak node ke dalam sebuah objek.
  • Panggil metode bantu GenerateDocument(Document, extractedNodes) untuk membuat dokumen yang terdiri dari konten yang diekstrak.
  • Simpan dokumen yang dikembalikan menggunakan metode Document.Save(string).

Berikut adalah contoh kode yang menunjukkan cara mengekstrak teks antara paragraf dan tabel di C#.

Ambil Teks antara Paragraf berdasarkan Gaya

Mari kita lihat bagaimana mengekstrak konten antara paragraf berdasarkan gaya. Untuk demonstrasi, kita akan mengekstrak konten antara “Heading 1” pertama dan “Heading 3” pertama dalam dokumen Word. Langkah-langkah berikut menunjukkan bagaimana mencapainya di C#.

  • Pertama, muat dokumen Word menggunakan kelas Document.
  • Kemudian, ekstrak paragraf ke dalam sebuah objek menggunakan metode bantu ParagraphsByStyleName(Document, “Heading 1”).
  • Ekstrak paragraf ke dalam objek lain menggunakan metode bantu ParagraphsByStyleName(Document, “Heading 3”).
  • Panggil metode ExtractContent(startPara, endPara, true) dan oper elemen pertama dari kedua array paragraf sebagai parameter pertama dan kedua.
  • Panggil metode bantu GenerateDocument(Document, extractedNodes) untuk membuat dokumen yang terdiri dari konten yang diekstrak.
  • Akhirnya, simpan dokumen yang dikembalikan menggunakan metode Document.Save(string).

Berikut adalah contoh kode yang menunjukkan cara mengekstrak konten antara paragraf berdasarkan gaya.

Baca Selengkapnya tentang Ekstraksi Teks

Anda dapat mengeksplorasi skenario lain dari API .NET untuk ekstraksi teks dokumen Word menggunakan artikel dokumentasi ini.

Dapatkan Pustaka Ekstraktor Teks Word Gratis

Anda dapat mendapatkan lisensi gratis sementara untuk mengekstrak teks tanpa batasan evaluasi.

Kesimpulan

Aspose.Words untuk .NET adalah pustaka serbaguna yang menyederhanakan proses C# mengekstrak teks dari Word sambil mempertahankan format. Dengan fitur yang luas dan API yang mudah digunakan, Anda dapat bekerja dengan dokumen Word secara efisien dan mengotomatisasi berbagai skenario menangani karakter khusus selama ekstraksi teks Word C#. Apakah Anda sedang membangun aplikasi yang perlu memproses dokumen Word atau sekadar mengekstrak teks, Aspose.Words untuk .NET adalah alat yang berharga bagi pengembang.

Anda dapat mengeksplorasi fitur lain dari Aspose.Words untuk .NET menggunakan dokumentasi. Jika Anda memiliki pertanyaan, jangan ragu untuk memberi tahu kami melalui forum kami.

Lihat Juga

Tip: Anda mungkin juga ingin memeriksa Aspose PowerPoint ke Word Converter karena ini menunjukkan proses konversi presentasi populer ke dokumen Word.