Pengenalan

Aspose.Words FOSS ialah perpustakaan Python sumber terbuka untuk bekerja dengan dokumen Word. Ia membaca fail DOCX, DOC, RTF, TXT, dan Markdown, dan boleh mengeksportnya ke PDF, Markdown, atau teks biasa — semua tanpa memerlukan Microsoft Word atau sebarang kebergantungan asli.

Perpustakaan ini dikeluarkan di bawah Lesen MIT dan tersedia di PyPI. Pasang ia dengan:

pip install aspose-words-foss>=26.4.0

Aspose.Words FOSS memerlukan Python 3.10 atau lebih baru dan bergantung pada tiga pakej pure-Python (olefile, fpdf2, pydantic), dipasang secara automatik oleh pip.


Ciri-ciri Utama

Pemuat Dokumen dan Penukaran

Kelas Document adalah titik masuk utama. Muatkan fail dalam mana-mana format input yang disokong dan panggil save() untuk menukarnya ke format output yang berbeza.

import aspose.words_foss as aw

doc = aw.Document("input.docx")  # or .doc, .rtf, .txt, .md
doc.save("output.md", aw.SaveFormat.MARKDOWN)

Eksport PDF

Eksport dokumen Word ke PDF menggunakan SaveFormat.PDF untuk tetapan lalai atau PdfSaveOptions untuk kawalan terperinci.

import aspose.words_foss as aw

doc = aw.Document("input.docx")
doc.save("output.pdf", aw.SaveFormat.PDF)

Eksport Markdown dengan Pilihan Simpan

Gunakan MarkdownSaveOptions dan PdfSaveOptions untuk kawalan halus ke atas pemformatan output.

import aspose.words_foss as aw
from aspose.words_foss.saving import MarkdownSaveOptions, PdfSaveOptions

doc = aw.Document("input.docx")

md_opts = MarkdownSaveOptions()
doc.save("output.md", md_opts)

pdf_opts = PdfSaveOptions()
doc.save("output.pdf", pdf_opts)

Ekstraksi Teks

Ekstrak teks biasa dari mana-mana format dokumen yang disokong menggunakan Document.get_text().

import aspose.words_foss as aw

doc = aw.Document("input.docx")
text = doc.get_text()

Penguraian Struktur Dokumen

Pengurai khusus mengekstrak data berstruktur daripada dalaman DOCX. NumberingParser membaca definisi penomboran senarai dan StyleParser mengurai nama gaya menjadi objek berstruktur.

Sokongan Input Pelbagai Format

Muat dokumen dari lima format input — DOCX, DOC, RTF, TXT, dan Markdown — menggunakan konstruktor Document yang sama. Enum LoadFormat menyediakan pemalar untuk pemilihan format secara eksplisit (LoadFormat.DOCX, LoadFormat.DOC, LoadFormat.RTF, LoadFormat.TEXT, LoadFormat.MARKDOWN).


Permulaan Cepat

Pasang pakej dan tukar fail DOCX kepada semua tiga format output:

pip install aspose-words-foss>=26.4.0
import aspose.words_foss as aw

# Load a Word document
doc = aw.Document("report.docx")

# Export to Markdown
doc.save("report.md", aw.SaveFormat.MARKDOWN)

# Export to PDF
doc.save("report.pdf", aw.SaveFormat.PDF)

# Export to plain text
doc.save("report.txt", aw.SaveFormat.TEXT)

# Extract text directly
text = doc.get_text()
print(f"Extracted {len(text)} characters")

Format yang Disokong

FormatExtensionBacaTulis
DOCX.docx
DOC.doc
RTF.rtf
TXT.txt
Markdown.md
PDF.pdf

Sumber Terbuka & Pelesenan

Aspose.Words FOSS untuk Python dikeluarkan di bawah Lesen MIT. Anda boleh menggunakannya secara bebas dalam projek peribadi, dalaman, dan komersial tanpa yuran lesen. Kod sumber penuh tersedia di GitHub pada organisasi Aspose Words FOSS.


Mula