Pendahuluan
Aspose.Words FOSS adalah perpustakaan Python sumber terbuka untuk bekerja dengan dokumen Word. Ia membaca file DOCX, DOC, RTF, TXT, dan Markdown, dan dapat mengekspornya ke PDF, Markdown, atau teks biasa — semua tanpa memerlukan Microsoft Word atau ketergantungan native apa pun.
Perpustakaan ini dirilis di bawah Lisensi MIT dan tersedia di PyPI. Instal dengan:
pip install aspose-words-foss>=26.4.0
Aspose.Words FOSS memerlukan Python 3.10 atau yang lebih baru dan bergantung pada tiga paket pure-Python (olefile, fpdf2, pydantic), yang diinstal secara otomatis oleh pip.
Fitur Utama
Pemuat Dokumen dan Konversi
Kelas Document adalah titik masuk utama. Muat file dalam format input yang didukung apa pun dan panggil save() untuk mengonversinya ke format output yang berbeda.
import aspose.words_foss as aw
doc = aw.Document("input.docx") # or .doc, .rtf, .txt, .md
doc.save("output.md", aw.SaveFormat.MARKDOWN)
Ekspor PDF
Ekspor dokumen Word ke PDF menggunakan SaveFormat.PDF untuk pengaturan default atau PdfSaveOptions untuk kontrol yang lebih halus.
import aspose.words_foss as aw
doc = aw.Document("input.docx")
doc.save("output.pdf", aw.SaveFormat.PDF)
Ekspor Markdown dengan Opsi Penyimpanan
Gunakan MarkdownSaveOptions dan PdfSaveOptions untuk kontrol yang halus atas format output.
import aspose.words_foss as aw
from aspose.words_foss.saving import MarkdownSaveOptions, PdfSaveOptions
doc = aw.Document("input.docx")
md_opts = MarkdownSaveOptions()
doc.save("output.md", md_opts)
pdf_opts = PdfSaveOptions()
doc.save("output.pdf", pdf_opts)
Ekstraksi Teks
Ekstrak teks biasa dari format dokumen apa pun yang didukung menggunakan Document.get_text().
import aspose.words_foss as aw
doc = aw.Document("input.docx")
text = doc.get_text()
Penguraian Struktur Dokumen
Parser khusus mengekstrak data terstruktur dari internal DOCX. NumberingParser membaca definisi penomoran daftar dan StyleParser mengurai nama gaya menjadi objek terstruktur.
Dukungan Input Multi-Format
Muat dokumen dari lima format input — DOCX, DOC, RTF, TXT, dan Markdown — menggunakan konstruktor Document yang sama. Enum LoadFormat menyediakan konstanta untuk pemilihan format secara eksplisit (LoadFormat.DOCX, LoadFormat.DOC, LoadFormat.RTF, LoadFormat.TEXT, LoadFormat.MARKDOWN).
Panduan Cepat
Instal paket dan konversi file DOCX ke ketiga format output:
pip install aspose-words-foss>=26.4.0
import aspose.words_foss as aw
# Load a Word document
doc = aw.Document("report.docx")
# Export to Markdown
doc.save("report.md", aw.SaveFormat.MARKDOWN)
# Export to PDF
doc.save("report.pdf", aw.SaveFormat.PDF)
# Export to plain text
doc.save("report.txt", aw.SaveFormat.TEXT)
# Extract text directly
text = doc.get_text()
print(f"Extracted {len(text)} characters")
Format yang Didukung
| Format | Ekstensi | Baca | Tulis |
|---|---|---|---|
| DOCX | .docx | ✓ | — |
| DOC | .doc | ✓ | — |
| RTF | .rtf | ✓ | — |
| TXT | .txt | ✓ | — |
| Markdown | .md | ✓ | ✓ |
| — | ✓ |
Sumber Terbuka & Lisensi
Aspose.Words FOSS for Python dirilis di bawah Lisensi MIT. Anda dapat menggunakannya secara bebas dalam proyek pribadi, internal, dan komersial tanpa biaya lisensi. Kode sumber lengkap tersedia di GitHub pada organisasi Aspose Words FOSS.