Bevezetés
Aspose.Words FOSS egy nyílt forráskódú Python könyvtár a Word dokumentumok kezeléséhez. Olvassa a DOCX, DOC, RTF, TXT és Markdown fájlokat, és exportálhatja őket PDF, Markdown vagy egyszerű szöveg formátumba — mindezt anélkül, hogy a Microsoft Word vagy bármilyen natív függőség szükséges lenne.
A könyvtár az MIT licenc alatt kerül kiadásra, és elérhető a PyPI-n. Telepítheted a következővel:
pip install aspose-words-foss>=26.4.0
Aspose.Words FOSS Python 3.10 vagy újabb verziót követel, és három tiszta Python csomagtól függ (olefile, fpdf2, pydantic), amelyeket a pip automatikusan telepít.
Főbb jellemzők
Dokumentum betöltése és konvertálása
A Document osztály az elsődleges belépési pont. Töltsön be egy fájlt bármely támogatott bemeneti formátumban, és hívja meg a save()-t, hogy egy másik kimeneti formátumba konvertálja.
import aspose.words_foss as aw
doc = aw.Document("input.docx") # or .doc, .rtf, .txt, .md
doc.save("output.md", aw.SaveFormat.MARKDOWN)
PDF export
Exportálja a Word-dokumentumokat PDF-be a SaveFormat.PDF használatával az alapértelmezett beállításokhoz, vagy a PdfSaveOptions-t a finomhangolt vezérléshez.
import aspose.words_foss as aw
doc = aw.Document("input.docx")
doc.save("output.pdf", aw.SaveFormat.PDF)
Markdown exportálás mentési beállításokkal
Használja a MarkdownSaveOptions és PdfSaveOptions-t a kimeneti formázás finomhangolásához.
import aspose.words_foss as aw
from aspose.words_foss.saving import MarkdownSaveOptions, PdfSaveOptions
doc = aw.Document("input.docx")
md_opts = MarkdownSaveOptions()
doc.save("output.md", md_opts)
pdf_opts = PdfSaveOptions()
doc.save("output.pdf", pdf_opts)
Szövegkinyerés
Egyszerű szöveget nyer ki bármely támogatott dokumentumformátumból a Document.get_text() használatával.
import aspose.words_foss as aw
doc = aw.Document("input.docx")
text = doc.get_text()
Dokumentumstruktúra elemzése
Specializált elemzők strukturált adatokat nyernek ki a DOCX belső részeiből. NumberingParser a lista számozási definíciókat olvassa, és StyleParser a stílusneveket strukturált objektumokká dolgozza fel.
Többformátumú bemenet támogatás
Töltsön be dokumentumokat öt bemeneti formátumból — DOCX, DOC, RTF, TXT és Markdown — ugyanazzal a Document konstruktorral. A LoadFormat enum konstansokat biztosít a formátumok kifejezett kiválasztásához (LoadFormat.DOCX, LoadFormat.DOC, LoadFormat.RTF, LoadFormat.TEXT, LoadFormat.MARKDOWN).
Gyors kezdés
Telepítse a csomagot, és konvertáljon egy DOCX fájlt mindhárom kimeneti formátumba:
pip install aspose-words-foss>=26.4.0
import aspose.words_foss as aw
# Load a Word document
doc = aw.Document("report.docx")
# Export to Markdown
doc.save("report.md", aw.SaveFormat.MARKDOWN)
# Export to PDF
doc.save("report.pdf", aw.SaveFormat.PDF)
# Export to plain text
doc.save("report.txt", aw.SaveFormat.TEXT)
# Extract text directly
text = doc.get_text()
print(f"Extracted {len(text)} characters")
Támogatott formátumok
| Formátum | Kiterjesztés | Olvas | Írás |
|---|---|---|---|
| DOCX | .docx | ✓ | — |
| DOC | .doc | ✓ | — |
| RTF | .rtf | ✓ | — |
| TXT | .txt | ✓ | — |
| Markdown | .md | ✓ | ✓ |
| — | ✓ |
Nyílt forráskód és licencelés
Aspose.Words FOSS for Python a MIT licenc alatt kerül kiadásra. Személyes, belső és kereskedelmi projektekben díjmentesen használhatja. A teljes forráskód elérhető a GitHubon az Aspose Words FOSS szervezetnél.