Εισαγωγή

Το Aspose.Words FOSS είναι μια ανοιχτού κώδικα βιβλιοθήκη Python για εργασία με έγγραφα Word. Διαβάζει αρχεία DOCX, DOC, RTF, TXT και Markdown και μπορεί να τα εξάγει σε PDF, Markdown ή απλό κείμενο — όλα χωρίς να απαιτείται το Microsoft Word ή οποιεσδήποτε εγγενείς εξαρτήσεις.

Η βιβλιοθήκη κυκλοφορεί υπό την άδεια MIT και είναι διαθέσιμη στο PyPI. Εγκαταστήστε την με:

pip install aspose-words-foss>=26.4.0

Το Aspose.Words FOSS απαιτεί Python 3.10 ή νεότερη έκδοση και εξαρτάται από τρία πακέτα pure-Python (olefile, fpdf2, pydantic), που εγκαθίστανται αυτόματα από το pip.


Βασικά χαρακτηριστικά

Φόρτωση Εγγράφου και Μετατροπή

Η κλάση Document είναι το κύριο σημείο εισόδου. Φορτώστε ένα αρχείο σε οποιαδήποτε υποστηριζόμενη μορφή εισόδου και καλέστε save() για να το μετατρέψετε σε διαφορετική μορφή εξόδου.

import aspose.words_foss as aw

doc = aw.Document("input.docx")  # or .doc, .rtf, .txt, .md
doc.save("output.md", aw.SaveFormat.MARKDOWN)

Εξαγωγή PDF

Εξαγωγή εγγράφων Word σε PDF χρησιμοποιώντας SaveFormat.PDF για προεπιλεγμένες ρυθμίσεις ή PdfSaveOptions για λεπτομερή έλεγχο.

import aspose.words_foss as aw

doc = aw.Document("input.docx")
doc.save("output.pdf", aw.SaveFormat.PDF)

Εξαγωγή Markdown με Επιλογές Αποθήκευσης

Χρησιμοποιήστε MarkdownSaveOptions και PdfSaveOptions για λεπτομερή έλεγχο της μορφοποίησης εξόδου.

import aspose.words_foss as aw
from aspose.words_foss.saving import MarkdownSaveOptions, PdfSaveOptions

doc = aw.Document("input.docx")

md_opts = MarkdownSaveOptions()
doc.save("output.md", md_opts)

pdf_opts = PdfSaveOptions()
doc.save("output.pdf", pdf_opts)

Εξαγωγή κειμένου

Εξάγετε απλό κείμενο από οποιαδήποτε υποστηριζόμενη μορφή εγγράφου χρησιμοποιώντας Document.get_text().

import aspose.words_foss as aw

doc = aw.Document("input.docx")
text = doc.get_text()

Ανάλυση Δομής Εγγράφου

Εξειδικευμένοι αναλυτές εξάγουν δομημένα δεδομένα από τα εσωτερικά του DOCX. NumberingParser διαβάζει ορισμούς αρίθμησης λιστών και StyleParser αναλύει τα ονόματα στυλ σε δομημένα αντικείμενα.

Υποστήριξη Εισόδου Πολλαπλών Μορφών

Φορτώστε έγγραφα από πέντε μορφές εισόδου — DOCX, DOC, RTF, TXT και Markdown — χρησιμοποιώντας τον ίδιο κατασκευαστή Document. Η LoadFormat απαρίθμηση παρέχει σταθερές για ρητή επιλογή μορφής (LoadFormat.DOCX, LoadFormat.DOC, LoadFormat.RTF, LoadFormat.TEXT, LoadFormat.MARKDOWN).


Γρήγορη εκκίνηση

Εγκαταστήστε το πακέτο και μετατρέψτε ένα αρχείο DOCX σε όλες τις τρεις μορφές εξόδου:

pip install aspose-words-foss>=26.4.0
import aspose.words_foss as aw

# Load a Word document
doc = aw.Document("report.docx")

# Export to Markdown
doc.save("report.md", aw.SaveFormat.MARKDOWN)

# Export to PDF
doc.save("report.pdf", aw.SaveFormat.PDF)

# Export to plain text
doc.save("report.txt", aw.SaveFormat.TEXT)

# Extract text directly
text = doc.get_text()
print(f"Extracted {len(text)} characters")

Υποστηριζόμενες μορφές

ΜορφήΕπέκτασηΑνάγνωσηΕγγραφή
DOCX.docx
DOC.doc
RTF.rtf
TXT.txt
Markdown.md
PDF.pdf

Ανοιχτού Κώδικα & Αδειοδότηση

Aspose.Words FOSS for Python κυκλοφορεί υπό την άδεια MIT. Μπορείτε να το χρησιμοποιήσετε ελεύθερα σε προσωπικά, εσωτερικά και εμπορικά έργα χωρίς χρεώσεις αδειών. Ο πλήρης κώδικας πηγής είναι διαθέσιμος στο GitHub στην οργάνωση Aspose Words FOSS.


Ξεκινώντας