Ievads
Aspose.Words FOSS ir atvērtā koda Python bibliotēka darbam ar Word dokumentiem. Tā lasa DOCX, DOC, RTF, TXT un Markdown failus, un var eksportēt tos uz PDF, Markdown vai vienkāršu tekstu — viss bez Microsoft Word vai jebkādām vietējām atkarībām.
Bibliotēka ir izlaista zem MIT licences un ir pieejama PyPI. Instalējiet to, izmantojot:
pip install aspose-words-foss>=26.4.0
Aspose.Words FOSS pieprasa Python 3.10 vai jaunāku un ir atkarīgs no trim tīriem Python pakotnēm (olefile, fpdf2, pydantic), kas tiek instalētas automātiski, izmantojot pip.
Galvenās funkcijas
Dokumenta ielāde un konvertēšana
Klase Document ir galvenais ieejas punkts. Ielādējiet failu jebkurā atbalstītā ievades formātā un izsauciet save(), lai konvertētu to uz citu izvades formātu.
import aspose.words_foss as aw
doc = aw.Document("input.docx") # or .doc, .rtf, .txt, .md
doc.save("output.md", aw.SaveFormat.MARKDOWN)
PDF Eksports
Eksportējiet Word dokumentus uz PDF, izmantojot SaveFormat.PDF noklusējuma iestatījumiem vai PdfSaveOptions smalkākai vadībai.
import aspose.words_foss as aw
doc = aw.Document("input.docx")
doc.save("output.pdf", aw.SaveFormat.PDF)
Markdown eksportēšana ar saglabāšanas opcijām
Izmantojiet MarkdownSaveOptions un PdfSaveOptions, lai precīzi kontrolētu izvades formatēšanu.
import aspose.words_foss as aw
from aspose.words_foss.saving import MarkdownSaveOptions, PdfSaveOptions
doc = aw.Document("input.docx")
md_opts = MarkdownSaveOptions()
doc.save("output.md", md_opts)
pdf_opts = PdfSaveOptions()
doc.save("output.pdf", pdf_opts)
Teksta izguve
Izgūstiet parastu tekstu no jebkura atbalstīta dokumenta formāta, izmantojot Document.get_text().
import aspose.words_foss as aw
doc = aw.Document("input.docx")
text = doc.get_text()
Dokumenta struktūras parsēšana
Specializēti parsētāji izvelk strukturētus datus no DOCX iekšējām struktūrām. NumberingParser lasa saraksta numurēšanas definīcijas un StyleParser parsē stilu nosaukumus strukturētos objektos.
Daudzformātu ievades atbalsts
Ielādējiet dokumentus no piecām ievades formātiem — DOCX, DOC, RTF, TXT un Markdown —, izmantojot to pašu Document konstruktoru. LoadFormat uzskaitījums nodrošina konstantas skaidrai formāta izvēlei (LoadFormat.DOCX, LoadFormat.DOC, LoadFormat.RTF, LoadFormat.TEXT, LoadFormat.MARKDOWN).
Ātrais sākums
Instalējiet pakotni un konvertējiet DOCX failu uz visiem trim izvades formātiem:
pip install aspose-words-foss>=26.4.0
import aspose.words_foss as aw
# Load a Word document
doc = aw.Document("report.docx")
# Export to Markdown
doc.save("report.md", aw.SaveFormat.MARKDOWN)
# Export to PDF
doc.save("report.pdf", aw.SaveFormat.PDF)
# Export to plain text
doc.save("report.txt", aw.SaveFormat.TEXT)
# Extract text directly
text = doc.get_text()
print(f"Extracted {len(text)} characters")
Atbalstītie formāti
| Formāts | Paplašinājums | Lasīt | Rakstīt |
|---|---|---|---|
| DOCX | .docx | ✓ | — |
| DOC | .doc | ✓ | — |
| RTF | .rtf | ✓ | — |
| TXT | .txt | ✓ | — |
| Markdown | .md | ✓ | ✓ |
| — | ✓ |
Atvērtā pirmkods un licencēšana
Aspose.Words FOSS for Python ir izlaists zem MIT licences. To varat brīvi izmantot personīgajos, iekšējos un komerciālos projektos bez licences maksas. Pilns pirmkods ir pieejams GitHub vietnē Aspose Words FOSS organizācijā.