Wprowadzenie
Aspose.Words FOSS jest otwartoźródłową biblioteką Pythona do pracy z dokumentami Word. Odczytuje pliki DOCX, DOC, RTF, TXT i Markdown oraz może eksportować je do PDF, Markdown lub zwykłego tekstu — wszystko bez wymogu posiadania Microsoft Word ani żadnych natywnych zależności.
Biblioteka jest udostępniona na licencji MIT i jest dostępna w PyPI. Zainstaluj ją za pomocą:
pip install aspose-words-foss>=26.4.0
Aspose.Words FOSS wymaga Pythona 3.10 lub nowszego i zależy od trzech czystych pakietów Pythona (olefile, fpdf2, pydantic), instalowanych automatycznie przez pip.
Kluczowe funkcje
Ładowanie i konwersja dokumentu
Klasa Document jest głównym punktem wejścia. Załaduj plik w dowolnym obsługiwanym formacie wejściowym i wywołaj save(), aby przekonwertować go na inny format wyjściowy.
import aspose.words_foss as aw
doc = aw.Document("input.docx") # or .doc, .rtf, .txt, .md
doc.save("output.md", aw.SaveFormat.MARKDOWN)
Eksport PDF
Eksportuj dokumenty Word do PDF przy użyciu SaveFormat.PDF dla ustawień domyślnych lub PdfSaveOptions dla precyzyjnej kontroli.
import aspose.words_foss as aw
doc = aw.Document("input.docx")
doc.save("output.pdf", aw.SaveFormat.PDF)
Eksport Markdown z opcjami zapisu
Użyj MarkdownSaveOptions i PdfSaveOptions do precyzyjnej kontroli formatowania wyjścia.
import aspose.words_foss as aw
from aspose.words_foss.saving import MarkdownSaveOptions, PdfSaveOptions
doc = aw.Document("input.docx")
md_opts = MarkdownSaveOptions()
doc.save("output.md", md_opts)
pdf_opts = PdfSaveOptions()
doc.save("output.pdf", pdf_opts)
Ekstrakcja tekstu
Wyodrębnij zwykły tekst z dowolnego obsługiwanego formatu dokumentu przy użyciu Document.get_text().
import aspose.words_foss as aw
doc = aw.Document("input.docx")
text = doc.get_text()
Parsowanie struktury dokumentu
Specjalistyczne parsery wyodrębniają strukturalne dane z wewnętrznych elementów DOCX. NumberingParser odczytuje definicje numeracji list i StyleParser parsuje nazwy stylów do strukturalnych obiektów.
Obsługa wejścia wieloformatowego
Wczytaj dokumenty z pięciu formatów wejściowych — DOCX, DOC, RTF, TXT i Markdown — używając tego samego Document konstruktora. Enum LoadFormat udostępnia stałe do jawnego wyboru formatu (LoadFormat.DOCX, LoadFormat.DOC, LoadFormat.RTF, LoadFormat.TEXT, LoadFormat.MARKDOWN).
Szybki start
Zainstaluj pakiet i przekonwertuj plik DOCX na wszystkie trzy formaty wyjściowe:
pip install aspose-words-foss>=26.4.0
import aspose.words_foss as aw
# Load a Word document
doc = aw.Document("report.docx")
# Export to Markdown
doc.save("report.md", aw.SaveFormat.MARKDOWN)
# Export to PDF
doc.save("report.pdf", aw.SaveFormat.PDF)
# Export to plain text
doc.save("report.txt", aw.SaveFormat.TEXT)
# Extract text directly
text = doc.get_text()
print(f"Extracted {len(text)} characters")
Obsługiwane formaty
| Format | Rozszerzenie | Odczyt | Zapis |
|---|---|---|---|
| DOCX | .docx | ✓ | — |
| DOC | .doc | ✓ | — |
| RTF | .rtf | ✓ | — |
| TXT | .txt | ✓ | — |
| Markdown | .md | ✓ | ✓ |
| — | ✓ |
Open Source i licencjonowanie
Aspose.Words FOSS for Python jest udostępniony na licencji MIT. Możesz go używać swobodnie w projektach osobistych, wewnętrznych i komercyjnych bez opłat licencyjnych. Pełny kod źródłowy jest dostępny na GitHub w organizacji Aspose Words FOSS.