Въведение
Aspose.Words FOSS е отворена библиотека за Python за работа с Word документи. Тя чете файлове DOCX, DOC, RTF, TXT и Markdown и може да ги експортира в PDF, Markdown или обикновен текст — всичко без да изисква Microsoft Word или каквито и да е нативни зависимости.
Библиотеката е публикувана под лиценз MIT и е достъпна в PyPI. Инсталирайте я с:
pip install aspose-words-foss>=26.4.0
Aspose.Words FOSS изисква Python 3.10 или по‑нова версия и зависи от три чисто‑Python пакета (olefile, fpdf2, pydantic), инсталирани автоматично чрез pip.
Ключови функции
Зареждане и конвертиране на документи
Класът Document е основната входна точка. Заредете файл във всеки поддържан входен формат и извикайте save(), за да го конвертирате в различен изходен формат.
import aspose.words_foss as aw
doc = aw.Document("input.docx") # or .doc, .rtf, .txt, .md
doc.save("output.md", aw.SaveFormat.MARKDOWN)
PDF експортиране
Експортирайте Word документи в PDF, като използвате SaveFormat.PDF за настройки по подразбиране или PdfSaveOptions за детайлен контрол.
import aspose.words_foss as aw
doc = aw.Document("input.docx")
doc.save("output.pdf", aw.SaveFormat.PDF)
Експорт в Markdown с опции за запазване
Използвайте MarkdownSaveOptions и PdfSaveOptions за фино управление на форматирането на изхода.
import aspose.words_foss as aw
from aspose.words_foss.saving import MarkdownSaveOptions, PdfSaveOptions
doc = aw.Document("input.docx")
md_opts = MarkdownSaveOptions()
doc.save("output.md", md_opts)
pdf_opts = PdfSaveOptions()
doc.save("output.pdf", pdf_opts)
Извличане на текст
Извлечете чист текст от всеки поддържан формат на документ, използвайки Document.get_text().
import aspose.words_foss as aw
doc = aw.Document("input.docx")
text = doc.get_text()
Разбор на структурата на документа
Специализираните парсери извличат структурирани данни от вътрешните части на DOCX. NumberingParser чете дефинициите за номериране на списъци и StyleParser анализира имената на стиловете в структурирани обекти.
Поддръжка на вход в множество формати
Заредете документи от пет входни формата — DOCX, DOC, RTF, TXT и Markdown — като използвате същия Document конструктор. LoadFormat enum предоставя константи за явен избор на формат (LoadFormat.DOCX, LoadFormat.DOC, LoadFormat.RTF, LoadFormat.TEXT, LoadFormat.MARKDOWN).
Бърз старт
Инсталирайте пакета и конвертирайте DOCX файл във всички три изходни формати:
pip install aspose-words-foss>=26.4.0
import aspose.words_foss as aw
# Load a Word document
doc = aw.Document("report.docx")
# Export to Markdown
doc.save("report.md", aw.SaveFormat.MARKDOWN)
# Export to PDF
doc.save("report.pdf", aw.SaveFormat.PDF)
# Export to plain text
doc.save("report.txt", aw.SaveFormat.TEXT)
# Extract text directly
text = doc.get_text()
print(f"Extracted {len(text)} characters")
Поддържани формати
| Формат | Разширение | Четене | Запис |
|---|---|---|---|
| DOCX | .docx | ✓ | — |
| DOC | .doc | ✓ | — |
| RTF | .rtf | ✓ | — |
| TXT | .txt | ✓ | — |
| Markdown | .md | ✓ | ✓ |
| — | ✓ |
Отворен код и лицензиране
Aspose.Words FOSS for Python е публикуван под MIT лиценз. Можете да го използвате свободно в лични, вътрешни и търговски проекти без лицензионни такси. Пълният изходен код е достъпен в GitHub в организацията Aspose Words FOSS.