Вступ
Aspose.Words FOSS — це бібліотека Python з відкритим кодом для роботи з документами Word. Вона читає файли DOCX, DOC, RTF, TXT та Markdown і може експортувати їх у PDF, Markdown або простий текст — все без потреби у Microsoft Word або будь‑яких нативних залежностей.
Бібліотека випущена під ліцензією MIT і доступна на PyPI. Встановіть її за допомогою:
pip install aspose-words-foss>=26.4.0
Aspose.Words FOSS вимагає Python 3.10 або новішу версію та залежить від трьох чистих Python‑пакетів (olefile, fpdf2, pydantic), які встановлюються автоматично за допомогою pip.
Ключові особливості
Завантаження та конвертація документів
Клас Document є основною точкою входу. Завантажте файл у будь‑якому підтримуваному вхідному форматі та викличте save(), щоб конвертувати його в інший вихідний формат.
import aspose.words_foss as aw
doc = aw.Document("input.docx") # or .doc, .rtf, .txt, .md
doc.save("output.md", aw.SaveFormat.MARKDOWN)
Експорт PDF
Експортуйте документи Word у PDF, використовуючи SaveFormat.PDF для налаштувань за замовчуванням або PdfSaveOptions для детального керування.
import aspose.words_foss as aw
doc = aw.Document("input.docx")
doc.save("output.pdf", aw.SaveFormat.PDF)
Експорт Markdown з параметрами збереження
Використовуйте MarkdownSaveOptions та PdfSaveOptions для детального керування форматуванням виводу.
import aspose.words_foss as aw
from aspose.words_foss.saving import MarkdownSaveOptions, PdfSaveOptions
doc = aw.Document("input.docx")
md_opts = MarkdownSaveOptions()
doc.save("output.md", md_opts)
pdf_opts = PdfSaveOptions()
doc.save("output.pdf", pdf_opts)
Витяг тексту
Витягніть простий текст з будь‑якого підтримуваного формату документа за допомогою Document.get_text().
import aspose.words_foss as aw
doc = aw.Document("input.docx")
text = doc.get_text()
Парсинг структури документа
Спеціалізовані парсери витягують структуровані дані з внутрішньої структури DOCX. NumberingParser читає визначення нумерації списків, а StyleParser розбирає назви стилів у структуровані об’єкти.
Підтримка вводу у кількох форматах
Завантажуйте документи з п’яти вхідних форматів — DOCX, DOC, RTF, TXT та Markdown — використовуючи той самий Document конструктор. Перелічення LoadFormat надає константи для явного вибору формату (LoadFormat.DOCX, LoadFormat.DOC, LoadFormat.RTF, LoadFormat.TEXT, LoadFormat.MARKDOWN).
Швидкий старт
Встановіть пакет і конвертуйте файл DOCX у всі три формати виводу:
pip install aspose-words-foss>=26.4.0
import aspose.words_foss as aw
# Load a Word document
doc = aw.Document("report.docx")
# Export to Markdown
doc.save("report.md", aw.SaveFormat.MARKDOWN)
# Export to PDF
doc.save("report.pdf", aw.SaveFormat.PDF)
# Export to plain text
doc.save("report.txt", aw.SaveFormat.TEXT)
# Extract text directly
text = doc.get_text()
print(f"Extracted {len(text)} characters")
Підтримувані формати
| Формат | Розширення | Читання | Запис |
|---|---|---|---|
| DOCX | .docx | ✓ | — |
| DOC | .doc | ✓ | — |
| RTF | .rtf | ✓ | — |
| TXT | .txt | ✓ | — |
| Markdown | .md | ✓ | ✓ |
| — | ✓ |
Відкритий код та ліцензування
Aspose.Words FOSS for Python випущено під ліцензією MIT. Ви можете вільно використовувати його в особистих, внутрішніх та комерційних проектах без ліцензійних зборів. Повний вихідний код доступний на GitHub у організації Aspose Words FOSS.