مقدمه
Aspose.Words FOSS یک کتابخانه متنباز پایتون برای کار با اسناد Word است. این کتابخانه فایلهای DOCX، DOC، RTF، TXT و Markdown را میخواند و میتواند آنها را به PDF، Markdown یا متن ساده صادر کند — همه اینها بدون نیاز به Microsoft Word یا هرگونه وابستگی بومی.
کتابخانه تحت مجوز MIT منتشر شده است و در PyPI موجود است. آن را با استفاده از دستور زیر نصب کنید:
pip install aspose-words-foss>=26.4.0
Aspose.Words FOSS به Python 3.10 یا بالاتر نیاز دارد و به سه بستهٔ خالص‑پایتون (olefile، fpdf2، pydantic) وابسته است که بهصورت خودکار توسط pip نصب میشوند.
ویژگیهای کلیدی
بارگذاری و تبدیل سند
کلاس Document نقطه ورودی اصلی است. فایلی را در هر قالب ورودی پشتیبانیشده بارگذاری کنید و برای تبدیل آن به قالب خروجی متفاوت، save() را فراخوانی کنید.
import aspose.words_foss as aw
doc = aw.Document("input.docx") # or .doc, .rtf, .txt, .md
doc.save("output.md", aw.SaveFormat.MARKDOWN)
صادرات PDF
سندهای Word را به PDF صادر کنید با استفاده از SaveFormat.PDF برای تنظیمات پیشفرض یا PdfSaveOptions برای کنترل دقیق.
import aspose.words_foss as aw
doc = aw.Document("input.docx")
doc.save("output.pdf", aw.SaveFormat.PDF)
صادرات Markdown با گزینههای ذخیره
از MarkdownSaveOptions و PdfSaveOptions برای کنترل دقیق بر قالببندی خروجی استفاده کنید.
import aspose.words_foss as aw
from aspose.words_foss.saving import MarkdownSaveOptions, PdfSaveOptions
doc = aw.Document("input.docx")
md_opts = MarkdownSaveOptions()
doc.save("output.md", md_opts)
pdf_opts = PdfSaveOptions()
doc.save("output.pdf", pdf_opts)
استخراج متن
متن ساده را از هر قالب سند پشتیبانیشده با استفاده از Document.get_text() استخراج کنید.
import aspose.words_foss as aw
doc = aw.Document("input.docx")
text = doc.get_text()
تحلیل ساختار سند
پارسرهای تخصصی دادههای ساختاریافته را از داخلیهای DOCX استخراج میکنند. NumberingParser تعاریف شمارهگذاری فهرست را میخواند و StyleParser نامهای سبک را به اشیاء ساختاریافته تجزیه میکند.
پشتیبانی از ورودی چند فرمت
اسناد را از پنج فرمت ورودی — DOCX، DOC، RTF، TXT و Markdown — با استفاده از همان سازنده Document بارگذاری کنید. شمارنده LoadFormat ثابتهایی برای انتخاب صریح فرمت فراهم میکند (LoadFormat.DOCX، LoadFormat.DOC، LoadFormat.RTF، LoadFormat.TEXT، LoadFormat.MARKDOWN).
شروع سریع
پکیج را نصب کنید و یک فایل DOCX را به هر سه فرمت خروجی تبدیل کنید:
pip install aspose-words-foss>=26.4.0
import aspose.words_foss as aw
# Load a Word document
doc = aw.Document("report.docx")
# Export to Markdown
doc.save("report.md", aw.SaveFormat.MARKDOWN)
# Export to PDF
doc.save("report.pdf", aw.SaveFormat.PDF)
# Export to plain text
doc.save("report.txt", aw.SaveFormat.TEXT)
# Extract text directly
text = doc.get_text()
print(f"Extracted {len(text)} characters")
فرمتهای پشتیبانیشده
| قالب | پسوند | خواندن | نوشتن |
|---|---|---|---|
| DOCX | .docx | ✓ | — |
| DOC | .doc | ✓ | — |
| RTF | .rtf | ✓ | — |
| TXT | .txt | ✓ | — |
| Markdown | .md | ✓ | ✓ |
| — | ✓ |
منبع باز و مجوزها
Aspose.Words FOSS برای Python تحت مجوز MIT منتشر شده است. میتوانید آن را بهصورت رایگان در پروژههای شخصی، داخلی و تجاری بدون هزینهٔ مجوز استفاده کنید. کد منبع کامل در گیتهاب در سازمان Aspose Words FOSS در دسترس است.