Giới thiệu

Aspose.Words FOSS là một thư viện Python mã nguồn mở để làm việc với tài liệu Word. Nó đọc các tệp DOCX, DOC, RTF, TXT và Markdown, và có thể xuất chúng ra PDF, Markdown hoặc văn bản thuần — tất cả mà không cần Microsoft Word hay bất kỳ phụ thuộc gốc nào.

Thư viện được phát hành dưới giấy phép MIT và có sẵn trên PyPI. Cài đặt nó bằng:

pip install aspose-words-foss>=26.4.0

Aspose.Words FOSS yêu cầu Python 3.10 trở lên và phụ thuộc vào ba gói pure-Python (olefile, fpdf2, pydantic), được cài đặt tự động bằng pip.


Tính năng chính

Tải tài liệu và chuyển đổi

Lớp Document là điểm vào chính. Tải một tệp trong bất kỳ định dạng đầu vào nào được hỗ trợ và gọi save() để chuyển đổi nó sang định dạng đầu ra khác.

import aspose.words_foss as aw

doc = aw.Document("input.docx")  # or .doc, .rtf, .txt, .md
doc.save("output.md", aw.SaveFormat.MARKDOWN)

Xuất PDF

Xuất tài liệu Word sang PDF bằng cách sử dụng SaveFormat.PDF cho cài đặt mặc định hoặc PdfSaveOptions để kiểm soát chi tiết.

import aspose.words_foss as aw

doc = aw.Document("input.docx")
doc.save("output.pdf", aw.SaveFormat.PDF)

Xuất Markdown với các tùy chọn lưu

Sử dụng MarkdownSaveOptionsPdfSaveOptions để kiểm soát chi tiết định dạng đầu ra.

import aspose.words_foss as aw
from aspose.words_foss.saving import MarkdownSaveOptions, PdfSaveOptions

doc = aw.Document("input.docx")

md_opts = MarkdownSaveOptions()
doc.save("output.md", md_opts)

pdf_opts = PdfSaveOptions()
doc.save("output.pdf", pdf_opts)

Trích xuất văn bản

Trích xuất văn bản thuần từ bất kỳ định dạng tài liệu nào được hỗ trợ bằng cách sử dụng Document.get_text().

import aspose.words_foss as aw

doc = aw.Document("input.docx")
text = doc.get_text()

Phân tích cấu trúc tài liệu

Các bộ phân tích chuyên dụng trích xuất dữ liệu có cấu trúc từ nội bộ DOCX. NumberingParser đọc các định nghĩa đánh số danh sách và StyleParser phân tích tên kiểu thành các đối tượng có cấu trúc.

Hỗ trợ đầu vào đa định dạng

Tải tài liệu từ năm định dạng đầu vào — DOCX, DOC, RTF, TXT và Markdown — bằng cách sử dụng cùng một Document constructor. Enum LoadFormat cung cấp các hằng số để chọn định dạng một cách rõ ràng (LoadFormat.DOCX, LoadFormat.DOC, LoadFormat.RTF, LoadFormat.TEXT, LoadFormat.MARKDOWN).


Bắt đầu nhanh

Cài đặt gói và chuyển đổi tệp DOCX sang cả ba định dạng đầu ra:

pip install aspose-words-foss>=26.4.0
import aspose.words_foss as aw

# Load a Word document
doc = aw.Document("report.docx")

# Export to Markdown
doc.save("report.md", aw.SaveFormat.MARKDOWN)

# Export to PDF
doc.save("report.pdf", aw.SaveFormat.PDF)

# Export to plain text
doc.save("report.txt", aw.SaveFormat.TEXT)

# Extract text directly
text = doc.get_text()
print(f"Extracted {len(text)} characters")

Định dạng được hỗ trợ

Định dạngPhần mở rộngĐọcGhi
DOCX.docx
DOC.doc
RTF.rtf
TXT.txt
Markdown.md
PDF.pdf

Mã nguồn mở & Cấp phép

Aspose.Words FOSS cho Python được phát hành dưới giấy phép MIT. Bạn có thể sử dụng nó tự do trong các dự án cá nhân, nội bộ và thương mại mà không cần trả phí giấy phép. Mã nguồn đầy đủ có sẵn trên GitHub tại tổ chức Aspose Words FOSS.


Bắt đầu