소개
Aspose.Words FOSS는 워드 문서를 다루기 위한 오픈소스 파이썬 라이브러리입니다. DOCX, DOC, RTF, TXT 및 Markdown 파일을 읽을 수 있으며, 이를 PDF, Markdown 또는 일반 텍스트로 내보낼 수 있습니다 — 모두 Microsoft Word나 어떤 네이티브 종속성도 필요하지 않습니다.
이 라이브러리는 MIT 라이선스로 배포되며 PyPI에서 사용할 수 있습니다. 다음과 같이 설치하십시오:
pip install aspose-words-foss>=26.4.0
Aspose.Words FOSS는 Python 3.10 이상이 필요하며 세 개의 순수‑Python 패키지(olefile, fpdf2, pydantic)에 의존하고, pip에 의해 자동으로 설치됩니다.
주요 기능
문서 로드 및 변환
Document 클래스는 기본 진입점입니다. 지원되는 모든 입력 형식으로 파일을 로드하고 save()을 호출하여 다른 출력 형식으로 변환합니다.
import aspose.words_foss as aw
doc = aw.Document("input.docx") # or .doc, .rtf, .txt, .md
doc.save("output.md", aw.SaveFormat.MARKDOWN)
PDF 내보내기
기본 설정을 위해 SaveFormat.PDF를 사용하거나 세밀한 제어를 위해 PdfSaveOptions를 사용하여 Word 문서를 PDF로 내보냅니다.
import aspose.words_foss as aw
doc = aw.Document("input.docx")
doc.save("output.pdf", aw.SaveFormat.PDF)
저장 옵션이 있는 Markdown 내보내기
세밀한 출력 형식 제어를 위해 MarkdownSaveOptions와 PdfSaveOptions를 사용하십시오.
import aspose.words_foss as aw
from aspose.words_foss.saving import MarkdownSaveOptions, PdfSaveOptions
doc = aw.Document("input.docx")
md_opts = MarkdownSaveOptions()
doc.save("output.md", md_opts)
pdf_opts = PdfSaveOptions()
doc.save("output.pdf", pdf_opts)
텍스트 추출
Document.get_text()을 사용하여 지원되는 모든 문서 형식에서 일반 텍스트를 추출합니다.
import aspose.words_foss as aw
doc = aw.Document("input.docx")
text = doc.get_text()
문서 구조 구문 분석
전문화된 파서가 DOCX 내부에서 구조화된 데이터를 추출합니다. NumberingParser은 목록 번호 정의를 읽고 StyleParser은 스타일 이름을 구조화된 객체로 구문 분석합니다.
다중 형식 입력 지원
DOCX, DOC, RTF, TXT 및 Markdown의 다섯 가지 입력 형식에서 문서를 로드하려면 동일한 Document 생성자를 사용합니다. LoadFormat 열거형은 명시적 형식 선택을 위한 상수(LoadFormat.DOCX, LoadFormat.DOC, LoadFormat.RTF, LoadFormat.TEXT, LoadFormat.MARKDOWN)를 제공합니다.
빠른 시작
패키지를 설치하고 DOCX 파일을 세 가지 출력 형식 모두로 변환합니다:
pip install aspose-words-foss>=26.4.0
import aspose.words_foss as aw
# Load a Word document
doc = aw.Document("report.docx")
# Export to Markdown
doc.save("report.md", aw.SaveFormat.MARKDOWN)
# Export to PDF
doc.save("report.pdf", aw.SaveFormat.PDF)
# Export to plain text
doc.save("report.txt", aw.SaveFormat.TEXT)
# Extract text directly
text = doc.get_text()
print(f"Extracted {len(text)} characters")
지원되는 형식
| 형식 | 확장자 | 읽기 | 쓰기 |
|---|---|---|---|
| DOCX | .docx | ✓ | — |
| DOC | .doc | ✓ | — |
| RTF | .rtf | ✓ | — |
| TXT | .txt | ✓ | — |
| Markdown | .md | ✓ | ✓ |
| — | ✓ |
오픈 소스 및 라이선스
Aspose.Words FOSS for Python은 MIT 라이선스 하에 배포됩니다. 개인, 내부 및 상업 프로젝트에서 라이선스 비용 없이 자유롭게 사용할 수 있습니다. 전체 소스 코드는 Aspose Words FOSS 조직의 GitHub에서 확인할 수 있습니다.