EPUB sang Markdown — Chuyển Sách Điện Tử cho AI

Trích xuất từng chương sách EPUB sang Markdown. Lý tưởng để feed sách giáo trình, ebook tự học vào ChatGPT/Claude xin tóm tắt, giải thích, hỏi đáp.

EPUB 2/3Per-chapterTOCZIP exportReader mode

📚

Kéo thả file vào đây hoặc chọn file

.epub (EPUB 2.0 / 3.0, no DRM)

Lợi ích

📚

Chia theo chapter

Mỗi chương thành 1 file Markdown riêng — feed từng chương vào AI để giảm tải context window.

📑

Giữ TOC

Table of Contents (mục lục) được preserve làm heading hierarchy. AI hiểu cấu trúc sách.

📦

Export ZIP

Tải tất cả chương dưới dạng 1 file ZIP. Hoặc download single MD merged từ tất cả chương.

Cách dùng

1Drop file .epub vào dropzone.
2Tool extract OPF/HTML từ ZIP, parse từng chapter.
3Xem danh sách chapters + token count cho mỗi chapter.
4Click chapter để preview, hoặc tải ZIP all chapters.

EPUB to Markdown là gì?

EPUB là format ebook chuẩn (sau Kindle MOBI/AZW), thực chất là 1 ZIP chứa nhiều file XHTML và CSS. Ưu điểm là open standard, hỗ trợ rộng (Apple Books, Calibre, Adobe Editions, Kindle Cloud Reader). Khi AI users muốn feed cả sách vào ChatGPT/Claude để học, sách EPUB cần được chuyển sang text trước.

Tool này extract ZIP, parse OPF (Open Packaging Format) để lấy thứ tự chương, mỗi XHTML chapter convert sang Markdown qua Turndown. Giữ heading hierarchy của sách (Part > Chapter > Section), navigation links thành internal anchor.

Phù hợp cho: sinh viên feed giáo trình EPUB vào Claude xin tóm tắt; người tự học IT/business feed sách kỹ thuật xin giải thích chương khó; researcher xử lý non-fiction để extract key insights.

✓Hỗ trợ EPUB 2.0 và EPUB 3.0
✓Parse OPF spine để giữ thứ tự chapter chuẩn
✓Table of Contents → heading hierarchy MD
✓Image trong sách extract sang base64 (option để skip)
✓Footnote và endnote đính kèm cuối chapter
✓Export single MD merged hoặc ZIP per-chapter
✓Token count tổng + per-chapter để chia feed cho AI hợp lý

Khi nào cần dùng?

Feed sách giáo trình

EPUB textbook đại học → MD → feed Claude xin tóm tắt từng chương để ôn thi.

Sách kỹ thuật IT

EPUB của O'Reilly, Manning → MD → ChatGPT giải thích code example hoặc concept khó.

Self-help / business book

Sách self-improvement → MD → AI extract action items hoặc principle chính.

Tiểu thuyết phân tích

Văn học (public domain EPUB) → MD → AI phân tích nhân vật, cốt truyện, theme.

Document review

Sách thuê bao Scribd, Kindle Cloud → export EPUB → MD → AI tóm tắt nhanh trước khi đọc full.

Công nghệ đằng sau

EPUB là ZIP chứa container.xml chỉ ra OPF file, OPF chỉ ra spine (thứ tự đọc) và manifest (tất cả file). Tool extract qua jszip, đọc OPF để biết thứ tự, lấy XHTML từng item theo spine, render qua Turndown.

TOC từ NCX (EPUB 2) hoặc nav.xhtml (EPUB 3) được parse để gắn level cho heading. Một chapter có thể có nested section — chúng tôi maintain hierarchy này trong Markdown output (## Chapter 1 → ### Section 1.1 → #### Subsection 1.1.1).

DRM (Digital Rights Management): tool không bypass DRM. Nếu file EPUB có DRM (mua từ Kindle/Kobo), bạn cần remove DRM bằng Calibre + plugin trước. Sách public domain (Project Gutenberg, Standard Ebooks) hoặc tự generate thì xài thoải mái.

Câu hỏi về EPUB → Markdown

Sách Kindle (.azw, .mobi) có hỗ trợ không?

Không trong free tier. AZW/MOBI cần Calibre để convert sang EPUB trước. Phase 2 sẽ thêm AZW3 support qua server worker.

DRM-protected EPUB xử lý ra sao?

Không bypass. Tool sẽ báo lỗi parsing. Bạn cần remove DRM bằng Calibre plugin (DeDRM) hoặc dùng EPUB không DRM (public domain, Standard Ebooks).

Sách rất lớn (500+ trang) browser xử lý nổi không?

Trình duyệt OK với sách tới ~5MB EPUB. Lớn hơn có thể chậm. Token count toàn sách cũng giúp bạn quyết định feed AI từng chương hay nguyên book.

Cover image và artwork có giữ được không?

Có — convert sang base64 inline. Option 'Strip images' để bỏ ảnh nếu chỉ cần text cho AI.

Tôi có thể chỉ extract 1 chapter cụ thể không?

Có. Sau khi parse, hiển thị danh sách chapter — click chọn chapter để preview/download riêng từng cái.