← Tất cả công cụ

Word (DOCX) sang Markdown Online Miễn Phí

Chuyển file Microsoft Word .docx sang Markdown chuẩn để feed vào ChatGPT, Claude, Gemini. Giữ heading, danh sách, in đậm, link. 100% trên trình duyệt qua Mammoth.js.

Mammoth.jsHeading 1-6Bold/ItalicListsTablesLinks
📄

Kéo thả file vào đây hoặc

.docx (Office 2007+)

Lợi ích

📄
Giữ cấu trúc Word

Heading 1-6, paragraph, bullet/numbered list, bold, italic, link, ảnh inline đều được map sang Markdown chuẩn.

💰
Tiết kiệm token AI

DOCX nén bên trong là XML rất verbose. Markdown gọn hơn 5-10× — feed report 50 trang Word vào Claude tiết kiệm $0.5+.

🔒
File ở lại máy bạn

Mammoth.js chạy 100% trong trình duyệt. Không có server, không log, không lưu trữ.

Cách dùng

  1. 1Drop file .docx hoặc click chọn từ máy.
  2. 2Mammoth.js parse OOXML và convert sang Markdown trong vài giây.
  3. 3Xem kết quả + token estimate cho 4 model AI.
  4. 4Copy hoặc tải .md, hoặc click 'Open in ChatGPT' để auto paste.

DOCX to Markdown là gì?

DOCX (Office Open XML) là format file của Microsoft Word từ 2007 — thực chất là 1 ZIP chứa nhiều file XML mô tả nội dung, style, image. File DOCX 1MB có thể chứa text plain chỉ ~50KB nhưng phần XML overhead chiếm tới 95%. Khi feed thẳng nội dung Word vào ChatGPT (kéo file hoặc copy-paste), AI vẫn đọc được nhưng cấu trúc thường lệch và tốn nhiều token cho XML tag.

Tool này dùng Mammoth.js — thư viện DOCX → HTML/Markdown 5k stars GitHub, hoạt động offline. Mammoth phân tích OOXML, nhận diện style (Heading 1-6, Quote, Code), mapping sang HTML/MD tương ứng. Giữ được cấu trúc gốc của tài liệu Word khi AI đọc.

Phù hợp cho: sinh viên feed luận văn vào Claude để hỏi; nhân viên văn phòng convert hợp đồng/báo cáo Word sang format AI-friendly; dev migrate document hệ thống cũ sang knowledge base Markdown (Notion, Obsidian, GitBook).

  • Heading 1-6 từ Word style → # ## ### ... ###### Markdown
  • Bullet và numbered list (multi-level) → - và 1.
  • Bold, italic, underline → **bold** *italic* (underline thành italic do Markdown không có)
  • Hyperlink → [text](url) chuẩn
  • Bảng đơn giản → GFM table
  • Image inline → ![alt](base64-data) — có thể loại bỏ qua option để gọn hơn

Khi nào cần dùng?

Feed báo cáo Word vào Claude

Convert report tháng/quý sang Markdown rồi paste vào Claude để hỏi/tóm tắt — tiết kiệm 80% token.

Convert luận văn cho AI

Sinh viên có luận văn 50-100 trang Word, convert sang MD để feed Claude xin tóm tắt từng chương.

Migrate document sang Notion

Notion paste-as-markdown nhận đúng cấu trúc — tốt hơn import .docx trực tiếp (thường mất format).

Build knowledge base

Chuyển hàng loạt SOP/policy của công ty từ Word sang MD để dùng trong Confluence, GitBook, hoặc RAG.

Học liệu cho AI tutor

Convert tài liệu giảng dạy Word sang MD, feed Claude để tạo bài tập hoặc giải thích cho học sinh.

Công nghệ đằng sau

Mammoth.js đọc OOXML từng node, dùng style mapping để nhận diện 'Heading 1' (Word style) → '# ' (Markdown), 'Heading 2' → '## ', v.v. Style mapping mặc định bao quát các style chuẩn của Word; nếu document custom style thì có thể cần custom mapping (chưa expose trong UI hiện tại).

Bảng được convert sang HTML <table> → sau đó qua Turndown thành GFM table. Lưu ý: bảng phức tạp với merged cells (rowspan/colspan) bị degrade về flat table trong Markdown — đây là giới hạn của format MD chứ không phải bug.

Image trong DOCX được trích xuất thành base64 data URL, embed inline vào Markdown. Với document nhiều ảnh, Markdown size có thể lớn hơn DOCX gốc — bạn có thể bật option 'Strip images' để loại bỏ ảnh nếu chỉ cần text cho AI.

Câu hỏi về DOCX → Markdown

DOC (file Word cũ) có hỗ trợ không?

Không trong free tier. .doc legacy (Word 97-2003) cần LibreOffice để parse — sẽ thêm trong Phase 2 paid. Hiện chỉ hỗ trợ .docx (Office 2007+).

Comment, track changes, footnote thế nào?

Comment và track changes bị bỏ qua (chỉ giữ text final). Footnote được giữ ở cuối document dưới dạng list.

Hình trong file Word có giữ được không?

Có — convert sang base64 data URL inline. Có thể tăng size Markdown đáng kể với document nhiều ảnh. Có option để bỏ ảnh chỉ giữ text.

Equation toán học (Microsoft Equation) thế nào?

Hiện tại chỉ giữ text representation, không phải LaTeX. Để giữ math chuẩn $...$, cần engine như Pandoc — sẽ thêm trong Phase 2.

Tôi có thể edit Markdown trước khi copy không?

Có. Output hiển thị trong textarea — bạn sửa trực tiếp trước khi copy hoặc download.