← Tất cả công cụ

HTML sang Markdown Online Miễn Phí

Dán HTML từ webpage, blog, document — nhận Markdown sạch để feed vào ChatGPT/Claude/Gemini. Đếm token chính xác, mở thẳng vào AI chat.

Turndown engineGFM tablesCode blocksToken counterPrivacy 100%
Powered by Jina Reader

Lợi ích

🧹
Loại bỏ rác HTML

Tự động strip <script>, <style>, comment, attribute thừa. Chỉ giữ nội dung text + cấu trúc semantic.

📊
Tiết kiệm 70-80% token

HTML có nhiều tag dư thừa. Markdown gọn hơn nhiều — feed cùng nội dung vào AI mà tốn ít hơn rất nhiều.

Hỗ trợ GFM đầy đủ

Bảng GitHub-flavored, strikethrough, task list, code fences. Phù hợp dán vào Claude, Notion, GitHub.

Cách dùng

  1. 1Mở webpage muốn convert, copy HTML (View Source hoặc Inspect → Copy outerHTML).
  2. 2Dán HTML vào ô input của tool. Có thể paste cả full <html> hoặc đoạn nhỏ.
  3. 3Markdown hiện ngay bên dưới. Xem token count cho từng AI model.
  4. 4Click 'Open in ChatGPT/Claude' để auto copy + mở chat, hoặc tải file .md.

HTML to Markdown là gì?

HTML to Markdown là chuyển code HTML (full document hoặc đoạn nhỏ) thành Markdown — định dạng text plain với cú pháp gọn nhẹ. HTML dùng nhiều tag (<div>, <span>, attribute class/id/style...) khiến file lớn; Markdown chỉ dùng ký tự đặc biệt (#, *, -, []) để biểu thị cấu trúc nên gọn hơn nhiều.

Engine chúng tôi dùng là Turndown — thư viện JavaScript phổ biến nhất cho HTML→MD, trên 9k stars GitHub. Turndown phân tích DOM, nhận biết heading/list/link/table/code block và chuyển sang cú pháp Markdown tương ứng. Toàn bộ chạy trong trình duyệt qua WebAssembly, file của bạn không bao giờ rời máy.

Phù hợp cho dev cần feed README/blog post vào Claude để hỏi/refactor; content creator cần làm sạch HTML từ Word/Google Docs trước khi đăng blog; AI engineer làm RAG cần chunk web content thành Markdown trước khi embed vào vector DB.

  • Hỗ trợ đầy đủ tag HTML5: heading, paragraph, list, table, link, image, code, blockquote, hr
  • GitHub Flavored Markdown — bảng, strikethrough, task list, fenced code blocks
  • Tự loại bỏ <script>, <style>, comment, ad-related divs
  • Đếm token chính xác cho GPT-4o, ước tính cho Claude và Gemini
  • Mở thẳng kết quả trong ChatGPT/Claude/Gemini với 1 click
  • Hoạt động offline sau lần load đầu — file không rời trình duyệt

Khi nào cần dùng?

Feed blog post vào AI

Copy bài blog từ Medium/Substack/WordPress, convert sang Markdown, paste vào Claude để tóm tắt hoặc refactor.

Lọc nội dung trước khi RAG

Build vector DB từ web pages — chunk Markdown sạch luôn cho embedding tốt hơn HTML thô.

Convert email HTML

Email HTML có nhiều inline style và table layout. Convert sang Markdown giúp AI hiểu nội dung dễ hơn.

Migrate website sang static site

Lấy bài từ WordPress/Drupal sang Markdown để dùng cho Hugo, Jekyll, Astro, Next.js content.

Làm document AI training

Fine-tune model với data text — Markdown cleaner hơn HTML cho training corpus.

Công nghệ đằng sau

Turndown là thư viện HTML→MD phổ biến nhất trong hệ sinh thái JavaScript, 9k+ stars trên GitHub, được dùng bởi Notion, Obsidian, Bear và nhiều editor lớn. Nó parse HTML thành DOM bằng JSDOM (server) hoặc native DOMParser (browser), rồi traverse cây node và áp dụng rule mapping cho từng tag → cú pháp Markdown.

Chúng tôi cấu hình Turndown với plugin GFM (GitHub Flavored Markdown) để hỗ trợ table, strikethrough và task list — quan trọng vì Claude/ChatGPT đều render GFM. Headings dùng ATX style (# H1), code blocks dùng fenced (```) thay vì indented, list dùng dấu - đồng nhất.

Token counting dùng `gpt-tokenizer` — port JS thuần của tiktoken (BPE encoder của OpenAI), 100% chính xác cho GPT-4o và GPT-4. Cho Claude/Gemini, chúng tôi nhân hệ số xấp xỉ (1.05 cho Claude, 0.95 cho Gemini) — sai số dưới 5% với text tiếng Anh, hơi cao hơn với tiếng Việt do nhiều ký tự multi-byte.

Câu hỏi về HTML → Markdown

Có giới hạn kích thước HTML không?

Tối đa 10MB HTML mỗi lần. Đủ cho hầu hết blog post, document, email. File lớn hơn nên cắt ra nhiều đoạn.

Image trong HTML xử lý sao?

Chuyển sang cú pháp Markdown ![alt](url). URL giữ nguyên — bạn cần đảm bảo URL công khai để AI download được khi cần.

Có loại bỏ ad và tracking script không?

Có. <script>, <iframe>, <noscript>, comment HTML đều bị loại bỏ. Class quảng cáo phổ biến (ads, banner, promo) cũng được filter.

Có hỗ trợ inline HTML trong Markdown output không?

Mặc định Turndown giữ inline HTML cho tag không có Markdown equivalent (như <video>, <audio>, <iframe> nếu giữ). Bạn có thể bật option 'Strict Markdown' để bỏ hết.

Token counter có tính chính xác cho tiếng Việt không?

GPT-4o và GPT-4: chính xác 100%. Tiếng Việt có dấu thường tốn 1.5-2× token so với tiếng Anh cùng độ dài, do encoding UTF-8 multi-byte. Counter tính đúng giá trị thực tế.