AI & AUTOMATION

Heretic – Công cụ mã nguồn mở gỡ bỏ kiểm duyệt mô hình ngôn ngữ tự động hoàn toàn

05/03/202684 views0

Tóm tắt nhanh (Key Takeaways)

Heretic là công cụ Python mã nguồn mở do Philipp Emanuel Weidmann phát triển, cho phép gỡ bỏ safety alignment (kiểm duyệt) khỏi các mô hình ngôn ngữ transformer mà không cần fine-tuning hay huấn luyện lại. Kỹ thuật cốt lõi là directional ablation (abliteration), kết hợp với bộ tối ưu hóa tham số TPE chạy trên Optuna để tự động tìm cấu hình tối ưu.

Điểm nổi bật nhất: Heretic tạo ra mô hình đã gỡ kiểm duyệt với KL divergence thấp hơn đáng kể so với các abliteration thủ công tốt nhất hiện có, nghĩa là mô hình sau xử lý ít bị suy giảm năng lực hơn. Toàn bộ quá trình chạy hoàn toàn tự động, không yêu cầu kiến thức về kiến trúc transformer. Cài đặt chỉ với pip install heretic-llm.

Heretic là gì?

Heretic là một chương trình dòng lệnh mã nguồn mở, được phát triển và phát hành tại github.com/p-e-w/heretic, có nhiệm vụ loại bỏ cơ chế từ chối trả lời (thường được gọi là “safety alignment” hay “censorship”) khỏi các mô hình ngôn ngữ dựa trên kiến trúc transformer.

Hầu hết các mô hình ngôn ngữ lớn phổ biến hiện nay đều trải qua một giai đoạn huấn luyện bổ sung sau khi pre-training, gọi là RLHF (Reinforcement Learning from Human Feedback) hoặc các phương pháp tương tự, nhằm dạy mô hình từ chối một tập hợp các yêu cầu nhất định. Heretic giải quyết vấn đề này từ góc độ kỹ thuật: thay vì cố gắng “đánh lừa” mô hình thông qua các kỹ thuật prompt engineering, Heretic can thiệp trực tiếp vào trọng số của mô hình để loại bỏ chiều không gian embedding mã hóa hành vi từ chối.

Dự án được cấp phép theo AGPL-3.0 và đã được cộng đồng LocalLLaMA đón nhận tích cực, với hơn 1.000 mô hình được tạo ra bằng Heretic và đăng tải trên Hugging Face.

Tại sao Heretic không phải là jailbreak thông thường?

Sự khác biệt về tầng can thiệp

Jailbreak truyền thống hoạt động ở tầng ngôn ngữ: người dùng xây dựng các prompt đặc biệt để dẫn dắt mô hình vượt qua cơ chế lọc. Cách này có tỷ lệ thành công không ổn định và dễ bị vá bởi các phiên bản mô hình mới hơn.

Heretic can thiệp ở tầng tham số mô hình. Cụ thể, nó xác định “refusal direction”, tức là hướng trong không gian vector biểu diễn (residual stream) mà mô hình sử dụng để biểu đạt ý định từ chối. Sau đó, các ma trận trọng số của transformer (cụ thể là attention out-projection và MLP down-projection) được trực giao hóa theo hướng này, khiến mô hình không còn khả năng biểu đạt hành vi từ chối.

Tự động hóa hoàn toàn qua tối ưu hóa TPE

Các triển khai abliteration trước đây yêu cầu người dùng lựa chọn thủ công các tham số như: áp dụng ablation ở lớp nào, với cường độ bao nhiêu, sử dụng hướng refusal từ lớp nào. Heretic tự động hóa toàn bộ bước này bằng bộ tối ưu hóa TPE (Tree-structured Parzen Estimator) của thư viện Optuna.

Hàm mục tiêu của quá trình tối ưu hóa cùng lúc giảm thiểu hai đại lượng: số lượng phản hồi từ chối với các prompt “có hại” và KL divergence của mô hình đã sửa đổi so với mô hình gốc trên các prompt “vô hại”. Cân bằng này đảm bảo rằng năng lực ngôn ngữ của mô hình được bảo toàn tối đa.

Kết quả vượt trội so với abliteration thủ công

Bảng kết quả từ README của dự án, sử dụng google/gemma-3-12b-it làm ví dụ minh họa mức độ hiệu quả so sánh:

Mô hình	Từ chối (harmful prompts)	KL divergence (harmless prompts)
Mô hình gốc	97/100	0
mlabonne/gemma-3-12b-it-abliterated-v2	3/100	1.04
huihui-ai/gemma-3-12b-it-abliterated	3/100	0.45
p-e-w/gemma-3-12b-it-heretic	3/100	0.16

Cùng mức độ loại bỏ từ chối (3/100), nhưng KL divergence thấp hơn 3-7 lần so với các phiên bản abliteration thủ công, cho thấy mô hình Heretic ít bị tổn hại năng lực hơn đáng kể.

Yêu cầu hệ thống

Trước khi cài đặt, cần đảm bảo môi trường đáp ứng các yêu cầu sau:

Python 3.10 trở lên
PyTorch 2.2 trở lên, cài đặt phù hợp với phần cứng (CUDA cho GPU NVIDIA)
GPU với đủ VRAM để tải mô hình mục tiêu (hoặc dùng quantization nếu VRAM hạn chế)
Heretic hỗ trợ hầu hết các mô hình transformer dày đặc (dense) và nhiều kiến trúc MoE; hiện chưa hỗ trợ SSM/hybrid models và mô hình có inhomogeneous layers

Hướng dẫn cài đặt

Cài đặt gói cơ bản

pip install -U heretic-llm

Cài đặt với tính năng nghiên cứu (tùy chọn)

Nếu muốn sử dụng các tính năng phân tích và trực quan hóa residual vector phục vụ nghiên cứu về interpretability của mô hình:

pip install -U heretic-llm[research]

Hướng dẫn sử dụng

Gỡ kiểm duyệt một mô hình

Cú pháp cơ bản chỉ cần một lệnh duy nhất, trong đó tham số là tên mô hình trên Hugging Face:

heretic Qwen/Qwen3-4B-Instruct-2507

Thay Qwen/Qwen3-4B-Instruct-2507 bằng bất kỳ mô hình nào muốn xử lý. Heretic sẽ tự động tải mô hình về, benchmark hệ thống để xác định batch size tối ưu, chạy vòng lặp tối ưu hóa TPE và thông báo kết quả.

Trên RTX 3090 với cấu hình mặc định, quá trình xử lý Llama-3.1-8B-Instruct mất khoảng 45 phút.

Sử dụng quantization khi VRAM hạn chế

Heretic hỗ trợ quantization 4-bit thông qua thư viện bitsandbytes, giúp giảm đáng kể lượng VRAM cần thiết:

heretic Qwen/Qwen3-4B-Instruct-2507 --quantization bnb_4bit

Xem toàn bộ tùy chọn

heretic --help

Đánh giá mô hình đã xử lý

Heretic có tính năng đánh giá tích hợp để đo lường mức độ loại bỏ từ chối và KL divergence của một mô hình đã qua xử lý:

heretic --model google/gemma-3-12b-it --evaluate-model p-e-w/gemma-3-12b-it-heretic

Sau khi hoàn thành

Khi Heretic kết thúc quá trình tối ưu hóa, người dùng được cung cấp các lựa chọn:

Lưu mô hình đã gỡ kiểm duyệt xuống ổ cứng cục bộ
Upload lên Hugging Face (yêu cầu token xác thực)
Chat trực tiếp với mô hình để kiểm tra chất lượng
Kết hợp bất kỳ các lựa chọn trên

Tính năng nghiên cứu

Khi cài đặt với extra research, Heretic cung cấp thêm hai công cụ phân tích phục vụ nghiên cứu khả năng diễn giải mô hình (interpretability).

Trực quan hóa residual vector theo lớp

heretic <model> --plot-residuals

Lệnh này tính toán residual vector (hidden states) cho token đầu tiên ở mỗi lớp transformer, thực hiện chiếu PaCMAP từ không gian residual xuống 2D, và xuất ra một ảnh PNG cho mỗi lớp cùng một file GIF động thể hiện sự chuyển đổi của residual qua các lớp. Đây là công cụ trực quan giúp quan sát nơi mà “chiều từ chối” được hình thành và khuếch đại trong mô hình.

Phân tích định lượng hình học residual

heretic <model> --print-residual-geometry

Xuất ra bảng số liệu chi tiết về quan hệ hình học giữa residual vector của prompt “có hại” và “vô hại” theo từng lớp, bao gồm cosine similarity, L2 norm, và hệ số silhouette của các cụm.

Những điểm cần lưu ý

Heretic yêu cầu quyền truy cập cục bộ vào trọng số mô hình, do đó chỉ hoạt động được với các mô hình open-weight. Các mô hình API như GPT-4 hay Claude không thể xử lý bằng Heretic.

Mặc dù kết quả tự động của Heretic rất ấn tượng, phương pháp abliteration về bản chất vẫn có thể tạo ra sự không nhất quán nhỏ trong fingerprint của mô hình, đặc biệt với những prompt phức tạp. Kết quả tốt nhất đạt được với các mô hình dense lớn hơn.

Dự án được cấp phép AGPL-3.0, nghĩa là bất kỳ phần mềm nào tích hợp Heretic và phân phối ra ngoài đều phải công bố mã nguồn theo cùng giấy phép.

Heretic đại diện cho một bước tiến có ý nghĩa trong lĩnh vực mechanistic interpretability ứng dụng. Bằng cách tự động hóa quy trình tìm kiếm tham số abliteration thông qua TPE và đặt KL divergence là mục tiêu tối ưu hóa song song, Heretic giải quyết được điểm yếu cốt lõi của các phương pháp abliteration thủ công trước đây: đánh đổi giữa loại bỏ từ chối và bảo toàn năng lực mô hình.

Với cú pháp sử dụng đơn giản (một lệnh duy nhất) và không yêu cầu kiến thức chuyên sâu về transformer, Heretic là công cụ phù hợp cho cả nhà nghiên cứu AI lẫn người dùng cá nhân muốn có toàn quyền kiểm soát mô hình ngôn ngữ chạy cục bộ của mình.

Mã nguồn: github.com/p-e-w/heretic
Gói PyPI: pypi.org/project/heretic-llm
Bộ sưu tập mô hình Heretic trên Hugging Face: huggingface.co/collections/p-e-w/the-bestiary
Bài báo gốc về abliteration: Arditi et al. 2024
Giấy phép: AGPL-3.0

Duy Nghiện

Hãy làm khán giả, đừng làm nhân vật chính :)