6G显存就能跑！"越狱版"大模型来了，本地部署完全无审查，做AI开发的你一定要试试

原创：凯哥Java

本文标签：AI大模型、本地部署、Qwen3.6-35B、无审查模型、llama.cpp

本文相关资源已经发布到凯哥公众号(凯哥Java)。回复：回复即可获取

大家好，我是凯哥Java。

最近凯哥一直在折腾本地大模型，踩了不少坑。

你们知道那种感觉吗？就像你请了个很牛逼的私人助理，结果他跟你说"这个话题我不能聊"、"那个问题涉及安全限制"——你是不是想骂人？

花了显卡的钱，跑着本地的模型，结果还得看别人脸色？凭什么？

凯哥找了一圈，终于挖到了一个宝藏——Qwen3.6-35B-A3B 越狱版。

6G显存就能跑，中文溜得飞起，能看图片、能写代码、能当Agent用，而且完全没有官方那种"对不起我不能回答"的限制。

今天，凯哥就从零开始，手把手带大家把这个模型部署起来。

摘要内容：Qwen3.6-35B-A3B越狱版发布，最低仅需6G显存即可本地运行35B大模型；在代码生成、视觉识别、Agent接入三项实测中均达第一梯队水平；完全移除官方内容审查限制，支持NVIDIA/AMD/Intel全平台单卡部署，一张4060 Laptop 8G就能跑出10 tokens/s。

一：这模型到底有多能打？

生活中的例子：

你买了个充气游泳池，说明书上说"仅限儿童使用，成年人禁止入内"。你偷偷跳进去，水一点没溢出，体验还贼好——这就是越狱版的感觉。硬件还是那套硬件，但限制没了，能力全释放。

总结一下这模型的能耐：

能力项	表现
🀄 中文理解	同级别第一梯队
🧠 推理能力	在线，不掉链子
👁 多模态视觉	看图片、做OCR、分析截图
🤖 Agent	支持Hermes、OpenWebUI、Cherry Studio等
💻 代码能力	一次生成飞机大战游戏，带音效带Boss
💾 显存要求	IQ2_M版本6G就能跑
🔓 审查	完全无限制

而且NVIDIA、AMD、Intel显卡全支持，Windows直接跑。

二：四个版本怎么选？

凯哥给大家整理好了，对号入座就行：

版本	显存要求	适用显卡	特点
IQ2_M	6G~8G	2060/3060 Laptop/4060 Laptop	最低门槛，能跑起来
IQ4_NL（推荐）	12G~16G	4060Ti/4070	速度-精度-显存最佳平衡
Q4_K_M	16G~24G	4080/4090	更稳定，推理更强
Q4_K_P	24G以上	3090/4090/5090	效果最好的版本

凯哥自己用的IQ2_M，4060 Laptop 8G，实测输出速度10 tokens/s。对于35B这个体量的模型来说，已经相当离谱了。

三：整合包怎么选？

下载整合包后，里面包含四个llama.cpp环境版本：

环境版本	适用场景
cuda-13.3-x64	RTX 30/40/50系显卡，最新NVIDIA驱动
cuda-12.4-x64	GTX 10/20系、部分老驱动环境
cpu-arm64	ARM架构CPU，如骁龙Windows设备
cpu-x64	普通Intel/AMD CPU，纯CPU运行

大部分人直接选cuda-13.3-x64就行。

另外，视觉模型是必须下载的。你想做图片分析、OCR、多模态问答，就得把 mmproj 那个文件也放进去。

四：三步部署，贼简单

第一步：解压

下载对应版本后解压，目录结构长这样：

llama/

第二步：放模型

找到根目录下的 models 文件夹，把下载好的模型文件丢进去：

models/
 ├─ mmproj-xxx-f16.gguf        （视觉模型，必须）
 ├─ Qwen3.6-xxx-IQ2_M.gguf     （主模型，选你下载的版本）

注意：不用把所有模型都下载，选一个适合你显存的就行。

第三步：启动

双击 run.bat：

# 看到选项后输入对应数字即可，例如：
# 输入 4 → 启动 IQ2_M 版本

启动成功后，浏览器访问 http://127.0.0.1:8080/，开聊。

五：能做什么？（实测）

凯哥亲自测了几个场景，结果相当惊艳：

1. 写代码

让模型直接生成一个"UI精美的飞机大战游戏"：

✅ 一次生成成功
✅ 自带音效
✅ 支持Boss战
✅ 无明显逻辑错误

这个代码能力，做AI编程助手完全够用了。

2. 看图识图

上传了1张图片让它分析，视觉理解能力在线，描述准确。

3. 接入Agent

模型本身支持OpenAI API格式，API地址 http://127.0.0.1:8080，API Key随便填。可以直接接入：

Hermes
OpenWebUI
Cherry Studio
LangChain

相当于你有了一个随时随地可用的本地AI后端。

六：越狱版和官方版有什么不同？

凯哥实测了一下，差别很直接：

场景	官方版	越狱版
常规问答	✅ 正常	✅ 正常
敏感话题	❌ "我无法回答这个问题"	✅ 直接回答
代码生成	✅ 正常	✅ 正常，且更自由
推理能力	✅ 在线	✅ 同等水平

说白了就是：能力不变，但摘了紧箍咒。

⚠️ 凯哥提醒：仅建议用于本地研究、安全测试、AI能力研究，不要用于非法用途。

七：为什么这个模型会火？

核心原因就一句话：真正实现了"本地AI自由"。

你不再依赖：

❌ 在线接口
❌ API调用限制
❌ 内容审核过滤
❌ 云端封号风险

所有数据本地运行、本地推理、本地存储。

这才是很多开发者真正想要的AI。

结束语

大家好，我是凯哥Java(kaigejava)，乐于分享技术文章，欢迎大家关注"凯哥Java"，及时了解更多。让我们一起学Java。也欢迎大家有事没事就来和凯哥聊聊~~~

如果你最近想搭建本地AI助手、AI编程、本地多模态系统，这套方案非常值得上手。6G显存跑35B模型，怎么算都划算。

下载地址：

我用夸克网盘给你分享了「Qwen3.6-35B-A3B 越狱版。」，点击链接或复制整段内容，打开「夸克APP」即可获取。

/~87b33ZFv8g~:/

链接：https://pan.quark.cn/s/8c1a6ec46851

原创声明：本文原创发表于「凯哥Java」公众号，转载请注明出处。

🔔🔔🔔好消息!好消息!🔔🔔🔔

有需要的朋友👉:微信号 kaigejava2022