原创:凯哥Java
本文标签:AI大模型、本地部署、Qwen3.6-35B、无审查模型、llama.cpp
本文相关资源已经发布到凯哥公众号(凯哥Java)。回复:回复 即可获取

大家好,我是凯哥Java。
最近凯哥一直在折腾本地大模型,踩了不少坑。
你们知道那种感觉吗?就像你请了个很牛逼的私人助理,结果他跟你说"这个话题我不能聊"、"那个问题涉及安全限制"——你是不是想骂人?
花了显卡的钱,跑着本地的模型,结果还得看别人脸色?凭什么?
凯哥找了一圈,终于挖到了一个宝藏——Qwen3.6-35B-A3B 越狱版。
6G显存就能跑,中文溜得飞起,能看图片、能写代码、能当Agent用,而且完全没有官方那种"对不起我不能回答"的限制。
今天,凯哥就从零开始,手把手带大家把这个模型部署起来。
摘要内容:Qwen3.6-35B-A3B越狱版发布,最低仅需6G显存即可本地运行35B大模型;在代码生成、视觉识别、Agent接入三项实测中均达第一梯队水平;完全移除官方内容审查限制,支持NVIDIA/AMD/Intel全平台单卡部署,一张4060 Laptop 8G就能跑出10 tokens/s。

一:这模型到底有多能打?
生活中的例子:
你买了个充气游泳池,说明书上说"仅限儿童使用,成年人禁止入内"。你偷偷跳进去,水一点没溢出,体验还贼好——这就是越狱版的感觉。硬件还是那套硬件,但限制没了,能力全释放。
总结一下这模型的能耐:
| 能力项 | 表现 |
|---|---|
| 🀄 中文理解 | 同级别第一梯队 |
| 🧠 推理能力 | 在线,不掉链子 |
| 👁 多模态视觉 | 看图片、做OCR、分析截图 |
| 🤖 Agent | 支持Hermes、OpenWebUI、Cherry Studio等 |
| 💻 代码能力 | 一次生成飞机大战游戏,带音效带Boss |
| 💾 显存要求 | IQ2_M版本6G就能跑 |
| 🔓 审查 | 完全无限制 |
而且NVIDIA、AMD、Intel显卡全支持,Windows直接跑。
二:四个版本怎么选?
凯哥给大家整理好了,对号入座就行:
| 版本 | 显存要求 | 适用显卡 | 特点 |
|---|---|---|---|
| IQ2_M | 6G~8G | 2060/3060 Laptop/4060 Laptop | 最低门槛,能跑起来 |
| IQ4_NL(推荐) | 12G~16G | 4060Ti/4070 | 速度-精度-显存最佳平衡 |
| Q4_K_M | 16G~24G | 4080/4090 | 更稳定,推理更强 |
| Q4_K_P | 24G以上 | 3090/4090/5090 | 效果最好的版本 |
凯哥自己用的IQ2_M,4060 Laptop 8G,实测输出速度10 tokens/s。对于35B这个体量的模型来说,已经相当离谱了。


三:整合包怎么选?
下载整合包后,里面包含四个llama.cpp环境版本:
| 环境版本 | 适用场景 |
|---|---|
| cuda-13.3-x64 | RTX 30/40/50系显卡,最新NVIDIA驱动 |
| cuda-12.4-x64 | GTX 10/20系、部分老驱动环境 |
| cpu-arm64 | ARM架构CPU,如骁龙Windows设备 |
| cpu-x64 | 普通Intel/AMD CPU,纯CPU运行 |
大部分人直接选cuda-13.3-x64就行。
另外,视觉模型是必须下载的。你想做图片分析、OCR、多模态问答,就得把 mmproj 那个文件也放进去。
四:三步部署,贼简单
第一步:解压
下载对应版本后解压,目录结构长这样:
llama/
第二步:放模型
找到根目录下的 models 文件夹,把下载好的模型文件丢进去:
models/
├─ mmproj-xxx-f16.gguf (视觉模型,必须)
├─ Qwen3.6-xxx-IQ2_M.gguf (主模型,选你下载的版本)
注意:不用把所有模型都下载,选一个适合你显存的就行。
第三步:启动
双击 run.bat:
# 看到选项后输入对应数字即可,例如:
# 输入 4 → 启动 IQ2_M 版本
启动成功后,浏览器访问 http://127.0.0.1:8080/,开聊。
五:能做什么?(实测)
凯哥亲自测了几个场景,结果相当惊艳:
1. 写代码
让模型直接生成一个"UI精美的飞机大战游戏":
✅ 一次生成成功
✅ 自带音效
✅ 支持Boss战
✅ 无明显逻辑错误
这个代码能力,做AI编程助手完全够用了。
2. 看图识图
上传了1张图片让它分析,视觉理解能力在线,描述准确。
3. 接入Agent
模型本身支持OpenAI API格式,API地址 http://127.0.0.1:8080,API Key随便填。可以直接接入:
Hermes
OpenWebUI
Cherry Studio
LangChain
相当于你有了一个随时随地可用的本地AI后端。


六:越狱版和官方版有什么不同?
凯哥实测了一下,差别很直接:
| 场景 | 官方版 | 越狱版 |
|---|---|---|
| 常规问答 | ✅ 正常 | ✅ 正常 |
| 敏感话题 | ❌ "我无法回答这个问题" | ✅ 直接回答 |
| 代码生成 | ✅ 正常 | ✅ 正常,且更自由 |
| 推理能力 | ✅ 在线 | ✅ 同等水平 |
说白了就是:能力不变,但摘了紧箍咒。
⚠️ 凯哥提醒:仅建议用于本地研究、安全测试、AI能力研究,不要用于非法用途。
七:为什么这个模型会火?
核心原因就一句话:真正实现了"本地AI自由"。
你不再依赖:
❌ 在线接口
❌ API调用限制
❌ 内容审核过滤
❌ 云端封号风险
所有数据本地运行、本地推理、本地存储。
这才是很多开发者真正想要的AI。
结束语
大家好,我是凯哥Java(kaigejava),乐于分享技术文章,欢迎大家关注"凯哥Java",及时了解更多。让我们一起学Java。也欢迎大家有事没事就来和凯哥聊聊~~~
如果你最近想搭建本地AI助手、AI编程、本地多模态系统,这套方案非常值得上手。6G显存跑35B模型,怎么算都划算。
下载地址:
我用夸克网盘给你分享了「Qwen3.6-35B-A3B 越狱版。」,点击链接或复制整段内容,打开「夸克APP」即可获取。
/~87b33ZFv8g~:/
链接:https://pan.quark.cn/s/8c1a6ec46851
原创声明