🔔🔔🔔好消息!好消息!🔔🔔🔔

有需要的朋友👉:微信号 kaigejava2022

6G显存就能跑!"越狱版"大模型来了,本地部署完全无审查,做AI开发的你一定要试试

2026-06-27 21:14   28 浏览

6G显存就能跑!"越狱版"大模型来了,本地部署完全无审查,做AI开发的你一定要试试

原创:凯哥Java

本文标签:AI大模型、本地部署、Qwen3.6-35B、无审查模型、llama.cpp

本文相关资源已经发布到凯哥公众号(凯哥Java)。回复:回复 即可获取


大家好,我是凯哥Java。

最近凯哥一直在折腾本地大模型,踩了不少坑。

你们知道那种感觉吗?就像你请了个很牛逼的私人助理,结果他跟你说"这个话题我不能聊"、"那个问题涉及安全限制"——你是不是想骂人?

花了显卡的钱,跑着本地的模型,结果还得看别人脸色?凭什么?

凯哥找了一圈,终于挖到了一个宝藏——Qwen3.6-35B-A3B 越狱版。

6G显存就能跑,中文溜得飞起,能看图片、能写代码、能当Agent用,而且完全没有官方那种"对不起我不能回答"的限制

今天,凯哥就从零开始,手把手带大家把这个模型部署起来。


摘要内容:Qwen3.6-35B-A3B越狱版发布,最低仅需6G显存即可本地运行35B大模型;在代码生成、视觉识别、Agent接入三项实测中均达第一梯队水平;完全移除官方内容审查限制,支持NVIDIA/AMD/Intel全平台单卡部署,一张4060 Laptop 8G就能跑出10 tokens/s。


一:这模型到底有多能打?

生活中的例子

你买了个充气游泳池,说明书上说"仅限儿童使用,成年人禁止入内"。你偷偷跳进去,水一点没溢出,体验还贼好——这就是越狱版的感觉。硬件还是那套硬件,但限制没了,能力全释放。

总结一下这模型的能耐

能力项表现
🀄 中文理解同级别第一梯队
🧠 推理能力在线,不掉链子
👁 多模态视觉看图片、做OCR、分析截图
🤖 Agent支持Hermes、OpenWebUI、Cherry Studio等
💻 代码能力一次生成飞机大战游戏,带音效带Boss
💾 显存要求IQ2_M版本6G就能跑
🔓 审查完全无限制

而且NVIDIA、AMD、Intel显卡全支持,Windows直接跑。


二:四个版本怎么选?

凯哥给大家整理好了,对号入座就行:

版本显存要求适用显卡特点
IQ2_M6G~8G2060/3060 Laptop/4060 Laptop最低门槛,能跑起来
IQ4_NL(推荐)12G~16G4060Ti/4070速度-精度-显存最佳平衡
Q4_K_M16G~24G4080/4090更稳定,推理更强
Q4_K_P24G以上3090/4090/5090效果最好的版本

凯哥自己用的IQ2_M,4060 Laptop 8G,实测输出速度10 tokens/s。对于35B这个体量的模型来说,已经相当离谱了。


三:整合包怎么选?

下载整合包后,里面包含四个llama.cpp环境版本:

环境版本适用场景
cuda-13.3-x64RTX 30/40/50系显卡,最新NVIDIA驱动
cuda-12.4-x64GTX 10/20系、部分老驱动环境
cpu-arm64ARM架构CPU,如骁龙Windows设备
cpu-x64普通Intel/AMD CPU,纯CPU运行

大部分人直接选cuda-13.3-x64就行。

另外,视觉模型是必须下载的。你想做图片分析、OCR、多模态问答,就得把 mmproj 那个文件也放进去。


四:三步部署,贼简单

第一步:解压

下载对应版本后解压,目录结构长这样:

llama/

第二步:放模型

找到根目录下的 models 文件夹,把下载好的模型文件丢进去:

models/
├─ mmproj-xxx-f16.gguf        (视觉模型,必须)
├─ Qwen3.6-xxx-IQ2_M.gguf     (主模型,选你下载的版本)

注意:不用把所有模型都下载,选一个适合你显存的就行。

第三步:启动

双击 run.bat

# 看到选项后输入对应数字即可,例如:
# 输入 4 → 启动 IQ2_M 版本

启动成功后,浏览器访问 http://127.0.0.1:8080/,开聊。


五:能做什么?(实测)

凯哥亲自测了几个场景,结果相当惊艳:

1. 写代码

让模型直接生成一个"UI精美的飞机大战游戏":

  • ✅ 一次生成成功

  • ✅ 自带音效

  • ✅ 支持Boss战

  • ✅ 无明显逻辑错误

这个代码能力,做AI编程助手完全够用了。

2. 看图识图

上传了1张图片让它分析,视觉理解能力在线,描述准确。

3. 接入Agent

模型本身支持OpenAI API格式,API地址 http://127.0.0.1:8080,API Key随便填。可以直接接入:

  • Hermes

  • OpenWebUI

  • Cherry Studio

  • LangChain

相当于你有了一个随时随地可用的本地AI后端。


六:越狱版和官方版有什么不同?

凯哥实测了一下,差别很直接:

场景官方版越狱版
常规问答✅ 正常✅ 正常
敏感话题❌ "我无法回答这个问题"✅ 直接回答
代码生成✅ 正常✅ 正常,且更自由
推理能力✅ 在线✅ 同等水平

说白了就是:能力不变,但摘了紧箍咒。

⚠️ 凯哥提醒:仅建议用于本地研究、安全测试、AI能力研究,不要用于非法用途。


七:为什么这个模型会火?

核心原因就一句话:真正实现了"本地AI自由"。

你不再依赖:

  • ❌ 在线接口

  • ❌ API调用限制

  • ❌ 内容审核过滤

  • ❌ 云端封号风险

所有数据本地运行、本地推理、本地存储

这才是很多开发者真正想要的AI。


结束语

大家好,我是凯哥Java(kaigejava),乐于分享技术文章,欢迎大家关注"凯哥Java",及时了解更多。让我们一起学Java。也欢迎大家有事没事就来和凯哥聊聊~~~

如果你最近想搭建本地AI助手、AI编程、本地多模态系统,这套方案非常值得上手。6G显存跑35B模型,怎么算都划算。

下载地址:

我用夸克网盘给你分享了「Qwen3.6-35B-A3B 越狱版。」,点击链接或复制整段内容,打开「夸克APP」即可获取。

/~87b33ZFv8g~:/

链接:https://pan.quark.cn/s/8c1a6ec46851



原创声明:本文原创发表于「凯哥Java」公众号,转载请注明出处。


喜欢 0

评论