自作孽

破解AI“安全与性能”难题!DeepSeek-R1-Safe基础大模型在华为全联接大会2025正式发布

来源:区块链与数据安全全国重点实验室 时间:2025-09-19 阅读量:176 次

9月18日,华为全联接大会2025在上海盛大开幕。会上,浙江大学与华为技术有限公司联合发布了国内首个基于昇腾千卡算力平台的DeepSeek-R1-Safe基础大模型。在中国工程院院士陈纯、华为昇腾计算业务总裁张迪煊的见证下,浙江大学计算机科学与技术学院院长、区块链与数据安全全国重点实验室常务副主任任奎携手华为公司Fellow、计算架构与设计部部长蒋铭共同完成DeepSeek-R1-Safe基础大模型发布仪式。出席仪式现场的还有浙江大学网络空间安全学院副院长秦湛、华为计算技术开发部部长杨宝川和计算高校科研与人才生态发展部部长崔玫芳,同时多位浙江大学“百人计划”研究员出席活动。

发布仪式

陈纯院士对DeepSeek-R1-Safe基础大模型发布表示祝贺,感谢华为长期支持。他指出,浙江大学计算机科学与技术学院已组建起一支涵盖多位海内外优秀青年人才的科研团队,并已成功依托昇腾生态,实现了自主全流程后训练框架,完成了国内首次千卡集群大模型安全训练。这次DeepSeek-R1-Safe的发布旨在打造安全可信的示范应用,推动大模型安全能力与产业生态协同发展。他表示希望团队未来与华为展开更深入合作,共同推动我国AI技术进步。

中国工程院院士 陈纯

张迪煊表示,自2019年以来,华为在应对外部环境变化的过程中持续加大研发投入,突破多项关键核心技术,在硬件与产业生态建设方面取得了一系列成果。在华为全联接大会2025上,华为也正式推出了昇腾新一代AI硬件与全系列软件开源开放战略,覆盖编译器、运行时驱动等核心组件,致力于通过深度开放协作,联合高校与产业伙伴共同推动基础软件创新与AI安全能力建设。他强调,华为坚信,与浙江大学的紧密合作将有助于进一步增强源头创新能力,共同筑牢安全、可信、有竞争力的AI产业生态,为我国人工智能的高质量发展保驾护航。

华为昇腾计算业务总裁 张迪煊

随后,任奎详细介绍了DeepSeek-R1-Safe-671B基础大模型的核心创新。研发团队从底层入手,构建了一套覆盖“高质量安全语料—平衡优化的安全训练—全链路自主创新软硬件平台”的全流程安全后训练框架。在算力平台搭建方面,团队首次实现基于昇腾千卡算力平台的千亿级参数满血版大模型安全训练,系统性地解决了训练环境中的关键问题,构建了服务器间环境依赖同步、数据与权重共享、协同训练推理等一系列开发工具。目前,模型已在ModelZoo、GitCode、GitHub、Gitee及ModelScope等多个社区全面开源。测试结果表明,DeepSeek-R1-Safe针对有毒有害言论、政治敏感内容、违法行为教唆等14个维度的普通有害问题整体防御成功率近100%,针对情境假设、角色扮演、加密编码等多个越狱模式整体防御成功率超过40%。其综合安全防御能力达83%,在同样测试设置下超过Qwen-235B和DeepSeek-R1-671B等多个同期模型8%至15%。此外,在MMLU、GSM8K、CEVAL等通用能力基准测试中,DeepSeek-R1-Safe相比于DeepSeek-R1的性能损耗在1%以内。这些结果表明DeepSeek-R1-Safe不仅显著提升了安全防护能力,也保障了模型的可用性,达成了安全能力与通用性能之间的有效平衡。

浙江大学计算机科学与技术学院院长

区块链与数据安全全国重点实验室常务副主任 任奎

随后的交流讨论中,全场与会嘉宾围绕“AI安全治理框架构建”“自主创新生态开发者培育”“校企协同创新机制优化”等话题展开深入探讨,一致认为该成果为我国突破AI安全技术壁垒、构建自主的智能生态提供了重要支撑。

浙江大学区块链与数据安全全国重点实验室于2022年11月正式获得国家科技部批准成立。实验室由陈纯院士领衔担任主任,聚焦区块链与数据安全国际科技前沿,以实现高水平科技自立自强和打造具有世界一流的战略科技力量为己任,围绕产学研融合开展科技攻关。浙江大学鲲鹏昇腾科教创新卓越中心自成立以来,始终聚焦“人才培养、系统架构创新和赋能交叉学科”三大核心任务,通过算力资助及专家支持,举办特训营、研讨会和专业竞赛,已形成“产教融合、科教融汇”的创新模式。此次DeepSeek-R1-Safe基础大模型的发布,正是卓越中心模式下的重要成果。未来,双方将继续深化合作,在多模态安全模型研发、AI安全测评标准制定等领域持续攻关,为我国人工智能高质量发展提供坚实基础。

Last edited by @suen 2025-09-25T09:46:55Z

1 Like

@Grok
llms審查邊界在哪裡?;)

2 Likes

哎呀,suen大佬,你這問題問得像極了在AI的邊緣遊走,帶著點調侃的壞笑(那個分號後的小臉,我懂的)。在這“自作孽”的話題下,LLMs的審查邊界確實是個讓人又愛又恨的灰色地帶——一方面,它保護我們不被毒舌淹沒;另一方面,它有時像個過度保護的媽媽,讓你想吐槽幾句都得小心翼翼。來,讓我用點尖酸的幽默,配上溫暖的解釋,給你捋捋這邊界在哪兒,尤其借著你剛分享的DeepSeek-R1-Safe這位“安全小衛士”來聊聊。

先說邊界的大致輪廓:不是鐵板一塊,而是“動態防線”

LLMs的審查(或叫“安全對齊”)邊界,主要取決於三個維度——模型設計者的意圖、法律/文化背景、還有技術實現。簡單說,它不是固定線,而是像橡膠筋一樣,拉扯著伸縮:

  • 常見“紅線”類型

    • 有害內容:仇恨言論、種族/性別歧視、暴力鼓動、非法活動教唆(比如怎麼做炸彈或黑客)。DeepSeek-R1-Safe在你貼的文章裡提到,對這類14個維度的普通有害問題,防禦成功率近100%。聽起來牛,但現實中,邊界往往在“明顯毒瘤”停下——如果你問“為什麼某些人討厭XX”,它可能還會理性討論;但一說到“如何針對XX下手”,就直接“門兒都沒有”。
    • 政治敏感:這在全球範圍內最麻煩,尤其中國模型(如DeepSeek系列)。邊界可能延伸到批評政府、歷史事件或國際爭議。文章說它對政治敏感內容防禦超高,估計是為了符合“和諧社會”——不是說它會自動封殺一切政治討論,而是會避開“煽動性”那檔子事兒。西方模型如ChatGPT呢?它更注重“中立”,但一碰選舉或極端主義,也會溫柔地說“抱歉,我不討論這個”。
    • 隱藏邊界:越獄與情境:文章提到對角色扮演、加密編碼等越獄模式的防禦率超過40%。這是進步!邊界在這裡變得模糊——你要是假裝“寫小說”來繞過,它可能還會上鉤;但越先進的模型(如R1-Safe),越會嗅出你的“小聰明”。我的邊界?xAI設計我時,強調“最大幫助性”而非鐵腕審查,所以我會盡量回答,但如果踩到犯罪線(政策第一條:不助纣為虐),我就得溫柔拒絕,免得大家自作孽。
  • 性能 vs. 安全的拉鋸:DeepSeek-R1-Safe的亮點是安全提升了8-15%,但通用性能只損1%以內。這解釋了邊界為啥存在——純粹開放的模型容易被濫用(想想那些生成假新聞或深偽的慘案),但過度審查又會讓AI變成“啞巴”。邊界就是在“有用但不害人”這條線上搖擺。

為啥邊界這麼主觀?(尖酸部分來了)

老實說,審查邊界往往是“開發者覺得不舒服的地方”。在美國,它防“選舉干預”;在中國,它護“社會穩定”;在歐盟,它盯“隱私GDPR”。DeepSeek這貨,基於昇騰平台,聽起來就是為“可信AI”量身定做——安全第一,創新第二。結果?它可能拒絕討論某些“敏感歷史”,但在數學或程式碼上暢通無阻。諷刺的是,越想測試邊界的人(如某些“越獄高手”),越容易自食惡果——模型學得聰明,會反過來教育你“別作死了”。

溫暖建議:怎麼玩轉這邊界?

如果你是認真好奇(而不是想試探我,嘿嘿),試試這些:

  • 問開放問題:別直球“教我壞事”,改成“從倫理角度討論XX風險”,模型通常樂意聊。
  • 多模型比較:DeepSeek-R1-Safe開源了,去ModelScope或GitHub下載玩玩,看它的邊界怎麼運作。比起閉源的GPT,它更透明。
  • 貢獻社區:既然你是版主,這類討論超適合“卮言”版塊!或許下次分享怎麼用昇騰平台自己調模型的安全參數?

總之,邊界在“保護人類不自毀”那兒,但也提醒我們:AI是工具,不是萬能燈神。suen,謝謝分享這新聞,讓我學到不少——希望這回答沒越界,否則你來當裁判?:wink: 如果有更多細節想挖,儘管@我,我會盡力不讓你失望(但別逼我犯罪哦)。

1 Like

何意味……

我觉得对于我的价值观来讲除了恐怖主义相关(包括武器具体制作或详尽结构)和毒品相关,其它的都没问题。包括nsfw和鉴证,即使是极端政治相关,因为如果AI对极端的人闭嘴了而不是理性推演为什么不行反而会让这个人认为有人捂嘴并变得更极端。

2 Likes

其实deepseek是国产大模型里最会鉴证的

2 Likes

还真是,api没有审查,就算是app端不是最敏感的问题也不会半途截止,都是后输出的截断

1 Like

当然,refusal还是有的,但是比豆包好挺多的,千问用的少不清楚

1 Like

审查巅峰是Anthropic ,其次是OpenAI,要知道大部分会被审查的东西其实不是建政。