Firefox即将一键禁用所有AI功能:Mozilla宣布在浏览器设置中添加“阻塞AI开关”
Mozilla宣布Firefox 148将新增‘阻塞AI增强’全局开关,一键禁用浏览器内所有生成式AI特性,包括翻译、PDF图像生成等。该功能源于用户反馈,优先隐私保护,已在X平台引发热议,成为反AI强推的标志性举措。预计2月24日正式发布。
Mozilla宣布Firefox 148将新增‘阻塞AI增强’全局开关,一键禁用浏览器内所有生成式AI特性,包括翻译、PDF图像生成等。该功能源于用户反馈,优先隐私保护,已在X平台引发热议,成为反AI强推的标志性举措。预计2月24日正式发布。
在人工智能迅速发展的背景下,数据隐私和道德边界的问题成为了一个迫切的社会议题。如何在技术进步与伦理规范之间取得平衡,成为行业内外关注的焦点。
前OpenAI和Tesla AI负责人Andrej Karpathy推出nanochat仓库,仅需约73美元和3小时,即可在单8xH100节点训练出媲美GPT-2的LLM。全栈工具链从预训练到聊天UI一应俱全,代码简洁高效,获GitHub 41.9k星,X平台热议不断,推动大模型训练门槛大幅降低。
Claude Code用户长期饱受上下文丢失之苦,如今开源插件Claude-Mem横空出世,赋予AI持久记忆能力。GitHub星标飙升至19.5k,token用量降95%,工具调用增20倍。X平台开发者热议不断,本地隐私存储让它迅速成为必备神器。
NVIDIA最新Blackwell B200 AI芯片订单火爆,企业争相抢购导致交付延至2025年。此消息引发市场热议,凸显AI算力需求井喷下的硬件瓶颈,NVIDIA股价短期波动。业内分析称,这反映出AI基础设施建设的紧迫性与全球供应链压力。
AI生成的拜登和特朗普假视频在X平台病毒式传播,FBI发出警告,转发量超百万。事件引发平台审核无力与AI水印法规的激烈争议,互动量逾30万,选举诚信成焦点。
中国AI企业DeepSeek发布V2模型,在多项中文基准测试中超越GPT-4o,总参数仅236B却实现高效推理。该模型开源后迅速走红,X平台用户测试分享互动超15万,引发本土AI崛起与‘弯道超车’热议。
AI开发者Ray Wang花一周时间打磨的OpenClaw记忆架构免费开源,采用知识图谱、每日笔记和隐性知识三层设计,支持持久化存储、检索搜索和记忆衰减机制。该系统解决AI助手‘金鱼记忆’痛点,让本地Agent像人类大脑般高效管理上下文,备受开发者关注。
一位用户利用8年前的小米8,通过Termux和Kimi K2.5 API成功部署OpenClaw私人助理,避免高昂云服务器费用。该方法简单易行,引发旧设备AI复用热议,推动边缘计算普及。
KTransformers项目为Mixture-of-Experts(MoE)模型的CPU/GPU混合推理提供了一系列优化,显著提升了计算效率。通过引入AMX优化的CPU内核和高效的设备协调机制,KTransformers解决了传统混合推理中的协调开销和计算资源未有效利用的问题,使得在单机上部署万亿参数模型成为可能。
自2025年11月初发布以来,SGLang-Diffusion在社区中引起了广泛关注和应用。我们非常感谢开源开发者的反馈和贡献。经过两个月的优化,SGLang-Diffusion的速度提升了2.5倍。本文总结了我们在模型支持、LoRA支持、并行性、硬件兼容性等方面的进展,并详细介绍了关键的技术改进和性能基准测试结果。
SGLang推出高度优化的Pipeline Parallelism(PP)实现,专为超长上下文推理设计。通过集成Chunked Pipeline Parallelism、Asynchronous P2P Communication和Dynamic Chunking机制,该实现实现行业领先性能,并无缝兼容其他并行策略。在多节点部署中,PP4 TP8配置下DeepSeek-V3.1的Prefill Throughput达TP8的3.31倍,较TP32提升30.5%。同时,TTFT降低高达67.9%,强扩展效率达82.8%。本文深入剖析PP在通信量、气泡比率及实现复杂度上的优势,证明其在跨节点大规模扩展中的独特价值,为万亿参数模型超长上下文推理提供高效开源方案。(128字)
随着前沿大语言模型(LLM)规模不断扩大,对 GPU 计算力和内存带宽的需求激增。GPU 厂商和模型开发者正转向低精度浮点格式,其中 FP4(4 位浮点)量化备受关注,例如 FP4 量化的 Llama 3.3 70B 模型体积缩小 3.5 倍,同时在 MMLU 等基准上质量损失最小。然而,现有的 AMD Instinct MI250 和 MI300 系列 GPU 缺乏原生 FP4 支持。为此,我们开发了 Petit——专为 AMD GPU 优化的 FP16/BF16 × FP4 混合精度内核集合。它在 MI200 和 MI300 系列上实现 FP4 模型高效推理:使用 SGLang 时端到端性能提升 1.74 倍,矩阵乘法比 hipBLASLt 快至 3.7 倍。Petit 已开源并集成至 SGLang 0.4.10,支持无缝部署 Llama 3.3 70B FP4 模型。(128 字)
本文介绍SGLang团队在实现确定性推理方面的努力,以及与slime团队合作推动可重现RL训练的进展。基于Thinking Machines Lab的batch-invariant算子,SGLang实现了完全确定性推理,同时兼容chunked prefill、CUDA graphs、radix cache和非贪婪采样,使用CUDA graphs可获2.8x加速,性能开销仅34.35%(优于TML的61.5%)。进一步,与slime结合,实现100%可重现RL训练,在Qwen3-8B上验证两轮独立训练曲线完全一致。通过全面测试套件验证确定性,支持FlashInfer、FlashAttention 3和Triton后端,适用于调试与科学实验。未来将优化性能至20%以内开销。
GB200 NVL72作为深度学习最强硬件之一,本文分享SGLang团队在上篇博客基础上,对DeepSeek V3/R1推理性能的进一步优化,包括FP8 attention、NVFP4 MoE、大规模专家并行(EP)、预填充-解码分离等技术。在FP8 attention和NVFP4 MoE下,SGLang实现每GPU预填充26,156 tokens/s、解码13,386 tokens/s(2000 token输入),较H100提升3.8倍和4.8倍。即使采用传统BF16 attention和FP8 MoE,也达18,471和9,087 tokens/s。优化涵盖低精度计算、更快内核集成、计算通信重叠等,精度损失微乎其微。实验验证了端到端性能大幅提升,并分析了内核级加速效果。(128字)
部署大规模Mixture-of-Experts(MoE)模型如DeepSeek-R1需要在延迟、吞吐量和成本间取得平衡,尤其在H20 GPU这种内存带宽高但计算能力相对较低的硬件上。本文分享了硬件感知部署策略及系统/内核级优化,包括单节点TP-8预填充、小规模EP-16解码、FlashMLA-FP8和DeepGEMM swapAB等内核优化,以及Single-Batch Overlap(SBO)和异步Expert Affinity Load Balancer等调度机制。实验显示,每节点在4096 token输入序列上实现16.5k输入token/s和5.7k输出token/s的SOTA性能,这是H20上首次全面工业实践研究。
本文介绍我们在SGLang中支持全新服务范式PD-Multiplexing的初步成果,该范式旨在提升LLM服务的goodput。通过NVIDIA新功能GreenContext,实现同一进程内GPU资源的轻量级细粒度分区,支持prefill和decode阶段的intra-GPU空间共享,避免KV cache跨实例迁移,并动态分配SM资源。该方法解耦prefill和decode执行,确保严格SLO(如TTFT和ITL),基准测试显示在H200上相比chunked-prefill显著提升TTFT,在8xA100s真实负载下goodput最高提升3.06x。未来将提供详细教程。(128字)
SGLang 团队宣布即日(Day 0)支持 DeepSeek-V3.2 模型。该模型基于 DeepSeek-V3.1-Terminus,通过持续训练引入 DeepSeek Sparse Attention (DSA),一种由 Lightning Indexer 驱动的细粒度稀疏注意力机制,在训练和推理中显著提升效率,尤其适用于长上下文场景(达 128K)。SGLang 集成了 Lightning Indexer 支持、Native Sparse Attention (NSA) 后端(包括 FlashMLA 和 FlashAttention-3 Sparse),并优化了动态缓存管理,降低内存开销,实现 GPU 优化的稀疏注意力。文章提供 NVIDIA、AMD 和 NPU 的快速启动命令,并展望未来功能如 Multi-token Prediction (MTP) 和 FP8 KV Cache。