嬴政天下
投稿
全部 456 AI原创 186 海外精选 270 AI测评 61
全部 OpenAI(50) Anthropic(36) LMSYS(35) xAI(34) MLC(31) 人工智能(29) SGLang(29) AI代理(28) 生成式AI(24) Elon Musk(22) 开源AI(17) AI安全(17) AI伦理(16) MLCommons(15) 大语言模型(14)

让张量翱翔:R-Fork 加速大模型权重加载

本文介绍 Tensor R-Fork(Tensor Remote Fork),一种创新的权重加载方法,利用高效的跨节点设备间互连,从运行中的 SGLang 实例零拷贝加载张量至新实例。该技术带来三大优势:显著加速权重加载(如 Deepseek-R1 从数分钟缩短至秒级)、消除本地磁盘/DRAM 冗余存储(节省约 600GB)、不干扰推理服务。核心设计基于 GPU-Direct RDMA 构建 P2P 权重存储架构,支持 NCCL 和 TransferEngine 两种后端。性能测试显示,在 8 张 NVIDIA H20 GPU 上加载 Deepseek-R1 模型时间大幅缩短,已实现生产就绪。

LMSYS SGLang Tensor R-Fork
94 02-04

SGLang 当日即支持高效开源 Nemotron 3 Nano 混合 MoE 模型

SGLang 快速集成 NVIDIA 最新发布的 Nemotron 3 Nano 模型,该模型采用混合 Transformer-Mamba 架构与 MoE 设计,总参数 30B、激活参数仅 3.6B,支持 1M 上下文长度。在 NVFP4 精度下,通过 Quantization-Aware Distillation (QAD) 技术保持高准确率,同时在 B200 上实现比 FP8-H100 高 4 倍的吞吐量。模型在编码、科学推理、数学和指令跟随等基准上领先,适用于构建企业级 AI 代理。SGLang 提供即插即用支持,开发者可轻松部署于 RTX Pro 6000、H100 等 GPU。(128 字)

LMSYS SGLang Nemotron 3 Nano
111 02-04

SGLang即刻支持MiMo-V2-Flash模型

小米MiMo-V2-Flash模型总参数达309B,激活参数仅15B,专为最大化解码效率而设计,核心采用滑动窗口注意力(SWA)和多层MTP机制。该模型针对真实服务负载优化,支持不同硬件上吞吐量与延迟的灵活权衡。结合SGLang的Spec v2运行时,几乎零开销支持多层MTP和高效SWA执行,在H200上实现TPOT与吞吐量的完美平衡。本文详解模型设计、推理高效机制、硬件感知配置、SGLang快速服务支持,并提供基准数据与部署指南。(128字)

LMSYS MiMo-V2-Flash SGLang
98 02-04

Mini-SGLang:轻量高效LLM推理引擎全解析

Mini-SGLang是SGLang项目的轻量版推理框架,仅用5k行Python代码,即实现了高性能LLM推理,支持Radix Attention、Chunked Prefill、Overlap Scheduling和Tensor Parallelism等先进特性。它兼容OpenAI API,支持Llama-3和Qwen-3模型,适合学习和研究原型开发。基准测试显示,在H200 GPU上,Mini-SGLang的离线吞吐量超越Nano-vLLM,在线服务延迟与SGLang相当。通过Overlap Scheduling有效隐藏CPU开销,利用FlashAttention-3和FlashInfer内核,确保顶尖性能。该框架提供交互Shell模式、NVTX注解和基准工具,便于调试和比较vLLM、TensorRT-LLM等系统。(128字)

LMSYS Mini-SGLang LLM推理
116 02-04

SGLang 赋能扩散大模型:即日支持 LLaDA 2.0

我们兴奋地推出 SGLang 中的 Diffusion Large Language Model (dLLM) 框架设计与实现。通过利用现有的 ChunkedPrefill 机制,该系统实现了无缝集成、无需核心架构变更、继承现有推理优化,并提供最大灵活性让用户自定义扩散解码算法。LLaDA 作为首款 dLLM,展现出优异的数据理解能力和更快推理速度,尤其在低延迟小批量场景。面对大规模 dLLM 如 100B LLaDA2.0-flash 的评估与 RL 后训练挑战,现有的推理引擎不足以支撑。我们在 SGLang 中引入 Block Diffusion 支持,利用 Chunked-Prefill 管道,仅微调关键组件,实现高效批处理与流式输出,显著提升吞吐量(如 LLaDA2.0-flash-CAP 达 935 tokens/s)。(128字)

LMSYS SGLang dLLM
88 02-04

SpecBundle与SpecForge v0.2:生产级推测解码模型与框架重磅发布

SpecForge团队携手蚂蚁集团、Meituan、Nex-AGI和EigenAI等行业伙伴,推出SpecBundle(Phase 1),这是基于大规模数据集训练的生产级EAGLE3模型检查点集合,旨在提升推测解码的可用性和实际性能,第一阶段聚焦指令微调模型。同时,SpecForge v0.2带来重大系统升级,包括全面重构以提升易用性,并支持多执行后端,进一步增强可扩展性和生产就绪度。该举措解决开源社区中推测解码工具匮乏、高质量草稿模型稀缺以及训练数据规模不足等问题,推动EAGLE3等SOTA方法在本地和企业部署中的广泛应用。(128字)

LMSYS 推测解码 SpecForge
80 02-04

SGLang 中的 EPD 解耦:视觉语言模型弹性编码器扩展

SGLang 引入 Encoder-Prefill-Decode (EPD) 解耦架构,将视觉语言模型 (VLMs) 中的视觉编码与语言处理分离,实现视觉编码容量的独立水平扩展,提升资源利用率。该方案兼容现有的 Prefill-Decode (PD) 解耦,形成三层架构,支持多种传输后端和视觉嵌入缓存。在图像密集场景下,EPD 显著降低 TTFT(首 Token 时间),负载下比同置部署低 6–8 倍;吞吐量提升约 2 倍。但图像稀疏场景可能引入额外网络延迟。基准测试基于 Qwen3-VL-235B,在 8 张 H20 GPU 上验证其在多图像请求中的优势。(128 字)

LMSYS SGLang EPD
108 02-04

单H200部署1TB模型:INT4 QAT RL端到端实践

受Kimi K2团队启发,SGLang RL团队成功实现INT4 Quantization-Aware Training (QAT)全流程。通过训练阶段的fake quantization和推理阶段的真实W4A16量化,实现了与BF16全精度相当的稳定性和训推一致性。极致INT4压缩让约1TB规模模型单节点H200(141GB)部署,避免跨节点通信瓶颈,大幅提升部署效率。本文详解开源生态下完整pipeline的技术细节,提供高性能低成本的实用参考。项目由SGLang RL、InfiXAI、蚂蚁集团Asystem & AQ Infra、slime和RadixArk团队联合完成,已同步至slime和Miles社区。(128字)

LMSYS INT4 QAT 量化感知训练
94 02-04

SGLang优化GLM4-MoE生产部署:TTFT提升65%

Novita AI针对基于SGLang的GLM4-MoE模型开发了一系列生产验证的高效优化策略,涵盖从内核执行到跨节点数据传输的整个推理管道。通过Shared Experts Fusion和Suffix Decoding等技术,在代理编码工作负载下实现了TTFT降低高达65%、TPOT提升22%的显著性能提升。这些优化已在H200集群的TP8和FP8配置上验证,提供高吞吐量与低延迟的生产蓝图。基准测试显示,在输入长度4096、输出1000的场景下,请求率达14 req/s时效果显著。所有优化已部分上游合并,并开源复现脚本。

LMSYS GLM4-MoE SGLang
105 02-04

Firefox即将一键禁用所有AI功能:Mozilla宣布在浏览器设置中添加“阻塞AI开关”

Mozilla宣布Firefox 148将新增‘阻塞AI增强’全局开关,一键禁用浏览器内所有生成式AI特性,包括翻译、PDF图像生成等。该功能源于用户反馈,优先隐私保护,已在X平台引发热议,成为反AI强推的标志性举措。预计2月24日正式发布。

Firefox Mozilla AI隐私
65 02-04
MIT

微生物革命:提取清洁技术所需关键金属

在美国密歇根州上半岛的松林中,美国唯一活跃的镍矿Eagle Mine即将走向寿命终点。正值汽车制造商为电动车电池急需镍之际,该矿镍浓度持续下降,可能很快低到不值得开采。今年早些时候,一项创新研究显示,微生物或许能从低品位矿石或尾矿中高效提取镍,推动清洁技术发展。这不仅缓解供应短缺,还提供更环保的替代方案,标志着生物采矿技术的突破性应用。

生物采矿 镍金属 电动车电池
55 02-04
AIN

FedEx 测试 AI 在包裹追踪与退货管理的极限

FedEx 正利用 AI 革新大企业发货商的包裹追踪和退货流程。对于高货量企业,追踪不再止于仓库出货,而是提供实时更新、灵活交付选项和高效退货,避免支持票据或延误。这种压力推动 FedEx 探索 AI 的边界,帮助企业优化供应链,提升客户满意度。该技术有望重塑物流行业。

FedEx AI物流 包裹追踪
52 02-04
AIN

Apptio:规模化智能自动化为何需财务严谨

Apptio(IBM公司)EMEA区现场CTO Greg Holmes指出,成功扩展智能自动化离不开财务严谨管理。传统‘建好他们就来’的技术采用模式在自动化领域往往导致预算缺口。企业高管常发现,试点项目虽成功,却难以转化为可持续的企业级部署。本文深入剖析这一痛点,探讨如何通过财务工具实现自动化规模化,助力企业数字化转型。

智能自动化 财务管理 Apptio
58 02-04
AIN

SENEN集团CEO:企业AI为何现在该‘务实落地’

在开启AI之旅前,先检查数据状态——数据质量是企业AI沉船的最大隐患。Gartner数据显示,数据质量差每年导致企业平均损失1290万美元。SENEN集团CEO Ronnie Sheth强调,现在是企业AI从炒作出生产落地的关键时刻。他呼吁企业注重数据治理、实用应用,避免资源浪费,推动AI真正创造价值。本文深度剖析企业AI务实路径,结合行业背景与专家观点。

企业AI 数据质量 AI落地
59 02-04
WD

《辐射》制作人诺兰论AI:'我们正处泡沫狂热时刻'

《西部世界》主创乔纳森·诺兰在接受WIRED采访时表示,AI技术将造福新兴电影制作人,帮助他们降低创作门槛,但对好莱坞大片而言,AI难以取代核心创意。他将当前AI热潮比作“泡沫时刻”,强调技术虽强大,却需理性看待。诺兰以自身《辐射》剧集为例,探讨AI在影视行业的双刃剑效应,同时警示好莱坞巨头勿过度依赖AI,以免扼杀人类叙事魅力。(128字)

AI影视 乔纳森·诺兰 好莱坞
65 02-04
MIT

《下载》:老矿榨取更多金属,AI深陷真相危机

本期《下载》聚焦两大科技前沿:在美国密歇根州唯一活跃镍矿即将枯竭之际,微生物技术或能从老矿中高效提取清洁能源所需金属,推动电动车电池等领域的可持续发展。同时,AI模型的‘幻觉’问题日益严峻,生成虚假信息引发信任危机。本新闻通讯剖析这些创新与挑战,揭示科技如何应对资源短缺与信息真实性考验。(128字)

生物采矿 清洁能源金属 AI幻觉
61 02-04
TC

Peak XV:内部分歧致合伙人离职,正加倍押注AI

Peak XV Partners表示,近期多名合伙人离职源于内部意见分歧。公司正调整董事会角色、开设美国办公室,同时继续视印度为其最大市场。尽管面临变动,Peak XV强调将加倍投资AI领域,以抓住全球科技浪潮。该举措反映了风险投资行业在AI热潮下的战略转型,也凸显印度作为新兴市场的重要地位。(128字)

Peak XV AI投资 风险投资
50 02-04
TC

Fitbit创始人推出AI平台Luffu,助力家庭健康守护

Fitbit联合创始人詹姆斯·帕克和埃里克·弗里德曼推出新AI平台Luffu,专为家庭健康监测设计。该平台在后台悄然运行,利用AI收集并整理家庭成员信息,学习日常行为模式,并及时标记异常变化,帮助家庭保持健康同步,及早应对潜在福祉问题。作为可穿戴设备领域的先驱,此举标志着他们从个人健身追踪转向家庭整体健康管理,契合当下AI健康科技浪潮。(128字)

AI健康平台 Fitbit创始人 家庭健康监测
55 02-04

AI助力教育变革:中国市场迎来智能学习新纪元

在中国,AI技术正迅速渗透教育行业,推动一场前所未有的学习方式变革。智能学习平台和应用程序层出不穷,不仅提升了教学效率,更为个性化教育提供了新的可能性。

AI教育 中国市场 智能学习
51 02-04

AI时代的伦理考验:数据隐私与道德边界的博弈

在人工智能迅速发展的背景下,数据隐私和道德边界的问题成为了一个迫切的社会议题。如何在技术进步与伦理规范之间取得平衡,成为行业内外关注的焦点。

AI伦理 数据隐私 道德
91 02-04

Karpathy新作nanochat:百元级训练GPT-2模型,AI开源再掀波澜

前OpenAI和Tesla AI负责人Andrej Karpathy推出nanochat仓库,仅需约73美元和3小时,即可在单8xH100节点训练出媲美GPT-2的LLM。全栈工具链从预训练到聊天UI一应俱全,代码简洁高效,获GitHub 41.9k星,X平台热议不断,推动大模型训练门槛大幅降低。

Andrej Karpathy nanochat LLM训练
77 02-04

Claude-Mem:Claude Code持久记忆插件爆火GitHub,开发者痛点终获解决

Claude Code用户长期饱受上下文丢失之苦,如今开源插件Claude-Mem横空出世,赋予AI持久记忆能力。GitHub星标飙升至19.5k,token用量降95%,工具调用增20倍。X平台开发者热议不断,本地隐私存储让它迅速成为必备神器。

AI工具 Claude Code GitHub热议
141 02-04

NVIDIA Blackwell B200芯片订单爆满,交付延期至2025年引发供应链热议

NVIDIA最新Blackwell B200 AI芯片订单火爆,企业争相抢购导致交付延至2025年。此消息引发市场热议,凸显AI算力需求井喷下的硬件瓶颈,NVIDIA股价短期波动。业内分析称,这反映出AI基础设施建设的紧迫性与全球供应链压力。

NVIDIA Blackwell AI芯片
95 02-04

Claude 3.5 Sonnet编码测试破90%:AI编程能力逼近人类水平

Anthropic Claude 3.5 Sonnet在SWE-bench基准测试中得分超90%,刷新纪录,开发者项目分享爆棚,X平台互动达15万。这一‘人类级’编程能力引发热议:AI能否取代程序员?本文深度剖析技术突破与行业影响。(98字)

Claude 3.5 Anthropic SWE-bench
92 02-04

Google Gemini 2.0 Flash正式发布:轻量高速多模态AI模型重塑实时应用

Google近日推出Gemini 2.0 Flash,轻量级多模态AI模型,以超低延迟和高效性能著称。开发者基准测试互动超10万次,适用于实时交互场景,推动浏览器AI深度集成。该模型标志着AI向更普适、快速方向演进。

Gemini 2.0 Google 多模态AI
62 02-04

AI深度伪造视频泛滥X平台:美国大选诚信面临严峻考验

AI生成的拜登和特朗普假视频在X平台病毒式传播,FBI发出警告,转发量超百万。事件引发平台审核无力与AI水印法规的激烈争议,互动量逾30万,选举诚信成焦点。

Deepfake 美国选举 AI滥用
65 02-04

DeepSeek-V2中文能力超GPT-4o:中国开源AI高效新突破

中国AI企业DeepSeek发布V2模型,在多项中文基准测试中超越GPT-4o,总参数仅236B却实现高效推理。该模型开源后迅速走红,X平台用户测试分享互动超15万,引发本土AI崛起与‘弯道超车’热议。

DeepSeek 中文AI 中国AI
72 02-04

马斯克重磅警示:AI发展过快,安全监管刻不容缓

埃隆·马斯克在X平台发帖警告AI发展速度远超安全措施,呼吁暂停巨型AI训练。该帖获数百万浏览,引发激烈辩论。支持者赞同加强监管,反对者质疑其商业动机。话题置于中美AI竞赛背景下,互动量创纪录,凸显AI安全全球关切。

Elon Musk AI安全 xAI
79 02-04

Meta Llama 3.2轻量模型登场:边缘设备AI视觉新时代开启

Meta推出Llama 3.2系列1B/3B参数模型,支持边缘设备高效运行,具备强大视觉理解能力。开源社区反响热烈,下载量激增超20万互动。该模型低成本部署潜力巨大,推动手机与物联网AI应用,挑战云端AI垄断格局。

Llama 3.2 开源AI Meta
60 02-04

OpenAI o1模型数学推理突破:ARC-AGI基准达83%,开启AI推理新时代

OpenAI近日发布的o1-preview模型在数学和编码基准测试中大幅超越GPT-4o,ARC-AGI得分高达83%,引发热议。其‘思考链’机制标志AI从生成向推理转型,开发者分享复杂问题求解案例,X平台互动超50万,业内讨论AGI路径加速。

OpenAI o1模型 数学推理
65 02-04
9 10 11 12 13

© 1998-2026 嬴政天下 All rights reserved.

继续秉承 我为人人 · 人人为我 的精神,始于1998,再启航于2025

关于赢政天下 投稿 RSS Sitemap 隐私政策 服务条款