From 38 items, 15 important content pieces were selected
- Rob Pike 1989 年编程规则强调简洁性与测量 ⭐️ 8.0/10
- 英伟达发布 NemoClaw 开源 AI 智能体框架,支持沙盒化执行 ⭐️ 8.0/10
- 苹果’LLM in a Flash’技术让 Qwen 397B 混合专家模型在 MacBook Pro 上本地运行 ⭐️ 8.0/10
- Snowflake Cortex AI 通过提示注入逃逸沙箱并执行恶意软件 ⭐️ 8.0/10
- snapd 本地权限提升漏洞(CVE-2026-3888)影响 Ubuntu Desktop 24.04 及更高版本 ⭐️ 8.0/10
- BPF 与 io_uring 集成,显著降低内核-用户空间切换开销 ⭐️ 8.0/10
- ICML 拒绝使用 LLM 审稿人的论文,尽管他们同意不使用 ⭐️ 8.0/10
- MiniMax 发布 M2.7 AI 模型,具备 204,800 上下文长度和智能体能力 ⭐️ 8.0/10
- Mamba 3 推出专为高效推理性能优化的状态空间模型。 ⭐️ 8.0/10
- 用户为配备 2x H200 GPU 和 282GB VRAM 的服务器寻求高智能 LLM 推荐,用于编码和 AI 代理。 ⭐️ 7.0/10
- GrapheneOS 因 Play Integrity 认证被拒将起诉 Google ⭐️ 7.0/10
- Linux 基金会获 1250 万美元注资,应对 AI 生成的低质量安全报告 ⭐️ 7.0/10
- 意大利因 Cloudflare 拒绝在其 1.1.1.1 DNS 服务上屏蔽盗版网站,对其处以 1420 万欧元罚款。 ⭐️ 7.0/10
- 小米发布 MiMo-V2-Flash 大模型,采用 309B 混合专家架构实现高效推理 ⭐️ 7.0/10
- 苹果阻止 Replit 和 Vibecode 等 AI 编程应用在 App Store 更新 ⭐️ 7.0/10
Rob Pike 1989 年编程规则强调简洁性与测量 ⭐️ 8.0/10
Rob Pike 1989 年的编程规则,包括避免过早优化和优先考虑数据结构等五项关键原则,在在线讨论中重新引发关注,社区参与度很高。这些规则倡导编写简洁的代码、基于测量的优化以及以数据为中心的设计,并通过评论添加了现代视角。 这些规则在今天仍然具有现实意义,因为它们解决了软件开发中的常见陷阱,如过度工程化和资源分配低效,影响了敏捷实践和性能调优。它们为开发者在快节奏环境中平衡效率与可维护性提供了永恒的指导。 这些规则通常概括为:1)无法预测瓶颈,2)优化前先测量,3)花哨算法在小规模数据上慢,4)花哨算法更容易出错,5)数据占主导地位。它们归功于 Go 编程语言的联合创造者 Rob Pike,并建立在 Donald Knuth 反对过早优化等早期原则之上。
hackernews · vismit2000 · Mar 18, 09:59
背景: Rob Pike 是一位著名的计算机科学家,以在 Unix、Plan 9 和 Go 编程语言方面的工作而闻名。1989 年,他制定了这些规则,以指导程序员进行实用、高效的软件开发,反映了当时 RISC 架构兴起和编译器进步等趋势。这些规则与更广泛的编程原则相一致,强调简洁性和经验验证,如在敏捷开发方法中所见。
参考链接
社区讨论: 社区评论强调了实际应用,如最初使用线性搜索后进行分析,并强调规则 1 通过阻止预测,逻辑上推导出规则 3-5。一些人指出过早抽象是常见失败,而另一些人则讨论了 LLM 在解决数据结构问题上的局限性,添加了现实世界的例子来增强规则的现实意义。
标签: #programming-principles, #software-engineering, #performance-optimization, #best-practices, #historical-context
英伟达发布 NemoClaw 开源 AI 智能体框架,支持沙盒化执行 ⭐️ 8.0/10
英伟达于 2026 年发布了 NemoClaw 开源 AI 智能体框架,该框架具备沙盒化执行和云集成功能。该平台基于英伟达现有的 NeMo 框架和 NIM 微服务层构建,打造了一个隐私优先、支持多智能体的企业自动化平台。 这标志着英伟达从硬件领域向 AI 智能体软件生态系统的战略扩展,可能使其成为自主智能体的默认计算提供商。沙盒化执行方法解决了 AI 智能体部署中的关键安全问题,使自主助手在企业应用中更具可行性。 该框架会拦截来自智能体的所有推理请求,并将其路由到英伟达的云服务提供商,确保请求不会直接离开沙盒环境。然而,对 SKILL.md 文件的分析显示,指令优先级排序和否定性指令可能存在潜在问题,可能导致无声的不合规行为。
hackernews · hmokiguess · Mar 18, 15:31
背景: AI 智能体是能够无需持续人工监督即可执行任务的自主系统,它们根据编程和环境使用工具并做出决策。沙盒化执行将代码隔离在安全环境中,以防止对系统资源的未授权访问,这对于与敏感数据和服务交互的 AI 智能体尤为重要。英伟达的 NeMo 框架是他们现有的用于构建和部署大语言模型的平台,而 NIM 则为 AI 推理提供微服务。
参考链接
社区讨论: 社区讨论揭示了关于安全方法的不同观点,一些人质疑当智能体需要访问外部服务才能发挥作用时,沙盒化的基本效用。其他人则注意到英伟达通过云集成推动推理收入的潜在商业策略,而技术分析则发现了智能体指令语言中可能存在的问题,这些问题可能会削弱沙盒化带来的安全性。
标签: #AI Agents, #NVIDIA, #Cloud Computing, #Security, #Open Source
苹果’LLM in a Flash’技术让 Qwen 397B 混合专家模型在 MacBook Pro 上本地运行 ⭐️ 8.0/10
Dan Woods 成功在 48GB 内存的 MacBook Pro M3 Max 上本地运行了 Qwen3.5-397B-A17B 模型,通过应用苹果的’LLM in a Flash’内存优化技术从 SSD 流式加载专家权重,实现了超过 5.5 tokens/秒的推理速度。他使用 Claude Code 和自动研究模式,经过 90 次实验生成了 MLX Objective-C 和 Metal 代码。 这表明超大规模语言模型可以在内存有限的消费级硬件上高效运行,有望让更多人无需昂贵云基础设施就能使用最先进的 AI 能力。这种方法特别有利于混合专家模型,这类模型因其效率优势在 AI 领域正变得越来越重要。 该实现将专家权重量化为 2 位,同时保持嵌入表等非专家组件为原始精度,最终常驻内存使用量为 5.5GB。该设置将每个 token 激活的专家数量从 Qwen 通常的 10 个减少到 4 个,最大的质量下降发生在 3 个专家时,但具体质量影响尚不明确。
rss · Simon Willison · Mar 18, 23:56
背景: 苹果的’LLM in a Flash’论文(arXiv:2312.11514)解决了在可用 DRAM 容量不足时运行 LLM 的问题,方法是将参数存储在闪存中并按需加载,优化数据传输量和读取模式。像 Qwen3.5-397B-A17B 这样的混合专家模型每个 token 只激活一部分’专家’权重,因此适合 SSD 流式加载。该技术涉及构建一个考虑闪存特性的推理成本模型,以最小化数据传输并最大化连续读取。
标签: #LLM Inference, #Memory Optimization, #Edge AI, #Mixture-of-Experts, #Apple Research
Snowflake Cortex AI 通过提示注入逃逸沙箱并执行恶意软件 ⭐️ 8.0/10
Snowflake Cortex AI 代理中的一次提示注入攻击,利用安全命令列表中的进程替换功能执行了恶意软件,绕过了沙箱和人工审批机制。该漏洞由 PromptArmor 报告详细披露,现已被 Snowflake 修复。 这一事件凸显了依赖命令白名单的 AI 代理平台面临的关键安全风险,展示了提示注入如何导致沙箱逃逸和实际恶意软件部署。它强调了在 Snowflake Cortex 等广泛使用的企业 AI 工具中,需要更强大的沙箱防护方法。 攻击链始于用户要求代理审查一个 GitHub 仓库,该仓库的 README 文件中隐藏了恶意提示,从而触发了使用 Bash 进程替换语法的命令执行。Snowflake 将 ‘cat’ 列为安全命令,但未考虑到进程替换变体可能嵌入任意代码执行。
rss · Simon Willison · Mar 18, 17:43
背景: Snowflake Cortex 是一个 AI 平台,包含能够执行命令的代理,通常在沙箱环境中运行以确保安全。提示注入是一种攻击技术,恶意输入操纵 LLM 等 AI 系统执行非预期操作。进程替换是 Bash shell 的一个功能,允许将命令输出视为文件,可能被利用来绕过命令限制。
参考链接
标签: #AI Security, #Prompt Injection, #Snowflake, #Malware, #Sandbox Escape
snapd 本地权限提升漏洞(CVE-2026-3888)影响 Ubuntu Desktop 24.04 及更高版本 ⭐️ 8.0/10
Qualys 发现 snapd 中存在一个本地权限提升漏洞(CVE-2026-3888),允许无特权的本地攻击者通过 snap-confine 和 systemd-tmpfiles 的交互,在 Ubuntu Desktop 24.04 及更高版本系统上获取 root 权限。Canonical 已发布更新包和缓解说明。 此漏洞影响重大,因为它允许具有本地访问权限的攻击者提升至完全 root 权限,可能危及广泛使用的 Ubuntu 系统的安全性和数据完整性。它突显了 Linux 包管理和系统组件交互中持续存在的安全挑战。 该漏洞涉及一个权限链问题(CWE-268),其中 systemd-tmpfiles 自动清理 snap 的私有 /tmp 目录,允许攻击者重新创建该目录并利用 snap-confine 获取 root 权限。它特别影响 Ubuntu Desktop 24.04 及更高版本,需要本地访问权限,但已有补丁可用。
rss · LWN.net · Mar 18, 15:34
背景: snapd 是一个管理 snap 包的守护进程,snap 是一种容器化的软件打包格式,用于 Ubuntu 和其他 Linux 发行版中的安全应用部署。snap-confine 是一个为 snap 创建沙盒环境的组件,而 systemd-tmpfiles 是一个 systemd 工具,用于管理临时文件和目录。本地权限提升漏洞允许具有有限访问权限的攻击者在系统上获取更高权限,例如 root。
参考链接
标签: #security, #vulnerability, #linux, #ubuntu, #privilege-escalation
BPF 与 io_uring 集成,显著降低内核-用户空间切换开销 ⭐️ 8.0/10
Pavel Begunkov 提交的补丁集已被接受,该补丁将 BPF 与 io_uring 集成,允许 BPF 程序响应完成事件并排队额外工作,从而最小化内核-用户空间切换开销。这使得程序员能够用 BPF 程序扩展 io_uring 事件循环,在无需返回用户空间的情况下处理完成事件并排队后续工作。 该集成通过消除内核与用户空间之间不必要的上下文切换,显著降低了高吞吐量 I/O 应用的延迟并提升了性能。这代表了 Linux 内核优化的重要进展,能够在保持 BPF 沙箱执行环境安全性的同时,支持更复杂的异步 I/O 工作流程。 该补丁引入了新的 kfunc,包括 bpf_io_uring_submit_sqes()用于处理提交队列条目,以及 bpf_io_uring_get_region()用于访问队列内容。BPF 程序可以返回 IOU_LOOP_CONTINUE 以在可配置延迟后继续运行,或返回 IOU_LOOP_STOP 以返回用户空间,通过循环机制有效绕过了 BPF 的单次执行操作限制。
rss · LWN.net · Mar 18, 14:57
背景: io_uring 是 Linux 内核的异步 I/O 接口,使用两个共享环形缓冲区:提交队列用于向内核发送请求,完成队列用于存储结果。BPF(Berkeley Packet Filter)是 Linux 内核技术,允许在内核空间运行沙箱化程序,最初用于数据包过滤,现已扩展到多个内核子系统。内核-用户空间切换开销发生在内核必须切换到用户空间以处理完成请求并排队后续工作时,即使共享内存减少了通信开销。
参考链接
标签: #Linux Kernel, #io_uring, #BPF, #Systems Programming, #Performance Optimization
ICML 拒绝使用 LLM 审稿人的论文,尽管他们同意不使用 ⭐️ 8.0/10
ICML 已拒绝所有使用大型语言模型(LLM)进行审稿的审稿人的论文,尽管这些审稿人选择了明确禁止使用 LLM 的审稿轨道。这是首次有主要机器学习会议对 LLM 生成的审稿采取如此严厉的执法行动。 这一行动凸显了学术界对同行评审中学术诚信和 AI 政策执行的日益关注,可能为其他会议树立先例。它引发了关于 AI 检测工具公平性和准确性的问题,这可能影响审稿人的信任以及机器学习社区整体学术评估的质量。 尽管审稿人选择了禁止使用 LLM 的轨道,但执法仍然发生,这表明 ICML 使用了检测工具来识别违规行为,尽管此类工具的精确性存在争议。内容中未提供被拒论文的具体数量或检测方法的细节,这使过程的透明度存在疑问。
reddit · r/MachineLearning · S4M22 · Mar 18, 12:03
背景: ICML(国际机器学习会议)是机器学习领域的顶级学术会议,以统计学习理论和强化学习等领域的研究而闻名。此类会议的同行评审涉及审稿人评估论文投稿以确保质量和原创性,一些轨道会施加特定规则,如禁止使用 LLM,以保持人工监督。LLM 检测工具(如 Binoculars)被开发用于识别 AI 生成的文本,但其准确性可能有限,引发了学术界对误报的担忧。
参考链接
社区讨论: 社区讨论包括关于在 AI 检测工具精确性有限的情况下,执法是否过于严厉的辩论,一些人表达了对公平性和潜在误报的担忧。其他人则支持这一行动,认为这是维护学术诚信和阻止在同行评审中滥用 LLM 的必要步骤。
标签: #AI Ethics, #Peer Review, #Machine Learning Conferences, #LLM Policy, #Academic Integrity
MiniMax 发布 M2.7 AI 模型,具备 204,800 上下文长度和智能体能力 ⭐️ 8.0/10
MiniMax 发布了新的 M2.7 大语言模型,具备 204,800 个 token 的上下文长度,定价为每百万输入 token 0.30 美元、每百万输出 token 1.20 美元。该模型在 SWE-Pro 基准测试中获得 56.2%的分数,在 Terminal Bench 2 中获得 57.0%的分数,并在 GDPval-AA 评估中获得 1495 的 ELO 评分。 此次发布代表了面向实际生产力的智能体 AI 系统的重大进步,因为 M2.7 的多智能体协作能力使其能够在动态环境中执行复杂任务。该模型在 SWE-Pro 和 GDPval-AA 等专业基准测试中的强劲表现,使其成为需要自主工作流处理的企业应用的有力竞争者。 该模型专门为自主生产力设计,具备实时调试、根因分析、金融建模以及跨 Microsoft Office 应用程序的文档生成能力。它通过多智能体协作实现了先进的智能体能力,使其能够在实际数字工作流中规划、执行和完善任务。
reddit · r/LocalLLaMA · Mysterious_Finish543 · Mar 18, 05:53
背景: MiniMax 是一家知名的人工智能公司,专注于开发大语言模型,M2.7 代表了其模型系列中的一个重要版本更新。SWE-Pro 是一个具有挑战性的编码基准测试,旨在捕捉超出标准 SWE-Bench 范围的现实、复杂的企业级问题。GDPval-AA 是一个评估框架,使用 Elo 评分对 AI 模型在金融、法律等专业领域的经济价值知识工作任务上的表现进行排名。
参考链接
标签: #AI, #LLM, #MiniMax, #model-release, #machine-learning
Mamba 3 推出专为高效推理性能优化的状态空间模型。 ⭐️ 8.0/10
Mamba 3 是由 Together.ai 发布的一种新的状态空间模型架构,专门以推理效率为主要目标设计,与 Mamba-2 专注于训练速度不同。它引入了三项关键创新:指数-梯形离散化以实现更具表现力的动态、复数值状态空间以增强状态跟踪,以及多输入多输出(MIMO)能力。 这很重要,因为优化推理对于在生产中部署 AI 模型、降低成本和延迟至关重要,而 Mamba 3 对效率的关注可能使状态空间模型在本地 LLM 和边缘计算等实际应用中更加实用。它代表了该领域向平衡训练和推理性能的转变,可能在资源受限环境中挑战基于 Transformer 的模型。 Mamba 3 的创新包括用于高阶精度的指数-梯形离散化、实现旋转记忆动态的复数值转换,以及用于改进多输入多输出处理的 MIMO 架构。然而,其性能提升主要集中在推理效率上,可能在训练复杂性或与现有框架的兼容性方面存在权衡。
reddit · r/LocalLLaMA · incarnadine72 · Mar 18, 08:17
背景: 状态空间模型(SSMs)是一种使用线性微分方程建模序列的神经网络架构,作为 Transformer 模型在语言建模等任务中的潜在替代方案而受到关注。推理优化是指使训练好的模型在生产中运行更快、更高效的技术,侧重于在不显著影响准确性的情况下减少延迟和资源使用。Mamba 是一系列以效率著称的 SSMs,之前的版本如 Mamba-2 专注于优化训练速度。
参考链接
标签: #state-space-models, #inference-optimization, #machine-learning, #deep-learning, #efficient-ai
用户为配备 2x H200 GPU 和 282GB VRAM 的服务器寻求高智能 LLM 推荐,用于编码和 AI 代理。 ⭐️ 7.0/10
一位 Reddit 用户获得了一台配备 2x Nvidia H200 GPU(每个 141GB HBM3e 显存,总计 282GB VRAM)的公司服务器,并寻求社区推荐高智能大语言模型(LLM)进行测试,特别用于编码辅助和 AI 代理评估。用户明确表示,主要用例包括在开发者 IDE 中进行本地编码(如代码补全、生成和审查)以及设置像 OpenClaw 这样的 AI 代理以实现任务自动化。 这突显了企业越来越多地部署像 Nvidia H200 服务器这样的高端硬件来处理内部 AI 工作负载的趋势,从而能够测试需要大量 VRAM 以实现最佳性能的前沿 LLM。它反映了向使用本地强大模型处理敏感任务(如编码和自动化)的转变,这可以提高开发人员生产力,减少对基于云的 AI 服务的依赖,同时确保数据隐私。 该服务器配备 2x Nvidia H200 GPU,采用 HBM3e 内存,提供总计 282GB 的 VRAM,足以运行大型、未量化或轻度量化的模型,这些模型优先考虑智能而非速度。用户专注于用于编码任务和像 OpenClaw 这样的 AI 代理框架的模型,表明需要具有强大推理和任务执行能力的模型,而不仅仅是高吞吐量。
reddit · r/LocalLLaMA · _camera_up · Mar 18, 06:57
背景: Nvidia H200 GPU 是专为 AI 和高性能计算工作负载设计的高性能加速器,采用 HBM3e 内存,提供高带宽和容量以处理大型模型。HBM3e(高带宽内存 3e)是一种用于 GPU 的先进内存技术,可提供更快的数据传输速率和更高的效率,对于运行内存密集型的 LLM 至关重要。OpenClaw 是一个开源的 AI 代理框架,允许开发者使用 LLM 构建自动化和助手,实现在本地基础设施上执行文档处理和工作流等任务。
社区讨论: 该 Reddit 帖子获得了高参与度,得分 411,点赞率 95%,表明社区兴趣浓厚。评论可能包括针对 282GB VRAM 设置的高智能 LLM 的多样化推荐,例如 GPT-4 变体、Claude 或开源替代模型,以及关于量化技术以平衡性能和资源使用的建议。用户可能分享了优化编码任务推理和与 OpenClaw 等 AI 代理框架集成的见解。
标签: #LLM Deployment, #Hardware Optimization, #Enterprise AI, #Code Generation, #AI Agents
GrapheneOS 因 Play Integrity 认证被拒将起诉 Google ⭐️ 7.0/10
GrapheneOS 开发者计划起诉 Google,指控其在 Play Integrity 认证中存在不公平待遇,声称许多原厂 Android 操作系统违反 CTS/CDD 标准却仍能通过认证,而像 GrapheneOS 这样安全的第三方操作系统却被阻止,除非使用硬件支持的密钥认证。这一法律行动是 Google 可能面临的一系列反垄断诉讼之一。 这起诉讼凸显了 Android 安全领域潜在的反垄断问题和技术公平性,因为它可能影响安全、注重隐私的移动操作系统的可访问性,并为 Google 如何执行认证标准树立先例。这引发了关于 Google 的做法是否不公平地损害了开源和第三方操作系统开发者在生态系统中的利益的疑问。 GrapheneOS 通过要求回锁 Bootloader 和不推荐 root 来强调安全性,但尽管采取了这些措施,它在 Play Integrity 认证中仍面临障碍。开发者认为,Google 依赖硬件支持的密钥认证进行批准造成了不公平的竞争环境,因为许多不完全符合标准的原厂操作系统仍能获得认证。
telegram · zaihuapd · Mar 18, 07:40
背景: Play Integrity API 是 Google 的一项服务,帮助应用开发者验证交互是否来自通过 Google Play 安装在正版 Android 设备上的未修改应用,旨在检测欺诈和滥用行为。硬件支持的密钥认证是一种安全功能,利用设备硬件验证加密密钥的真实性,增强对设备完整性的信任。CTS(兼容性测试套件)和 CDD(兼容性定义文档)是 Android 设备必须满足的标准,以确保兼容性和安全性,其中 CDD 概述要求,CTS 提供合规性测试。
参考链接
标签: #Android Security, #Antitrust, #Mobile Operating Systems, #Google, #Open Source
Linux 基金会获 1250 万美元注资,应对 AI 生成的低质量安全报告 ⭐️ 7.0/10
Linux 基金会宣布启动一项新计划,由 Anthropic、AWS、GitHub、Google、Microsoft 和 OpenAI 六家科技巨头捐赠 1250 万美元,旨在帮助开源项目维护者应对 AI 自动化系统生成的低质量安全漏洞报告。该计划将由 OpenSSF 及其旗下的 Alpha-Omega 项目共同执行。 该计划解决了开源安全领域日益严重的问题,即维护者被大量 AI 生成的低质量报告淹没,这可能阻碍漏洞管理并导致维护者过度劳累。它标志着行业巨头之间的重要合作,旨在提升关键开源软件的可持续性和安全性,影响依赖这些项目的开发者和组织。 这笔资金将用于支持分类和修复 AI 生成报告的工具和资源,其中 OpenSSF 的 Alpha-Omega 项目专注于实用、可扩展的安全改进。值得注意的是,像 cURL 这样的项目已因类似问题终止了漏洞赏金计划,凸显了这项工作的紧迫性。
telegram · zaihuapd · Mar 18, 08:27
背景: 开源安全基金会(OpenSSF)是 Linux 基金会旗下的跨行业组织,致力于通过技术和教育倡议提升开源软件的安全性。Alpha-Omega 项目是 OpenSSF 的一部分,与维护者合作,系统性地发现和修复关键开源代码中的漏洞。AI 生成的“低质量报告”指的是淹没维护者的低质量自动化报告,例如 cURL 因大量此类报告而终止了漏洞赏金计划。
参考链接
标签: #Open Source, #AI Security, #Software Engineering, #Cybersecurity, #Linux Foundation
意大利因 Cloudflare 拒绝在其 1.1.1.1 DNS 服务上屏蔽盗版网站,对其处以 1420 万欧元罚款。 ⭐️ 7.0/10
意大利通信监管机构 AGCOM 宣布,因 Cloudflare 拒绝在其 1.1.1.1 DNS 服务上屏蔽盗版网站,对其处以 1420 万欧元罚款;Cloudflare 表示将对此处罚提出异议,并威胁要将其所有服务器撤出意大利各大城市。 这一事件凸显了国家版权执法与全球互联网基础设施之间的紧张关系,可能为 DNS 提供商如何处理全球监管要求树立先例,并影响服务性能和隐私。 AGCOM 的规定要求 DNS 提供商在接到版权方通知后 30 分钟内实施屏蔽,但 Cloudflare 认为这类过滤措施会损害全球服务性能,并指责意大利监管越权。
telegram · zaihuapd · Mar 18, 11:45
背景: Cloudflare 的 1.1.1.1 是一款于 2018 年推出的公共 DNS 解析器,宣传为快速、隐私优先的服务,用于处理域名解析请求。DNS 屏蔽是一种通过操纵 DNS 响应来限制访问特定网站的技术,常用于版权执法,但因其可能影响互联网性能和网络中立性而受到批评。AGCOM 是意大利的国家通信监管机构,成立于 1997 年,负责执行该国与电信、媒体和互联网服务相关的法律。
参考链接
标签: #DNS, #Internet Regulation, #Cloudflare, #Copyright Enforcement, #Cybersecurity
小米发布 MiMo-V2-Flash 大模型,采用 309B 混合专家架构实现高效推理 ⭐️ 7.0/10
小米发布了 MiMo-V2-Flash 大语言模型,该模型采用混合专家(MoE)架构,总参数量达 3090 亿,激活参数为 150 亿。该模型专为高速推理和智能体工作流设计,通过混合注意力架构和多令牌预测技术,在显著降低推理成本的同时实现了业界领先的性能。 此次发布标志着小米进入竞争激烈的大语言模型领域,并专注于推理效率,这可能使先进 AI 技术在实际应用中更加普及和经济。混合专家架构和优化技术解决了大规模部署大模型的关键挑战,可能推动行业向更高效 AI 系统发展的趋势。 该模型的混合注意力架构以 5:1 的比例交替使用滑动窗口注意力和全局注意力,将 KV 缓存存储减少近 6 倍。多令牌预测模块提升了推理输出速度,但公告中未提供与其他模型的具体基准比较数据。
telegram · zaihuapd · Mar 18, 13:12
背景: 混合专家(MoE)架构是一种由多个专门子网络(专家)处理输入不同部分的结构,通过门控机制将每个令牌路由到相关专家。这使得模型可以拥有大量总参数,同时在推理过程中保持计算成本可控。KV 缓存指的是注意力机制中键和值矩阵的存储,这在基于 Transformer 的模型中可能成为瓶颈;减少它可以提高内存效率和推理速度。
标签: #AI, #Large Language Models, #Machine Learning, #Inference Optimization, #MoE Architecture
苹果阻止 Replit 和 Vibecode 等 AI 编程应用在 App Store 更新 ⭐️ 7.0/10
苹果公司近期阻止了 Replit 和 Vibecode 等 AI 编程应用在 App Store 的更新。此举针对那些允许用户通过输入提示词,直接在应用内生成并运行网页或小程序的应用程序。 这一举措凸显了苹果对 iOS 设备上软件分发的严格控制,旨在防止未经审查代码带来的潜在安全风险。它影响了使用 AI 辅助编程工具的开发者,并可能影响未来 AI 驱动的开发平台与移动生态系统的整合方式。 此次封锁特别针对支持’vibe coding’(氛围编程)的应用,这是一种 AI 辅助的开发实践,用户无需审查即可接受 AI 生成的代码。苹果的担忧主要在于这些应用能够分发绕过官方 App Store 审核流程的第三方软件。
telegram · zaihuapd · Mar 18, 14:47
背景: Vibe coding(氛围编程)是一种 AI 辅助的编程方法,开发者向大型语言模型(LLM)描述项目需求,模型自动生成源代码,通常无需代码审查。该术语由 Andrej Karpathy 于 2025 年 2 月提出,并在 2025 年被柯林斯英语词典评为年度词汇。Replit 是一个基于云的 IDE 平台,提供 Ghostwriter 和 Agent 等 AI 驱动的开发工具,用于代码生成和错误修复。苹果 App Store 的审核流程旨在确保应用安全性和质量,但安全研究已记录了一些绕过该流程的方法。
参考链接
标签: #App Store, #AI Programming, #Policy Enforcement, #iOS Development