视频扩散模型新突破!清华&腾讯实现保真3D生成,告别多视图依赖
Scene Splatter 团队投稿 量子位 | 公众号 QbitAI 三维场景是构建世界模型、具身智能等前沿科技的关键环节之一。 尽管 Hunyuan3D、Rodin-v1.5、Tripo-v2.5 等生成模型已在三维生成领域取得显著进展,但其往往聚焦在物体级别内容生成,难以实现复杂三维场景的构
Figure自曝完整技术:60分钟不间断打工,我们的机器人如何做到?
鹭羽发自凹非寺 量子位 | 公众号 QbitAI 好家伙,机器人进厂打工原视频流出,整整 60 分钟,完全未剪辑。 前几天 Figure 02 晒 1 分钟物流分拣视频,网友们完全没看够啊。 于是 Figure 创始人立马 60 分钟进厂打工 vlog(未删减版)奉上。 可灵活处理更多类型包裹,更接
全面评测图像编辑模型推理能力:所有模型在程序性推理方面表现差
KRIS-Bench 团队投稿 量子位 | 公众号 QbitAI 人类在学习新知识时,总是遵循从“记忆事实”到“理解概念”再到“掌握技能”的认知路径。 AI 是否也建立了“先记住单词,再理解原理,最后练习应用”的这种知识结构呢? 测评一下就知道了! 东南大学联合马克斯·普朗克信息研究所、上海交通大学
脑机接口新系统成失语者“数字声带”
科技日报北京 6 月 15 日电 (记者张梦然)美国加州大学戴维斯分校团队开发出一种研究性脑机接口,有望帮助因神经系统疾病而失去说话能力的人重新“发声”。这项成果发表在最新一期《自然》杂志上,展示了该技术如何在人尝试说话时,立即将大脑活动转化为语音,从而创建出一种“数字声带”
DeepSeek研究员1200行代码复刻vLLM,H800硬件实测性能反超原版
西风发自凹非寺 量子位 | 公众号 QbitAI 仅用不到 1200 行代码,实现最小化且完全可读的 vLLM DeepSeek 研究员俞星凯搞了个开源项目引得大伙拍手叫绝。 项目名为Nano-vLLM(纳米级-vLLM),有三大特点: 快速离线推理:推理速度可与 vLLM 相媲美 可读性强的代码库
超越英伟达B200!AMD最强AI芯:1.6倍大内存、大模型推理快30%
克雷西发自凹非寺 量子位 | 公众号 QbitAI AMD 大招逆袭,最强 AI 芯片号称大模型推理比英伟达 B200 快 30%! CEO 苏姿丰与 OpenAI 奥特曼共同登台发布。 这次 AMD 发布了 MI350X 和 MI355X 两款 GPU,采用 3nm 工艺,包含 1850 亿晶体管
韦东奕论文登数学顶刊,将散焦方程的爆破性研究扩展至d≥4
韦东奕论文再登数学顶刊! 就在备受关注之际,韦神本韦和另两位北大学者章志飞、邵锋合作的一篇论文已发表于数学界顶级期刊《Forum of Mathematics, Pi(数学论坛,π) 》。 论文题目为《On blow-up for the supercritical defocusing nonli
每一幕皆可控!字节发布多主体视频生成神器,人人皆主角
字节投稿 量子位 | 公众号 QbitAI 仅基于一张参考图像,生成主体保持高度一致的视频,多人同台也不串脸 字节发布多主体视频生成神器——MAGREF(Masked Guidance for Any‑Reference Video Generation) 比如,爱因斯坦版风驰电掣**摩托,效果 b
一句话生成任务专属LoRA!Transformer作者创业公司颠覆LLM微调
鹭羽发自凹非寺 量子位 | 公众号 QbitAI 告别繁琐微调,一句话就能生成 LoRA?! 由 Transformer 作者之一 Llion Jones 联合创立的明星 AI 公司 SakanaAI,近期推出 Text-to-LoRA(T2L),彻底简化了模型适配流程: 现在,微调大模型时动辄数周
从星巴克到瑞幸,咖啡的“限定”降价谎言
文 | 胖鲸头条,作者 | Hanna Zhou 6 月 10 日,星巴克中国正式官宣降价举措,覆盖范围“限定”在旗下星冰乐、冰摇茶、茶拿铁等非咖类饮品,平均降价幅度在 2-6 元。虽然名义上咖啡类饮品不参与降价,但消费者可以选择“非咖饮品+浓缩”的方式曲线救国,吃上降价的红利。 星巴克非咖饮品降价
丹麦一政府部门准备淘汰 Windows 和 Microsoft 365
丹麦数字事务部准备从下个月开始,淘汰 Windows 和 Microsoft 365,切换到 Linux 和 LibreOffice。该计划将逐步推进,首先半数员工改用 Linux 和 LibreOffice,如果一切顺利,所有员工将从秋季开始使用开源解决方案。部长 Caroline Stage 表
Anker 召回逾百万台有起火风险的移动电源
安克(Anker)宣布召回逾百万台有起火风险的移动电源 PowerCore 10000(型号 A1263)。美国消费者产品安全委员会 (USCPSC) 称它收到了 19 起火灾和爆炸报告,这些事故造成了轻微烧伤和总计逾 60,700 美元的财产损失。召回的产品总数约 1,158,000 台,于 20
迪士尼和 NBC 起诉 Midjourney 侵犯版权
迪士尼和 NBC 环球在洛杉矶地方法院对提供 AI 文本图像生成服务的 Midjourney 公司提起侵权诉讼,这是好莱坞巨头首次对一家生成式 AI 公司提起法律诉讼。两大巨头指控 Midjourney 未经许可利用无数版权保护作品训练其模型,允许用户创建包含知名角色的图像,包括达斯维达、小黄人、《
MS Office 的版本控制从 Source Depot 迁移到 Git
本世纪初,微软面临一大难题:Windows 操作系统日益复杂,代码行数数以百万计,迫切需要某种版本控制系统。Git 当时还不存在。Subversion(SVN)才走出 CVS 的影子,商业版本控制系统 Perforce 则过于昂贵。微软毕竟是微软,它决定基于 Perforce 构建自己的系统。于是
为什么几万块的车,都开始有先进辅助驾驶了?
为什么几万块的车,都开始有先进辅助驾驶了? 属于汽车的一切都在重构,以往通过马力和轴距构筑的森严等级正在松动,技术破解了品牌迷信,也正在建立新的平权。ADAS 芯片正在汽车辅助驾驶领域重写类似于电脑和手机芯片曾有过的技术史诗,从实验室的庞然大物,到少数产品的高高在上,再迅速地完成算力增长、价格降低的
红魔电竞平板 3Pro:出门时是一手掌握的游戏平板,放在家里是全能游戏机
6 月 11 日,红魔发布新一代游戏平板红魔电竞平板 3Pro,是一款主打旗舰性能的真小尺寸平板。 平板搭载了高通骁龙 8 至尊版移动平台和红芯 R3 Pro 芯片,支持 CUBE 擎天游戏内核,搭配 LPDDR5T 和 UFS4.1 Pro 储存组合,可以说是完整的旗舰手机配置。常温状态下,它的安
对话影石创始人刘靖康:不走低价的性价比,是我们成功的关键
6 月 11 日,影石创新科技股份有限公司正式登陆上海证券交易所科创板。上市首日开盘价为 182 元/股,较发行价上涨 285%,总市值突破 700 亿元。 除了涨势喜人之外,影石创新成功 IPO 的另一个新闻点在于这家公司的创始人兼董事长:90 后的刘靖康,他也是第一位在科创板敲钟的 90 后创始
Visual Studio Code 1.101 发布
Visual Studio Code 1.101 现已发布,此版本包含多项更新。具体更新内容如下: MCP 通过对提示、资源和采样的支持来扩展你的代理编码流程(显示更多)。 访问需要身份验证的 MCP 服务器(显示更多)。 使用开发模式调试 MCP 服务器(显示更多)。 从扩展发布 MCP 服务器(
甲骨文创始人埃里森跃居全球第二大富豪,仅次于马斯克
据《福布斯》数据显示,截至当地时间周四中午,甲骨文公司联合创始人兼董事长拉里・埃里森的净资产猛增 250 亿美元,达到 2420 亿美元,轻松成为亿万富翁中单日增幅最大的一位。 这一增长足以让埃里森超越亚马逊董事长杰夫・贝佐斯(净资产 2280 亿美元)和 Meta 首席执行官马克・扎克伯格(净资产
GitLab 曝高危漏洞组合:攻击者可实现完全账户接管
GitLab 社区版(CE)和企业版(EE)平台近期曝出一系列关键安全漏洞,攻击者可利用这些漏洞实现完全账户接管,进而入侵整个开发基础设施。该公司已紧急发布 18.0.2、17.11.4 和 17.10.8 三个补丁版本,修复了十个独立安全缺陷,其中多个漏洞的 CVSS 严重性评分超过 8.0。这些
5000次风暴,谷歌训出AI预言家!天气预报ChatGPT时刻?
新智元报道 编辑:KingHZ AI 也能预测台风!在性能上,谷歌首次推出了明确超越主流物理模型的 AI 台风预测模型。这有望拯救数万生命。 昨天,谷歌 DeepMind 与谷歌研究团队正式推出交互式气象平台 Weather Lab,用于共享人工智能天气模型。 在热带气旋路径预测方面,谷歌这次的新模
光场显微飞跃AI时代!清华等首提SeReNet:毫秒级高分辨光场三维重建
新智元报道 编辑:LRST SeReNet 是一个物理驱动的自监督三维重建网络,能在毫秒级速度下实现高保真、高分辨率的光场三维重建,摆脱了对标签数据的依赖,显著提升了活体成像的效率和质量。 细胞是生命最基本的构造单元,而它们的诸多功能以及细胞间复杂精密的交互作用,往往只有在活体动物的真实生理与病理状
腾讯打出「AI岗位薪酬不限」的底气来自哪?
机器之心报道 机器之心编辑部 又到一年毕业季。这个 6 月,相信很多同学都已经收到了心仪的实习 offer,或者在准备秋招投递。 对于 AI 相关专业毕业生来说,就业市场选择很多,各个大厂、小厂、初创都在积极招揽 AI 人才。 但目前行业变化很快,今天还是 SOTA 的模型明天可能就被挤到第二名,下
1200行代码逆袭!DeepSeek工程师开源轻量级vLLM,吞吐量逼近原版
机器之心报道 机器之心编辑部 开源社区的人应该对 vLLM 不陌生,它是一个由加州大学伯克利分校团队开发的高性能、开源 LLM 推理和服务引擎,核心目标是提升 LLM 的推理速度(吞吐量)和资源利用率(尤其是内存),同时兼容 Hugging Face 等流行模型库。 简单来说,vLLM 能让 GPT
“甲方快乐模型”成平面设计新SOTA!多条件一键生成 |复旦&字节
CreatiDesign 团队投稿 量子位 | 公众号 QbitAI 平面设计师有救了! 复旦大学和字节跳动团队联合提出 CreatiDesign 新模型,可实现高精度、多模态、可编辑的 AI 图形设计生成。 △CreatiDesign 能生成各种类型的平面设计图,如电影海报、品牌促销、产品广告和社
最大的开源GraphRag:知识图谱完全自主构建|港科大&华为
AutoSchemaKG 团队投稿 量子位 | 公众号 QbitAI 知识图谱(KGs)已经可以很好地将海量的复杂信息整理成结构化的、机器可读的知识,但目前的构建方法仍需要由领域专家预先创建模式,这限制了 KGs 的可扩展性、适应性和领域覆盖范围。 为此,香港科技大学 KnowComp 实验室联合香
LeCun世界模型出2代了!62小时搞定机器人训练开启物理推理新时代
闻乐发自凹非寺 量子位 | 公众号 QbitAI 物理学正在走向人工智能—— Meta 开源发布V-JEPA 2世界模型:一个能像人类一样理解物理世界的 AI 模型。 图灵奖得主、Meta 首席 AI 科学家Yann LeCun亲自出镜宣传,并称:我们相信世界模型将为机器人技术带来一个新时代,使现实
每秒生成超30帧视频,支持实时交互!自回归视频生成新框架来了
NFD 团队投稿 量子位 | 公众号 QbitAI 在 A100 上用 310M 模型,实现每秒超 30 帧自回归视频生成,同时画面还保持高质量! 视频生成现在都快这个程度了? 最近,来自微软研究院的团队与北大联合发布新框架——Next-Frame Diffusion (NFD) 通过实现帧内并行采
MSRA清北推出强化预训练!取代传统自监督,14B模型媲美32B
鹭羽发自凹非寺 量子位 | 公众号 QbitAI “预测下一个 token”——这个支撑 LLM 的核心训练机制,正在被强化学习颠覆。 微软亚洲研究院(MSRA)联合清华大学、北京大学提出全新预训练范式 RPT(强化预训练),首次将强化学习深度融入预训练阶段,让模型在预测每个 token 前都能先“
百度推出真·AI相机,拍照存储管理一步到位
西风发自凹非寺 量子位 | 公众号 QbitAI 百度网盘、文库又双叒联合上新了—— 真·AI 相机来了,拍照、存储、管理一体 此 AI 相机“即拍即存”,拍完的照片自动归档至云相册,不用担心手机因空间不足要删照片。 进入相册即可触发智能分类管理,无需手动翻找陈年旧照,一句话描述就能精准检索目标图片