AI
刷新
10 卷积神经网络CNN原理

博主头像 1. 全连接层 前文中我们讨论的几乎都是全连接层,也就是在层间,每个神经元都与前一层的所有神经元相连接,如图: 也就是每层的每个feature,都与前一层所有features相关联,是前一层所有features乘以一个权重矩阵W得来的。(这里为了简化理解,我们暂不考虑bias,activation ...

一文读懂知识蒸馏

博主头像 一文读懂知识蒸馏 一句话解释:知识蒸馏是一种模型压缩技术(model compression technique),通过让小模型(学生模型)学习大模型(教师模型)的输出或中间表示,以在保持精度的同时减少计算量和存储需求。 传统意义上的知识蒸馏 背景知识及总览 Bucilua等人(2006年)首次提出 ...

从家用显卡到AI文生视频——Wan2.1本地部署教程与一键包分享

博主头像 今天要聊一聊AI文生视频的最新进展。一直以来,AI生成视频对硬件的要求都让人望而却步,尤其是家用显卡,总是感觉“心有余而力不足”。 AI文生视频以前 基本需要的显存大概几十上百G 但最近,阿里开源的 Wan2.1 彻底改变了这一局面!它不仅让普通消费级GPU也能轻松生成视频,还能在短短10分钟左右搞 ...

MM-LLM 数据侧论文速读

LAION-5B 提出 CLIP 得分来计算文本图像 embedding 之间的余弦相似度的筛选方法 使用 CLIP 筛选图像文本对,过滤相似度得分低于0.28的数据 DataComp 多模态数据集作为 MM-LLM 发展的关键组成部分,没有得到充分的研究关注。为了弥补这一不足,我们引入了 Data ...

LLM 数据侧论文速读

MAYBE ONLY 0.5% DATA IS NEEDED 更少的数据可以省掉训练时间和训练的成本,并且很容易保证数据的高质量,很简单很直觉的想法 Coreset Selection 目标是使用尽可能少的样本找到一个接近完整数据集分布的小集合 先通过 Bert 获取 Embedding,然后在高维 ...

数据集蒸馏论文速读

Dataset Distillation 18年的论文,最早提出数据蒸馏的概念 理论 通常的梯度下降是小批量的 SGD,每次都需要从训练数据中选一个 minibatch 来更新。这篇文章的重点是学习到一个合成数据 \(\hat x=\{\hat x_i\}_{i=1}^M\) 和学习率 \(\hat ...

大模型知识引擎 LKE 新手入门指南:官方文档难懂?看这篇就够了

博主头像 昨天简单体验了一下大模型知识引擎(LKE),总体来说,虽然其功能方面还有一定欠缺,但在一些特定领域,特别是RAG(Retrieval-Augmented Generation)技术的应用上,还是表现出了一些优势。通过这种技术,LKE能够提供相对准确和高效的回答,尤其是在需要快速检索和生成信息的场景下 ...

京准电钟:北斗卫星授时服务,托举医疗系统高效运行

博主头像 京准电钟:北斗卫星授时服务,托举医疗系统高效运行 京准电钟:北斗卫星授时服务,托举医疗系统高效运行 京准电子科技官微——ahjzsz 以下是针对医疗系统的时间同步技术方案的设计框架,旨在满足医疗行业对时间同步的高精度、高可靠性和安全性需求: 1. 需求分析 医疗场景特殊性 医疗设备(如监护仪、影像设 ...

换掉vs code! AI编程时代的「国民神器」要来了!!

博主头像 当代码补全还在依赖插件时,当复杂项目搭建需要熬夜加班时,字节跳动用Trae IDE重新定义了开发者的工作方式。这款国内首个AI原生IDE,正在掀起一场编程效率革命。 一、AI原生的「超级大脑」 Trae IDE的核心竞争力,在于将AI深度融入开发全流程。它不仅能像普通IDE一样编写代码,更能通过自然 ...

干货!北大出品DeepSeek提示词工程和落地场景PPT分享

博主头像 《DeepSeek提示词工程和落地场景》 是北大DeepSeek内部讨论的第二个PPT, 由北京大学AI肖睿团队,联合北大青鸟人工智能研究院、北大计算机学院元宇宙技术研究所、北大教育学院学习科学实验室联合出品的DeepSeek系列PPT。 内容摘要 本次讲座为DeepSeek原理和应用系列研讨的讲座 ...

线性代数笔记19. 矩阵对角化-矩阵的正定性

博主头像 19. 矩阵对角化-矩阵的正定性及其应用 19.1 矩阵的正定性 设存在二次型:\(f(x)=x^T\cdot A\cdot x\),其中\(A\)为对称阵 19.1.1 定义 对于\(f(x)\)及\(A\)有: 正定/负定 \[若 f(x)>0且x\neq0,则对称阵A是正定的,且f(x)称为正 ...

学习理论:单阶段代理损失的(H, R) - 一致界证明

博主头像 我们在上一篇博客中介绍了弃权学习的基本概念和方法,其中包括了针对多分类问题的单阶段预测器-拒绝器弃权损失L_{abst}。设l为在标签Y上定义的0-1多分类损失的代理损失,则我们可以在此基础上进一步定义弃权代理损失L。在上一篇博客中,我们还提到了单阶段代理损失满足的(H, R)-一致性界。不过,在上... ...

AI科研到底能做什么?看完你就懂了!

博主头像 0 前言 本专栏目标: 能做什么? 要怎么做? 效果如何? 本质: 多Agent实现从数据采集到可视化全流程 AIGC数据应用: 数据采集 通过编写爬虫代码、访问数据库、读取文件、调用API等方式,采集社交媒体数据、数据库内容、文本数据、接口数据等。 数据处理 通过数据清洗、数据集成、数据变换、特征 ...

原生态方式部署及运行deepseek-7b-chat

博主头像 前言 先投放一波引流,公众号太久没更新了,以后保持更新,至少一周一更新。注意这个是旧版本,并不是流行的R1版本。 最近网上很多私有化部署deepseek的文章,但都是使用工具,对想理解怎么原生态部署、运行的朋友不是很友好,现在开始解析下怎么使用命令行部署deepseek,后续文章会持续更新。 对于私 ...

<1···222324···50>