2024年2月24日至28日,国内AI领军企业DeepSeek以"开放即进化"为核心理念,举办了一场震动全球AI社区的"开源周"。在这场持续五天的技术盛宴中,DeepSeek连续发布了5款核心开源项目,覆盖算法优化、通信加速、矩阵计算、并行策略、数据存储全栈技术领域,展现出国产AI在底层技术上的突破 ...
数据集 TweepFake 地址 摘要:深度伪造(deepfakes)、合成或篡改媒体的威胁正变得越来越令人担忧,尤其是对于那些已经被指控操纵公众舆论的社交媒体平台而言。即使是最简单的文本生成技术(例如查找和替换方法)也能欺骗人类,正如2017年的“网络中立性”丑闻所证明的那样。与此同时,从基于RN ...
在人工智能技术飞速发展的今天,如何高效利用AI工具已成为各行各业关注的焦点。北京大学发布的《DeepSeek提示词工程和落地场景》详细探讨了DeepSeek的提示词技巧及其在多个领域的应用场景。本文将对文件进行总结,分享我的学习感想,并提供资源下载链接。 一、文档简介 DeepSeek的核心优势 D ...
1.概述 掌握如何借助 DeepSeek R1 与 Ollama 搭建检索增强生成(RAG)系统。本文将通过代码示例,为你提供详尽的分步指南、设置说明,分享打造智能 AI 应用的最佳实践。 2.内容 2.1 为什么选择DeepSeek R1? 在这篇文章中,我们将探究性能上可与 OpenAI 的 o ...
0 前言 最新刚结束上一次技术年终总结创作的领奖环节,最近也在公司内部推行基于 DeepSeek 的内部知识库,上了腾讯云,发现点进去我才发现,腾讯云最近就上新了这个带有阳光普照奖的活动! 点进来一看,原来不差钱的腾讯云部署了满血版DeepSeekV3+R1: 并且推出了自研的大模型知识引擎,再加持 ...
LoRA精读笔记 背景 随着我们预训练更大规模的模型,完全微调(即重新训练所有模型参数)变得越来越不可行。 ==>提出了提出了低秩适应(Low-Rank Adaptation,LoRA)方法,该方法冻结预训练模型的权重,并在Transformer架构的每一层中注入可训练的秩分解矩阵,从而大大减少了下 ...
本程序的主要目的是对破损的快递盒进行分类检测,主要使用pytorch构建神经网络模型来解决这一问题。 本项目为本人第一个与深度学习有关的项目,有疏漏之处多多海涵,可以向我提出 有关于pytorch的内容请详见[官方文档](PyTorch 文档 — PyTorch 2.0 文档)。如果需要中文版的教程 ...
本文演示了如何使用在vscode中使用cline插件,配合deepseek r1大模型生成代码的功能。通过学习掌握cline+deepseek代码生成能能,可以有效提升程序员开发效率,同时也为不懂开发的同学打开了编程的大门。 ...
人工智能技术的飞速发展为我们带来了前所未有的便利,但同时也伴随着一个不容忽视的问题——AI幻觉。清华大学发布的《DeepSeek与AI幻觉》详细探讨了AI幻觉的成因、评测方法以及应对策略,并强调了其在创造力领域的潜在价值。本文将总结文件的核心内容,分享我的学习感想,并附上资源下载链接。 一、文档简介 ...
VisoMaster可以说是Rope的升级版,如果你熟悉Rope,上手VisoMaster将毫无难度。它是一款功能强大且简单易用的工具,专为图片和视频中的换脸与编辑设计。借助人工智能技术,VisoMaster能以最少的操作生成自然流畅的效果,无论是普通用户还是专业人士,它都是释放创意潜能的理想选择。 ...
1. MLP(多层感知机)——「智能分拣流水线」 原理: 想象你有一个快递分拣中心,要把包裹分成“电子产品”“衣服”“书籍”三类。MLP就像一条多层流水线: 第一层工人(输入层): 只负责记录包裹的基础信息(比如重量、体积、颜色)。 中间层工人(隐藏层): 根据基础信息推测更复杂的特征(比如“轻+小 ...
在人工智能技术快速发展的今天,科研工作者如何利用AI工具提升效率,成为一项重要的能力。清华大学发布的《DeepSeek+DeepResearch让科研像聊天一样简单》为我们展示了如何通过这两款工具简化科研流程,让复杂的研究任务变得像日常对话一样轻松。 一、文档简介 DeepSeek与DeepRese ...
DeepSeek 初步使用介绍 背景 Ai 正在慢慢在改变我们的生活,比如老一辈可能已经在用豆包(字节跳动推出的AI聊天机器人) 前端开发,某些公司内部已在使用图生文(设计稿生成前端代码) 网上也有许多通过 DeepSeek 生成的许多诱人的文章:普通人如何一年赚100w、看起来不起眼但利润很高的行 ...
由反向传播原理可知,梯度的计算遵循链式法则。由于网络层数不断加深,梯度的连乘效应可能会导致梯度呈指数形式衰减,又或以指数形式增加。 前者叫做梯度消失,梯度消失导致网络中的早期层几乎不更新,使得网络难以学习到输入数据的有效特征。可能导致网络权重更新非常缓慢,使得训练过程变得不稳定。 后者叫做梯度爆炸, ...
模型能否准确地预测数据,是通过损失函数来衡量的。如何调整权重和偏差参数,从而最小化神经网络的损失函数,这是一类特定的优化算法。我们称它们为优化器(optimizer)。 为什么需要优化器? 因为损失函数参数众多且结构复杂,其导数置零的方程无法得到解析解或计算非常复杂。因此我们需要用迭代的方式逐步调整 ...
【视频发布】正点原子RK3588开发板本地化部署DeepSeek R1 大模型视频系列视频教程来啦! 一、课程内容 承接上一次板端部署DeepSeek R1大模型的文档教程,应粉丝们的要求,本次推出视频教程,手把手教学实现端侧部署,无需依赖云端服务器即可本地化处理数据,功耗更低、成本更优异、数据更安 ...
14.施密特正交化 14.1 规范正交化 14.1.1 规范正交化的定义 \[设:存在向量空间V(V \subset R^n) \]\[n维向量A=(a_1,a_2,a_3,...,a_n)是V中的一个基 \]\[若:V中存在一个规范正交基E=(e_1,e_2,e_3...,e_n),使A与E等价 ...
在前文中我们使用的损失函数都是均方误差(MSE,Mean Squared Error),本篇介绍一些其他的损失函数形式,以及他们的不同用途。 1. 回归任务常用损失函数 1.1 均方误差(MSE, Mean Squared Error) 均方误差(MSE)是回归任务中最常用的损失函数之一,用于衡量模 ...
0 前言 2025年2月25日,今天发布迄今为止最智能的模型——Claude 3.7 Sonnet,全球首个混合推理(Hybrid Reasoning)模型。 提供: 近乎实时回答 同时进行深入的、分步骤的推理 且这种思考过程可直观展示给用户 对API用户,还可精细控制模型的思考时长 在编程和前端开 ...
1. 什么是Overfitting 我们希望神经网络模型能够找到数据集中的一般规律,从而帮助我们预测未知数据。这个过程是通过不断地迭代优化损失函数(也就是预测值和实际值的误差)而实现的。然而随着误差进一步缩小,模型的“走势”过于“贴合”我们的训练数据,对训练数据中的噪声也过于趋近,把这些噪声数据也学 ...