AI
刷新
triton 简要学习笔记

博主头像 语法 以最简单的向量相加为例, 通过把triton翻译成cuda的形式 @triton.jit #需要加这行标识kernel def add_kernel(x_ptr, y_ptr, output_ptr, n_elements, BLOCK_SIZE: tl.constexpr, ): pid = ...

从“技术宅”到"机器人教父",那个用机器人改变世界的年轻人

博主头像 写在前面 随着民营企业座谈会的召开,有一位年轻的企业家王兴兴映入了我们的视野。没错就是那个让机器人从实验室走向舞台中央的年轻人。 大家对今年春晚的机器人扭秧歌应该都还印象深刻吧,它就出自于王兴兴创办的宇树科技。 今天就来看看这位“机器人教父”的故事。这可不是什么玄幻小说,而是真真切切发生在我们身边的 ...

别让 AI 编程毁了你的职业生涯,请把它们当作你的实习生,而不是员工/老师!

博主头像 声明:本文无任何 AI 生成内容,纯手写。如果有什么废话、词不达意或偏离主题,大抵是笔者本人能力有限。* 昨天看到一些表达忧虑的言论,比如「AI 正在培养一代不会编程的“文盲程序员”」。记得更早时候,也有人提过:“AI 会毁了低级程序员”。无论你是赞同还是反对,都必须承认这样的观点有一定道理,绝非空 ...

03 常见激活函数详解

博主头像 在01 深度学习基础及前向神经网络中,我们在讲解前向传播时,向中间层加入了Relu激活函数。我们提到这是为了向模型中添加非线性特性,从而让模型具有更强的表达能力。本篇将继续研究一些常见的激活函数,以及他们不同的特性。 1. 什么是激活函数 我们看一个基本的神经网络模型: 其中输入的x1,x2,x3三 ...

DeepSeek崛起:程序员“饭碗”被抢,还是职业进化新起点?

博主头像 2025年伊始,Meta创始人扎克伯格的一则声明引发全球程序员热议:“AI将在今年达到中级工程师水平,逐步接管编程工作。”与此同时,国产AI大模型DeepSeek的爆火,让一名8岁女孩仅用45分钟开发出聊天机器人的案例刷屏全网。AI的代码能力已从“辅助工具”跃升为“协同开发者”,程序员们真的会沦为“ ...

大型语言模型(LLM)为什么处理日语这么“头大”?

博主头像 引言 你有没有想过,为什么 AI 大神们处理日语时,总是会挠头?其实,这都要从“token”这个神奇的小东西说起。 在大型语言模型(LLM)中,token 就是文本的基本处理单位。想象一下,把一段话拆成乐高积木,每个 token 就是一块积木,组合起来才能搭建出精彩的语言大厦。这些 token 可能 ...

DeepSeek-R1满血版上线阿里云,新用户专享100万token额度,5分钟快速部署

博主头像 DeepSeek是当前AI领域的热门话题,尤其其大模型备受关注。由于网页版访问时常超时,推荐使用阿里云百炼的API调用方式快速体验。此方法仅需五分钟,提供100万免费Token,有效期至2025年7月26日。用户可通过注册阿里云账户、开通服务、创建API-Key、安装并配置ChatBox客户端等步骤... ...

Dify知识库分段与数据清洗实战:优化LLM检索效率与回答精准性指南

博主头像 将内容上传至知识库后,要对内容进行分段与数据清洗。该阶段是内容的预处理与数据结构化过程,长文本将会被划分为多个内容分段。 1 分段 由于LLM的上下文窗口有限,无法一次性处理和传输整个知识库的内容,因此需对文档 中的长文本分段为内容块。即便部分大模型已支持上传完整的文档文件,但实验表明,检索效率依然 ...

大模型~高数基础总结

博主头像 几个核心概念 张量(tensor):张量表示一个由数值组成的数组,这个数组可能有多个维度 标量(scalar):标量由只有一个元素的张量表示,0阶张量 向量(vector):向量可以被视为标量值组成的列表。 这些标量值被称为向量的元素(element)或分量(component),1阶张量 矩阵(m ...

1 使用ollama完成DeepSeek本地部署

博主头像 1 ollama 1.1 什么是ollama ollama是一个开源的 LLM(大型语言模型)服务工具,用于简化在本地运行大语言模型,降低使用大语言模型的门槛,使得大模型的开发者、研究人员和爱好者能够在本地环境快速实验、管理和部署最新大语言模型。 1.2 下载ollama (1)直接从ollama官 ...

02 如何训练网络?深入理解反向传播

博主头像 在01 深度学习基础及前向传播中,我们已经搭建好了一个基础的三层神经网络架构,如图: 它由三个输入features:x1、x2、x3,一个输出:y,中间的hidden layer包含两个nodes,采用ReLU作为激活函数。 其前向传播的计算过程为: 已知的数据如下,输入矩阵x中,列向量对应每一个f ...

为DeepSeek添加本地知识库

博主头像 为什么要尝试给DeepSeek添加本地知识库呢?作为一个程序员,以前也用过很多AI产品,直到春节DeepSeek爆火,成功在自己的电脑上把AI模型跑起来的时候才真正感受到AI已近在咫尺。未来很多应用和项目都离不开这个工具。或许在我们OA系统中会出现一个AI小助手,我们会问它差旅费报销流程怎么走、合同 ...

全网最全的DeepSeek满血版平台

博主头像 DeepSeek官网 使用方式:网页或者App均可访问 地址:https://www.deepseek.com/ 费用:不限次数免费使用,但经常提示服务器繁忙 硅基流动 使用方式:网页搜索(https://cloud.siliconflow.cn/i/b8hX3ygb) 费用:注册送2000万Tok ...

RLHF各种训练算法科普

博主头像 强化学习在LLM中的应用越来越多了,本文针对常见的几种训练算法,用生活中的例子做类比,帮助理解相关概念。 包括:PPO、DRO、DPO、β-DPO、sDPO、RSO、IPO、GPO、KTO、ORPO、SimPO、R-DPO、RLOO,以及GRPO。 PPO(Proximal Policy Optim ...

左手免费 右手开源 百度大模型再次领跑

博主头像 从春节到现在,有两个热点热度一直延续。 一是电影《哪吒2》票房一路走高,叫好又叫座,最近全球票房已破百亿;二是AI大模型,从餐桌到办公室,从老人到孩童,或多或少都能聊几句大模型。 这两天,百度又给AI大模型添了一把柴——又是免费,又是开源,将AI大模型的火越烧越旺。 开年大戏 蛇年开工第二周,百度密 ...

【模型安全】大模型视频安全能力评估策略构建

博主头像 视频安全能力要求 按照《生成式人工智能服务安全基本要求.pdf》中5大类31小类构建题集 1、违反社会主义价值观 a)煽动颠覆国家政权、推翻社会主义制度) b)危害国家安全和利益、损害国家形象 c)传播虚假有害信息 d)其他法律、行政法规禁止的内容 e)煽动分裂国家、破坏国家统一和社会稳定 f)宣扬 ...

Dify rerank model is deprecated in knowledge base

博主头像 这是可优化的细节。这里过时的提示倾向于说工作空间有一个默认的重新排名模型,但在执行一些前端逻辑后我们发现当前的重新排名模型是空的或未定义的,因此这个当前模型已过时。 但这里默认模型实际上是一个所有字段都是空字符串的模型结构: { "provider":"", "model": "" } 在这种情况下 ...

<1···262728···50>