AI
刷新
[megatron代码阅读] 2. TP和PP实现

博主头像 训练并行实现 TensorParallel 张量并行代码路径, 代码路径: megatron/core/tensor_parallel 主要包含Linear / VocabEmbedding / cross_entropy 三部分. Linear 参数初始化 如果是从checkpoint热启, pe ...

新春“码”启 | Cocos 3D 微信小游戏(第5天):分包构建和上传发布(完美收官)

博主头像 新春开发 Cocos 3D 微信小游戏计划的第 5 天,详细介绍了如何利用Cocos Creator开发并发布一款3D微信小游戏,包括游戏状态机的设计理念,和微信小游戏主包大小限制时的解决方案——分包策略。从游戏设计、开发、调试到最后成功发布的全过程,为想要进入微信小游戏开发领域的开发者提供了宝贵的... ...

LangChain基础篇 (03)

博主头像 LangChain 核心模块学习:Memory 大多数LLM应用都具有对话界面。对话的一个重要组成部分是能够引用先前在对话中介绍过的信息。至少,一个对话系统应该能够直接访问一些过去消息的窗口。更复杂的系统将需要拥有一个不断更新的世界模型,使其能够保持关于实体及其关系的信息。 我们将存储过去交互信息的 ...

DeepSeek+AnythingLLM打造自己大模型知识库

博主头像 有些用户或是专家在项目建设中提出来要提炼工艺库、模型库、算法库等知识库,可以试着让deepseek成为每个角色的助手,例如工艺的、信息化的、设备的、电气的等角色,让deepseek成为自己,再不断的迭代它。deepseek扮演AI助手的角色,应用越来越发挥出来应有的价值。 ...

DeepSeek-R1真算得上开源吗?

博主头像 1 啥是 DeepSeek-R1? 如你曾为一道棘手数学题绞尽脑汁,就明白多花时间仔细思考多重要。OpenAI o1 模型证明,当 LLM 在推理时,通过增加计算量进行类似训练后,它们在数学、编程和逻辑等推理任务上的表现显著提升。 然而,OpenAI 推理模型的训练方法一直是秘密。直到DeepSee ...

利用LLM大模型学习英语思路

博主头像 思路提示词请以我上传文件: {雅思词汇词根+联想记忆法(乱序便携版) }单词表为基础,为 {雅思词汇} 生成三篇英语阅读理解文章,帮助强化单词记忆、提升英语水平。附加5道巩固练习(2道难题、2道基础、1道判断)IELTS词汇表https://github.com/fanhongtao/IELTS/b ...

新年新规划:如何用DeepSeek做好职业规划与求职决策?以一位资深工程师的案例为例

博主头像 在竞争激烈的职场中,清晰的职业规划和科学的求职策略是脱颖而出的关键。然而,面对海量信息和技术快速迭代,许多职场人往往陷入迷茫:“我的技能优势是什么?该向哪个方向深耕?如何找到高匹配度的岗位?” 今天,我们以一位拥有14年经验的资深工程师Robin的简历为例,结合AI工具DeepSeek的职业分析能力 ...

用Dify零代码给你的网站做AI客服!

博主头像 本文已收录在Github,关注我,紧跟本系列专栏文章,咱们下篇再续! 0 前言 Dify的一个“应用”指基于LLM构建的实际场景应用。通过创建应用,可将智能 AI 技术应用于特定的需求。它既包含了开发 AI 应用的工程范式,也包含了具体的交付物。 一个应用为开发者交付: 封装友好的 API,可由后端 ...

LangChain基础篇 (02)

博主头像 LangChain 核心模块学习:Chains 对于简单的大模型应用,单独使用语言模型(LLMs)是可以的。 但更复杂的大模型应用需要将 LLMs 和 Chat Models 链接在一起。 要么彼此链接,要么与其他组件链接。 LangChain 为这种“链式”应用程序提供了 Chain 接口。 La ...

21-重构大杀器!流量回放让线上BUG无处遁形,QA团队集体沉默…

博主头像 本文已收录在Github,关注我,紧跟本系列专栏文章,咱们下篇再续! 流量:某个时间段内的所有请求,通过手段把发送到A应用的所有请求录制,然后把这些请求统一转发到B应用,让B应用接收到的请求参数跟A应用一致,实现A接收到的请求在B应用里面重新请求了一遍。整个过程即“流量回放”。 1 流量回放的意义 ...

Gemini 2.0 Flash小试牛刀

博主头像 Gemini 2.0 Flash 是谷歌最新推出的大型语言模型(LLM),它将人工智能的能力推向了新的边界。本文将深入探讨其关键特性,以及这些特性如何使其与其他知名模型区分开来。Gemini 与其他 LLM 的主要区别在于其多模态能力和高级推理能力。与许多主要专注于文本的 LLM 不同,Gemini ...

【译】DeepSeek的模型分析

博主头像 原作:阿尔贝托·罗梅罗 与 o1 相比,R1 的表现如何? DeepSeek 在六个相关基准(如 GPQA Diamond 和 SWE-bench Verified)以及其他替代测试(如 Codeforces 和 AIME)上对 R1 和 o1 进行了一对一比较。列表中遗漏了 ARC-AGI 和 F ...

从Cline到Roo Code:AI编程插件的进化之路

博主头像 一、Cline:AI编程的通用解决方案 (项目地址:https://github.com/cline/cline) Cline作为一款开源的VS Code AI编程插件,通过集成前沿的机器学习模型,为开发者提供了智能化的编码体验。其核心功能包括: 智能代码补全 基于上下文感知的代码预测功能,支持主流 ...

Dify × AWS:0代码搭建「AI翻译中台」

博主头像 0 前言 基于Dify现有能力,已能对不少业务场景提供帮助,但对一些特定诉求,还要借助其扩展机制,本文利用翻译场景举例详细说明。 1 翻译场景复杂性分析 翻译是从简单到复杂各级都存在的场景,比较简单的翻译可能一句简单 Prompt,但对复杂、效果要求较高翻译场景,可能需要一些复杂 LLM 编排,如吴 ...

LangChain基础篇 (01)

博主头像 LangChain 是什么 Langchain 是一个开源框架,它允许开发人员将大型语言模型与外部的计算和数据源结合起来,是一个通过组合模块和能力抽象来扩展 LLM 的助手 为什么需要 LangChain 增强语言模型的功能: LangChain 提供了可以将语言模型与各种数据源(如数据库、WebA ...

<1···373839···50>