1. 批量获取的考虑因素 1.1. 批量获取,通常是获取数据的一种便捷方式 1.1.1. 通过从源系统中抽取一个数据子集,根据时间间隔或累积数据的大小来获取数据 1.2. 基于时间间隔的批量获取在传统ETL的数据仓库中很普遍 1.2.1. 每天在非工作时间(也可以按其他频率)处理一次数据,目的是提供 ...
背景 Dolphinscheduler针对YARN任务,比如说MR、Spark、Flink,甚至是Shell任务,最初都是会判断如果有YARN任务,解析到applicationId。这样就会不单单以判断客户端进程为单一判断依据,还要根据YARN状态进行最终的Dolphinscheduler任务状态判 ...
在 MySQL 的日常管理过程中,大家或多或少会遇到权限认证相关的问题。 例如,本来能够正常执行的操作,可能在新增一个账号或授权后就突然失败了。 这种现象往往让人误以为是 bug,但很多时候,其实并不是。 下面,将通过两个案例来阐明 MySQL 权限认证中的具体优先原则,并在此基础上,分析以下问题: ...
老司机带你聊聊向量数据库 引言 随着人工智能、大数据技术的发展,传统数据库已经难以满足某些复杂应用场景的需求,尤其是在图像、语音、文本等非结构化数据的处理上,传统的精确匹配方式已经显得力不从心。 最近几年,向量数据库应运而生,成为了热门话题。向量数据库的核心优势在于它可以通过将数据转化为高维向量,在 ...
1. 有边界与无边界数据 1.1. 无边界数据是现实中存在的数据,是事件发生时的数据,要么是间断的,要么是连续的、持续的和流动的 1.2. 有边界数据是跨越某种边界(如时间)对数据进行归类的一种便捷方式 1.2.1. 所有的数据在有边界之前都是无边界的 1.3. 长期以来,业务流程通过切割离散的批次 ...
在PostgreSQL和SQLServer中,有一个共同的特点,相比如物理复制,逻辑复制可能会存在较多的一些细节和可能错误的发生,作为SQLServer Replication(逻辑复制)的深度用户,有必要深入学习试验一下PostgreSQL的逻辑复制的一些细节。 订阅端的主要订阅选项信息 crea ...
原文地址:https://www.pgedge.com/blog/postgresql-16-logical-replication-improvements-in-action 我之前简要介绍了PostgreSQL中的复制方法,并概述了PostgreSQL 16中逻辑复制的一些关键特性。在这篇博客 ...
1. 数据获取 1.1. 数据获取是将数据从一个地方移动到另一个地方的过程 1.1.1. 数据获取与系统内部获取是不同的 1.2. 数据获取是数据工程生命周期中将数据从源系统移入存储的一个中间步骤 1.3. 数据集成则是将来自不同来源系统的数据组合到一个新的数据集 1.4. 数据获取的核心是数据管道 ...
1. sql高级 1.1. 索引与视图 1.1.1. 常见的数据结构 1.1.2. 索引 1.1.2.1. 作用 1.1.2.2. 定义 1.1.2.3. 分类 1.1.2.4. 设计原则 1.1.2.5. 语法 1.1.3. 视图 1.2. 事务与锁 1.2.1. 事务的原理 1.2.2. 事务的 ...
1. 数据工程存储抽象 1.1. 数据工程存储抽象是数据组织和查询模式,位于数据工程生命周期的核心,建立在之前讨论的数据存储系统之上 1.2. 关键的考虑 1.2.1. 目的和用例 1.2.1.1. 必须首先确定存储数据的目的 1.2.2. 更新模式 1.2.2.1. 是否针对批量更新、流式插入或上 ...
这个找回Wordpress后台密码密的方法,前提是,可以操作数据。 最近忘记了极客侠网站登陆密码,还是按照以前的方法,进入数据库直接修改数据库, 但是现在wordpress密码的加密不是简单的MD5所以不能用一个md5加密好的密码去替换数据库, 这里的关键所在就是不知道现在的加密方式, 于是又百度了 ...
工具分享丨数据闪回工具MyFlash 在当今数字化的时代,数据已经成为了企业和个人最宝贵的资产之一。数据不仅仅是简单的信息集合,它更是决策的依据、业务的支撑以及创新的源泉。 数据丢失是一种极其危险且令人头疼的情况。想象一下,企业因系统故障、人为误操作或遭受恶意攻击而丢失了关键的业务数据,这可能导致业 ...
前瞻性技术通常具有创新性,并受到早期采用者的欢迎,从而提供一定的商业价值。 说到数据集成,有人可能会质疑这有什么好讨论的——这不就是简单的 ETL 吗?从各种数据库中提取数据,进行转换,最后加载到不同的数据仓库中。 随着大数据、数据湖、实时数仓、大规模模型等的兴起,数据集成架构从数据仓库时代的ETL ...
1. 对象存储 1.1. 对象存储包含各种形状和大小的对象 1.1.1. Amazon S3、Azure Blob Storage和Google Cloud Storage(GCS)是广泛使用的对象存储 1.1.2. 许多云数据仓库(以及越来越多的数据库)利用对象存储作为其存储层,而云数据湖通常位于 ...
MySQL 复习(一):建表约束 MySQL 复习(一):建表约束 1. 主键约束 -- 添加:alter table table_name add primary key (字段) -- 删除:alter table table_name drop primary key 1.1 添加主键约束 1 ...
1. 单机存储和分布式存储 1.1. 存储系统是存在于原材料之上的抽象层次 1.2. 磁盘是一种原始存储材料,而主要的云对象存储平台和HDFS是利用磁盘的存储系统 1.3. 随着数据存储和访问模式变得越来越复杂,并超出了单一服务器能做到的支持,将数据分布到一个以上的服务器上变得很有必要 1.4. 数 ...
概述 主从复制是指将主数据库的DDL和DML操作通过二进制日志传到从库服务器中,然后在从库上对这些日志重新执行(也叫重做),从而使得从库和主库的数据保持同步。 MySQL支持一台主库同时向多台从库进行复制,**从库同时也可以作为其他从服务器的主库*实现链状复制。 一般主库称为Master从库Slav ...
MariaDB 和 GreatSQL 性能差异背后的真相 前言 最近项目上遇到了两次 MariaDB 和 GreatSQL 的对比,GreatSQL受到客户质疑,最后经过排查抓到性能差异背后的真相。基于此做个分享。 版本 MariaDB版本:10.3.39 该版本为麒麟V10 yum安装 Great ...
1. 存储 1.1. 存储是数据工程生命周期的基石 1.1.1. 是数据获取、转换和服务主要阶段的基础 1.1.1.1. 当构建数据管道时,随着数据经过获取、转换和服务阶段,工程师会选择适当的抽象来存储他们的数据 1.1.2. 当数据在生命周期中移动时,它会被多次存储 1.1.2.1. 必须在存储中 ...
在全球数字化变革背景下,企业需适应数字经济与市场变化,进行系统性数字化转型。在“十四五”规划指导下,企业纷纷探求数字化应用之路,大数据、云计算、人工智能、区块链等技术成了热门话题,其中云运维备受瞩目。 企业在数字化转型中难免会碰到云上系统规划、运维体系建设、云上安全等挑战,因此用可观测性来改进现有监 ...