刷新
GreatSQL 自动开启复制导致同步报错

博主头像 GreatSQL 自动开启复制导致同步报错 1.背景概述 目前需要将生产数据恢复到一个单实例,再将单实例和生产节点配置主从关系,由于单表数据量较大,时间比较有限,考虑到导入导出的时间,并且GreatSQL支持XtraBackup备份恢复,能够加速数据的恢复,因此决定使用XtraBackup备份工具进 ...

读数据质量管理:数据可靠性与数据质量问题解决之道16数据认证

博主头像 1. 对数据进行认证 1.1. 数据认证是指在数据资产满足关于数据质量、可观测性、权责分配、问题解决和沟通等公司内共同遵守的SLA后,批准它们被用于整个组织的过程 1.2. 数据认证为人员、框架和技术构建了关键流程,使其与核心业务政策保持一致 1.3. 数据认证的要求会因业务需求、数据工程团队的能力 ...

浅析REGEXP_SUBSTR,PRIOR,CONNECT BY

博主头像 业务场景 teacher表中的tech_class字段存储的是每个老师所教授的课程,课程之间以英文逗号分隔。现在要用语句统计每个课程对应的教师数量。语句及效果如下: 语句其实很简单,各种博客或者gpt都有不错且可行的解决方案,我们主要来理解下这段语句的执行原理,更好的学习。 part1 REGEXP ...

Redis中的分布式锁(步步为营)

博主头像 分布式锁 概述 分布式锁指的是,所有服务中的所有线程都去获取同一把锁,但只有一个线程可以成功的获得锁,其他没有获得锁的线程必须全部等待,直到持有锁的线程释放锁。 分布式锁是可以跨越多个实例,多个进程的锁 分布式锁具备的条件: 互斥性:任意时刻,只能有一个客户端持有锁 锁超时释放:持有锁超时,可以释放 ...

从ETL到DataOps:WhaleStudio替代Informatica,实现信创化升级

博主头像 作者 | 白鲸开源 姜维 在数据集成和调度的领域,Informatica曾经是公认的权威工具。其强大的ETL功能、多年积累的市场经验,使其成为众多企业数据处理的核心工具。 然而,随着新一代大数据平台的迅速崛起,以及信创化改造的要求愈发严格,Informatica在现今复杂多变的生产环境中逐渐显现出不 ...

分组向量检索

博主头像 本文介绍如何在向量检索时将结果按照字段值进行分组返回。 背景介绍 在向量检索的实际应用中,有些场景需要将向量检索的结果分组返回。例如: 在RAG中,一篇文档往往需要拆分为多个段落,每个段落生成一个向量存入DashVector。在向量检索时,为了结果的多样性,不希望所有结果都来自同一篇文档的段落,而是 ...

Redis究竟为什么这么快?

博主头像 Redis为什么这么快? 完全基于内存,数据存在内存中,绝大部分请求是纯粹的内存操作,非常快速,跟传统的磁盘文件数据存储相比,避免了通过磁盘IO读取到内存这部分的开销。 数据结构简单,对数据操作也简单。【Redis中的数据结构】是专门进行设计的,每种数据结构都有一种或多种数据结构来支持。Redis正 ...

读数据质量管理:数据可靠性与数据质量问题解决之道14普及数据质量

博主头像 1. 普及数据质量 1.1. 随着企业摄取越来越多的数据,数据分析也逐渐成为企业战略的重要组成部分,对高质量数据的需求只会不断增加,这给数据工程师、分析工程师,甚至数据分析师都带来了压力,要求他们承担起这个重要但富有挑战性的任务 1.2. 只有整个公司都认为数据是可信的,才能实现数据信任 1.2.1 ...

[20241121]测试软软解析遇到的疑惑.txt

[20241121]测试软软解析遇到的疑惑.txt--//测试软软解析遇到的疑惑,就是大量软软解析以及分散执行两者的执行时间差别并不是很大,有点疑惑,展开分析看看。1.环境:SCOTT@book01p> @ver2 PORT_STRING : x86_64/Linux 2.4.xxVERSION : ...

AI实现简历筛选助手

博主头像 背景为什么要使用AI进行简历筛选?效率: AI工具比人类招聘人员更快地处理简历,减少招聘时间。减少偏见: AI有助于消除无意识偏见,确保更公平的招聘实践。成本效益: 自动化筛选流程可以显著降低招聘成本。改进候选人匹配: AI通过数据分析提高候选人与职位角色匹配的准确性。AI简历筛选工具的关键特性自动 ...

读数据质量管理:数据可靠性与数据质量问题解决之道12应对与缓解

博主头像 1. 解决 1.1. 当你发现数据出了故障,并且了解到它的初步影响时,下一步(有时甚至在根因分析之前)就是要解决这个问题,并且和利益相关方沟通,协商接下来该怎么做 1.2. 在事故解决后,无论是通过修改代码、数据或者运行环境中的哪种方式,数据团队都应该与受到影响的各方及时沟通,并在接下来的几天安排一 ...

第三十七讲:都说InnoDB好,那还要不要使用Memory引擎?

内存引擎和InnoDB引擎在数据组织方式上存在显著差异。InnoDB引擎将数据存储在主键索引上,而内存引擎则将数据和索引分开存放。导致了内存表的数据是按照写入顺序存放的,而InnoDB表的数据总是有序存放的。此外,内存表不支持行锁,只支持表锁,这会影响并发访问的性能。尽管内存引擎速度快且支持hash... ...

<1···373839···50>