场景引入 我们知道,MySQL中一张表可以支持多个索引。但是写SQL语句时,并没有主动指定使用哪个索引,而是由MySQL来确定。而有时候,MySQL会选错索引,导致执行速度变得很慢。 举个例子,假设一张表里有(id,a,b)三个字段,并分别建立索引。然后往表中插入10万行记录,取值依次递增,即数据从 ...
1. 经营战略 1.1. 仅仅拥有数据,并不能保证数据驱动决策的成功 1.2. 企业管理层必须具有数据分析思维 1.2.1. 并不意味着管理层必须是数据科学家,但要求他们必须充分理解基本原则,从而预见和/或领会数据科学所带来的机遇,为数据科学团队提供合适的资源,并乐于在数据和实验方面投入 1.2.2 ...
7 月 25 日至 27 日,作为 Apache 软件基金会(ASF)官方全球系列大会的 CommunityOverCode Asia 2025 即将在北京中关村国家自主创新示范区会议中心开幕! 其中,由时序数据库 Apache IoTDB 社区两位成员,乔嘉林和秦楚晴出品的 IoT and IIo ...
概览 大型语言模型(LLM)是生成内容的强大工具。这些LLM的生成能力伴随着诸多优缺点。我们经常遇到的主要问题之一是生成内容的事实准确性。这些模型具有高度的幻觉倾向,有时会生成不存在或错误的内容。生成的内容往往极具说服力,看起来像是事实正确的有效信息。作为开发者,我们有责任确保系统完美运行并生成简洁 ...
唯一索引:字段值不能重复。 普通索引:字段值可以重复。 假设数据如下图,且字段k上的值都不重复: 接下来,从两种索引对查询语句和更新语句的性能影响来分析。 查询过程 假设查询语句为select id from T where k=5。那么首先会在字段k的索引树上找到k=5所在的数据页,然后在数据页内 ...
MOD函数索引实战:解决百万级数据分批处理性能瓶颈 问题背景 GreatSQL的MOD函数,大家应该都不陌生,使用MOD函数创建函数索引,是不是很少有人这么用呀,下面听我讲讲使用MOD函数创建函数索引的故事吧。 故事的引子呢,是有这么一个使用场景,为了忽略客户真实的业务,对涉及的表只保留了别名。 S ...
1. 面向分析工程 1.1. 数据科学的本质是根据原则性技术,提取数据中的信息或知识 1.2. 很难把技术与重要的商业问题完全匹配,也很难得到能直接应用于技术的数据 1.2.1. 商业人士通常比数据科学新手更容易接受这个事实,因为在统计学、机器学习和数据挖掘等领域的教学过程中,学生们面对的问题通常都 ...
今天我们来一起探索下 JOIN,JOIN 作为数据库操作的核心概念,用于合并两个或多个表中的数据。 一、JOIN (INNER JOIN) 1、基本功能:返回两个表中匹配成功的行。 2、特点: 只保留两表中都满足连接条件的记录; 如果某行在一个表中存在但在另一个表中没有匹配项,则该行不会出现在结果中 ...
作者:杨志丰,OceanBase产品总经理、首席架构师 首先为大家推荐这个 OceanBase 开源负责人老纪的公众号 “老纪的技术唠嗑局”,会持续更新和 #数据库、#AI、#技术架构 相关的各种技术内容。欢迎感兴趣的朋友们关注! 本文摘自《OceanBase社区版在泛互场景的应用案例研究》,欢迎点 ...
在大数据处理的复杂生态中,数据的高效流转与整合是实现数据价值的关键。Apache SeaTunnel作为一款高性能、分布式、易扩展的数据集成框架,能够快速实现海量数据的实时采集、转换和加载;而Apache Hive作为经典的数据仓库工具,为结构化数据的存储、查询和分析提供了坚实的基础。 将Apach ...
为什么需要DolphinScheduler? (解决小白认知痛点) 3分钟极速部署(小白友好版) 环境准备 最低配置(开发环境) JDK 8+ MySQL 5.7+ Zookeeper 3.8+ Docker一键启动(避坑推荐) docker run -d --name dolphinsche ...
场景引入 我们知道,在可重复读的隔离级别下,一个事务A启动的时候会创建一个read view,之后在这个事务A执行期间,即使其他事务修改数据,事务A看到的仍然和启动时相同。 考虑一个问题,假如该事务A想要对一行做更新,而此时这行的行锁被其他事务B持有,那么事务A会被锁住而等待行锁。当事务A获取到行锁 ...
2025 年 7 月 5 日,清华大学软件学院、天谋科技(北京)有限公司主办的 2025 时序数据库技术创新大会在北京成功举办。 以「下一站:DB + AI」为主题,超 30 位大咖嘉宾,包含中国工程院院士和来自清华大学、中国人民大学、北京科技大学、中国石油大学等学术界权威专家,携手中国商飞、国家电 ...
1. 证据和概率 1.1. 对实例的了解视作支持或反对不同目标变量值的证据 1.2. 对实例的了解则可以表示为实例的特征 1.3. 如果你知道每个特征所提供的证据的强度,那么就能应用原则性方法,从概率上合并证据,从而得到有关目标变量值的结论 1.4. 作为消费者的我们,已经对网页上貌似免费的大量信息 ...
首先为大家推荐这个 OceanBase 开源负责人老纪的公众号 “老纪的技术唠嗑局”,会持续更新和 #数据库、#AI、#技术架构 相关的各种技术内容。欢迎感兴趣的朋友们关注! 背景 前段时间,OceanBase 社区公众号转载了庆涛大佬的一篇《OceanBase PoC 经验总结(一)》,为大家介绍 ...
原文地址:https://vladmihalcea.com/postgresql-plan-cache-mode/本文阐述了PostgreSQL对于prepared statement预处理语句生成执行计划的规则,原文中并没有提及测试环境的PostgreSQL版本,笔者在PostgreSQL 16下 ...
行锁是针对数据表中行记录的锁,是在引擎层由引擎实现的。 从两阶段锁说起 在InnoDB事务中,行锁是在需要的时候才加上的,但并不是不需要了就立即释放,而是等到事务结束时才释放,这就是两阶段锁协议。 知道这个设定后,如果事务中需要锁多个行,要把最可能造成锁冲突、最可能影响并发度的锁尽量往后放。 举个例 ...
1. 概述 1.1. 为了让数据科学给实际应用增加价值,数据科学家和其他利益相关者必须仔细地考虑他们究竟希望通过挖掘数据实现什么 1.1.1. 将数据挖掘的结果与他们的实际目标联系起来 1.1.2. 其影响既可能表现为统计报告中缺少对统计数据正确性的明确解释,也可能表现为不能找出有意义的方法来测量性 ...
根据加锁的范围,MySQL里面的锁大致可以分成全局锁、表级锁和行锁三类,本文先讨论前两种。 全局锁 全局锁是对整个数据库实例加锁,MySQL提供的加全局读锁的命令是Flush tables with read lock(下面简称FTWRL)。当需要让整个库处于只读状态时,可以使用这个命令,之后其他线 ...
覆盖索引 假设要执行一条语句: select * from T where k between 3 and 5; 初始对列k建立了索引,表中数据为: 那么其执行流程为: 在k索引树上找到k=3的记录,取得ID=300; 到ID索引树查到ID=300对应的记录。 在k索引树上找到下一个值k=5的记录, ...