1. 总结 1.1. 不能简明地解释一件事,说明你对它理解得不够 1.1.1. 爱因斯坦 1.2. 对数据科学实践最好的描述是分析工程和探索的结合 1.3. 商业中会存在我们需要解决的问题,而该问题很少能直接与基础的数据挖掘任务相对应 1.4. 缺少分析工程的结果是,数据挖掘的结论很可能无法用于解决 ...
时序数据库 Apache IoTDB V2.0.4 已经发布! V2.0.4 作为树表双模型正式版本,表模型主要新增用户自定义表函数(UDTF)及多种内置表函数、新增聚合函数 approx_count_distinct、新增支持针对时间列的 ASOF INNER JOIN,并对脚本工具进行了分类整理 ...
随着企业数字化程度不断提升,数据分析场景越老越丰富,企业在以下几种场景下可能需要使用OLAP(Online Analytical Processing,在线分析处理)分析数据库来开展数据分析工作 ...
本文分享自天翼云开发者社区《如何从ElasticSearch迁移到OpenSearch?》,作者:刘****鑫 在云搜索产品的选择中,如果用户倾向于开源软件,并且更喜欢免费提供高级功能的工具,那么 OpenSearch 将更适合。下面主要介绍从ElasticSearch迁移到OpenSearch的方 ...
场景引入 我们知道,MySQL中一张表可以支持多个索引。但是写SQL语句时,并没有主动指定使用哪个索引,而是由MySQL来确定。而有时候,MySQL会选错索引,导致执行速度变得很慢。 举个例子,假设一张表里有(id,a,b)三个字段,并分别建立索引。然后往表中插入10万行记录,取值依次递增,即数据从 ...
1. 经营战略 1.1. 仅仅拥有数据,并不能保证数据驱动决策的成功 1.2. 企业管理层必须具有数据分析思维 1.2.1. 并不意味着管理层必须是数据科学家,但要求他们必须充分理解基本原则,从而预见和/或领会数据科学所带来的机遇,为数据科学团队提供合适的资源,并乐于在数据和实验方面投入 1.2.2 ...
7 月 25 日至 27 日,作为 Apache 软件基金会(ASF)官方全球系列大会的 CommunityOverCode Asia 2025 即将在北京中关村国家自主创新示范区会议中心开幕! 其中,由时序数据库 Apache IoTDB 社区两位成员,乔嘉林和秦楚晴出品的 IoT and IIo ...
概览 大型语言模型(LLM)是生成内容的强大工具。这些LLM的生成能力伴随着诸多优缺点。我们经常遇到的主要问题之一是生成内容的事实准确性。这些模型具有高度的幻觉倾向,有时会生成不存在或错误的内容。生成的内容往往极具说服力,看起来像是事实正确的有效信息。作为开发者,我们有责任确保系统完美运行并生成简洁 ...
唯一索引:字段值不能重复。 普通索引:字段值可以重复。 假设数据如下图,且字段k上的值都不重复: 接下来,从两种索引对查询语句和更新语句的性能影响来分析。 查询过程 假设查询语句为select id from T where k=5。那么首先会在字段k的索引树上找到k=5所在的数据页,然后在数据页内 ...
MOD函数索引实战:解决百万级数据分批处理性能瓶颈 问题背景 GreatSQL的MOD函数,大家应该都不陌生,使用MOD函数创建函数索引,是不是很少有人这么用呀,下面听我讲讲使用MOD函数创建函数索引的故事吧。 故事的引子呢,是有这么一个使用场景,为了忽略客户真实的业务,对涉及的表只保留了别名。 S ...
1. 面向分析工程 1.1. 数据科学的本质是根据原则性技术,提取数据中的信息或知识 1.2. 很难把技术与重要的商业问题完全匹配,也很难得到能直接应用于技术的数据 1.2.1. 商业人士通常比数据科学新手更容易接受这个事实,因为在统计学、机器学习和数据挖掘等领域的教学过程中,学生们面对的问题通常都 ...
今天我们来一起探索下 JOIN,JOIN 作为数据库操作的核心概念,用于合并两个或多个表中的数据。 一、JOIN (INNER JOIN) 1、基本功能:返回两个表中匹配成功的行。 2、特点: 只保留两表中都满足连接条件的记录; 如果某行在一个表中存在但在另一个表中没有匹配项,则该行不会出现在结果中 ...
作者:杨志丰,OceanBase产品总经理、首席架构师 首先为大家推荐这个 OceanBase 开源负责人老纪的公众号 “老纪的技术唠嗑局”,会持续更新和 #数据库、#AI、#技术架构 相关的各种技术内容。欢迎感兴趣的朋友们关注! 本文摘自《OceanBase社区版在泛互场景的应用案例研究》,欢迎点 ...
在大数据处理的复杂生态中,数据的高效流转与整合是实现数据价值的关键。Apache SeaTunnel作为一款高性能、分布式、易扩展的数据集成框架,能够快速实现海量数据的实时采集、转换和加载;而Apache Hive作为经典的数据仓库工具,为结构化数据的存储、查询和分析提供了坚实的基础。 将Apach ...
为什么需要DolphinScheduler? (解决小白认知痛点) 3分钟极速部署(小白友好版) 环境准备 最低配置(开发环境) JDK 8+ MySQL 5.7+ Zookeeper 3.8+ Docker一键启动(避坑推荐) docker run -d --name dolphinsche ...
场景引入 我们知道,在可重复读的隔离级别下,一个事务A启动的时候会创建一个read view,之后在这个事务A执行期间,即使其他事务修改数据,事务A看到的仍然和启动时相同。 考虑一个问题,假如该事务A想要对一行做更新,而此时这行的行锁被其他事务B持有,那么事务A会被锁住而等待行锁。当事务A获取到行锁 ...
2025 年 7 月 5 日,清华大学软件学院、天谋科技(北京)有限公司主办的 2025 时序数据库技术创新大会在北京成功举办。 以「下一站:DB + AI」为主题,超 30 位大咖嘉宾,包含中国工程院院士和来自清华大学、中国人民大学、北京科技大学、中国石油大学等学术界权威专家,携手中国商飞、国家电 ...
1. 证据和概率 1.1. 对实例的了解视作支持或反对不同目标变量值的证据 1.2. 对实例的了解则可以表示为实例的特征 1.3. 如果你知道每个特征所提供的证据的强度,那么就能应用原则性方法,从概率上合并证据,从而得到有关目标变量值的结论 1.4. 作为消费者的我们,已经对网页上貌似免费的大量信息 ...
首先为大家推荐这个 OceanBase 开源负责人老纪的公众号 “老纪的技术唠嗑局”,会持续更新和 #数据库、#AI、#技术架构 相关的各种技术内容。欢迎感兴趣的朋友们关注! 背景 前段时间,OceanBase 社区公众号转载了庆涛大佬的一篇《OceanBase PoC 经验总结(一)》,为大家介绍 ...
原文地址:https://vladmihalcea.com/postgresql-plan-cache-mode/本文阐述了PostgreSQL对于prepared statement预处理语句生成执行计划的规则,原文中并没有提及测试环境的PostgreSQL版本,笔者在PostgreSQL 16下 ...