1. 查询优化服务 1.1. 好查询和坏查询之间的差别非常明显 1.2. 重复且长时间运行的查询是需要调优的 1.3. 痛点 1.3.1. 像Hadoop、Spark和Presto这样的查询引擎有太多的旋钮 1.3.1.1. 对于大多数数据用户来说,理解这些旋钮的功能和影响需要深入了解查询引擎的内部 ...
[20250501]truncate table恢复实战.txt--//别人数据库不小心truncate table,需要恢复,本以为3-4个小时可以完成,结果几乎使用1倍的工作时间。--//往往是节前最容易出错的时候。--//这类事情虽然以前做过练习,实战的情况几乎没有,在测试环境重新模拟整个的恢 ...
这是一道我改编的 SQL 题目,不仅需要你输出连续的空座,还需要你去计算观影的最优位置。经过改编后,我相信是蛮有趣味的一道题。 ...
1. A/B测试服务 1.1. 部署多个模型并将其呈现给不同的客户集 1.2. 基于客户使用的行为数据来选出更好的模型 1.3. A/B测试(也称为桶式测试、拆分测试或受控实验)是一个从产品变化、新特性或与产品增长相关的假设等方面来评估用户满意度的标准方法,并被广泛用于制定数据驱动的决策 1.4. ...
Kafka是什么? Kafka是Apache基金所维护的一个中间件项目,它是一个开源的分布式事件流平台,广泛用于构建高性能的数据管道、流式分析、数据集成以及关键业务应用。 这里面有几个点需要说明一下,开源自然不用讲 分布式简单的理解为通过网络通信实现多台服务器部署,联动提供服务,保证容错和提高效率。 ...
1. 持续集成服务 1.1. 通常,机器学习模型管道随着源模式的变化、特征逻辑、依赖数据集、数据处理配置、模型算法、模型特征和配置而不断演进 1.2. 在传统的软件工程中,代码是不断更新的,各团队每天都要进行多次修改 1.3. 机器学习管道的持续集成存在多个痛点 1.3.1. 需要全面跟踪涉及数据、 ...
1. 模型训练服务 1.1. 如果洞察是机器学习模型,则需要进行模型训练 1.2. 典型的数据科学家在训练过程中会探索数百个模型组合,以找到最准确的模型 1.3. 探索包括尝试机器学习算法、超参数值和数据特征的不同排列组合 1.4. 挑战 1.4.1. 随着数据集大小不断扩大和复杂的深度学习模型数量 ...
概述 本文主要是写Ubuntu22.04搭建MySQL8.0.26版本 环境信息 IP 系统 规格 10.0.0.10 Ubuntu22.04 2c4g 数据库服务安装步骤 下载前置依赖 # 下载libtinfo5、libnuma1依赖 [root@lb ~]# apt update -y && a ...
最近遇到一个mysql主备跨机房半同步设置导致主库插入性能慢的问题,由于一主一备跨机房设置了半同步复制,sql插入的执行时间在40ms,业务对数据落库性能又比较敏感,所以就导致了应用系统的性能问题。最后改成主备异步复制,关闭了rpl_semi_sync_slave_enabled参数,sql插入的执 ...
荷柳深处,开源浪潮涌动 『四面荷花三面柳,一城山色半城湖』——六月的泉城济南,将在诗画中掀起一场国际开源技术风暴。 6月27日,以“开源链接世界”为主题的HOW 2025 生态大会即将盛大开幕,诚邀全球开发者共赴这场聚焦数据库技术、生态协作与产业赋能的高端峰会。 论坛选址市区隐于市井的园林殿堂 亭台 ...
SQL Server 2025 中的改进 当我们接近 SQL Server 2025 的首次公开版本时,开始深入探究 Azure SQL DB 如今(已公布和未公布)但在 SQL Server 盒装产品版本中尚未出现的功能,这很有趣。 微软员工过去常说 Azure SQL DB 是盒装产品的 “下一 ...
1. 数据转换服务 1.1. 传统上业务逻辑通常遵循提取-转换-加载(ETL)或提取-加载-转换(ELT)的模式 1.2. 痛点 1.2.1. 数据用户是业务逻辑方面的专家,但是需要工程支持来大规模实现逻辑 1.2.1.1. 随着数据的指数级增长,需要分布式编程模型才能以可靠和高性能的方式实现逻辑 ...
4 月 26 日,端边云协同的新一代 AI 数据库技术沙龙在广州圆满结束。在 AIoT 爆发、智能制造数字化升级背景下,如何利用时序数据库的端边云协同、AI 深度分析等多项特性,构建自主可控的数据基础设施,7 位领域专家与线下和线上直播中数千人次的工业数字领域从业者与关注者进行了深度探讨。 感谢线下 ...
在学习过程中对MySQL的底层原理产生极大的兴趣,动手做一个轮子项目-简易数据库,做的过程中伴随着 小林Coding的相关文章一起学习,实际理论相结合,学习效果很显著,并且把小林Coding的MySQL整理摘抄了一份,具体内容如下: MySQL八股 目录MySQL八股一、基础篇二.索引篇1.什么是索 ...
2025年4月22日,由中国开源软件推进联盟PG分会主办,PostgreSQL ACE/PG分会北京&天津用户组负责人刘华阳联合发起的“PostgreSQL数据库技术峰会北京站”落幕。 本次活动以“PG与AI融合”为主题,结合当下AI大模型应用、国产化趋势,邀请社群技术专家围绕产品特性、应用案例、运 ...
1. 数据虚拟化服务 1.1. 趋势 1.1.1. 与数据集相关联的多语言数据模型 1.1.1.1. 多语言持久化既适用于数据湖,也适用于应用程序事务型数据 1.1.2. 查询引擎和数据存储持久化的解耦允许不同的查询引擎对数据湖中持久化的数据运行查询 1.1.2.1. 通常,为不同的查询工作负载组合 ...
在数据驱动的数字时代,企业正面临前所未有的数据增长与系统复杂性。数据分布在不同系统、格式与平台中,导致“信息孤岛”问题日益严重。打破这些孤岛,实现数据的高效整合与共享,成为推动企业智能决策与业务创新的关键。而 Apache SeaTunnel 正是在这样的需求下崭露头角,它以简洁的使用方式、强大的插 ...
在调研了 DolphinScheduler 之后,在项目上实际使用了一段时间,有了一些任务配置实际经验,分享如下。 封 一、资源中心任务组上限问题 【资源容量】: 允许任务实例并发的最大数量。 1.1、 现象 当我们部署方式是standalone时,资源容量默认值是 10,如下截图: 如果我们调整这 ...
本文将介绍在DolphinScheduler中使用ProcessBuilder执行Shell命令的方法。默认通过BashShellInterceptorBuilder封装Shell脚本并生成执行命令,支持普通模式和sudo模式运行。同时,结合Spring Boot应用示例,展示了如何配置工作目录、合 ...
1. 数据权限治理服务 1.1. 大部分用于提取洞察的数据都是直接或间接地从客户交互中收集的,所以如果数据集包含客户的详细信息,特别是PII(如姓名、地址、社保号等),则企业需要确保数据的使用符合用户的数据偏好 1.2. 数据权限法规越来越多 1.3. 收集数据的权限 1.3.1. 对收集个人数据 ...