背景

　　星爷《大话西游》里面有一句非常著名的台词：“曾经有一份真挚的感情摆在我面前，我没有珍惜。失去了才后悔。世界上最痛苦的事莫过于此。如果上天能再给我一次机会，我会对哪个女孩说三个字：我爱你。如果我必须增加这份爱。在我们开发人员眼里，这种感觉就跟我们数据库里的数据一样。我们希望一万年不变，但往往事与愿违。随着公司的不断发展，业务的不断变化，我们对数据的要求也在不断变化。大概有以下几种情况：

　　分库分表:随着业务的快速发展，单机数据库压力越来越大，数据量也越来越大。这时通常采用数据库分离的方法来解决这个问题，将数据库的流量平均分配到不同的机器上。在单机数据库到子数据库的过程中，我们需要完全迁移我们的数据，这样才能成功地使用我们在子数据库中的数据。更换存储介质:一般来说，我们迁移之后，存储介质还是一样的。比如之前用的单机Mysql，数据库分区后就变成了多机的Mysql。我们的数据库表的字段没有改变，所以迁移相对简单。有时候我们不能通过划分数据库和表来解决所有的问题。如果我们需要大量复杂的查询，此时使用Mysql可能不是一个可靠的解决方案。然后我们需要更换查询的存储介质，比如使用elasticsearch。这种迁移会稍微复杂一点，涉及到不同存储介质的数据转换。切换新系统:一般公司在快速发展中，会有很多为了速度而重复建设的项目。当公司持续到一定时间，往往这些项目会被合并，成为一个平台或者中间平台，比如我们的一些会员系统，电商系统等等。这时候往往会出现一个问题，就是旧系统中的数据需要迁移到新系统中。这一次，情况更加复杂。有可能不仅存储介质变了，项目语言也不一样了。从更高层的角度来看，部门可能不一样，所以这种数据迁移难度更大，风险也更大。在实际业务发展中，我们会根据不同的情况制定不同的迁移方案。接下来，让我们讨论如何迁移数据。

数据迁移

　　数据迁移实际上不是一蹴而就的。每次数据迁移都需要很长时间，可能是一周或几个月。一般来说，我们的数据迁移过程基本上类似于下图：

　　首先，我们需要批量迁移我们数据库中的现有数据，然后我们需要处理新增的数据。我们需要将这部分数据实时写入原始数据库，然后写入我们的新存储。在这个过程中，我们需要不断地检查数据。当我们验证基本问题不严重的时候，我们会把流切断，直到流完全切断，这样就不需要做数据检查和增量数据迁移了。

存量数据迁移

　　首先说一下如何做股票数据迁移。在开源社区四处搜索后，我们发现没有太容易使用的工具。目前阿里云的DTS提供股票数据迁移。DTS支持异构和异构数据源之间的迁移，基本支持业界常见的数据库如Mysql、Orcale、SQL Server等。DTS更适合我们之前提到的前两种场景。一个是数据库分离的场景。如果使用阿里云的DRDS，可以直接通过DTS将数据迁移到DRDS，另外就是异构数据的场景。无论是Redis还是ES，DTS都支持直接迁移。

　　那么DTS股票迁移是怎么做的呢？其实比较简单，大概就是以下几个步骤：

　　当启动存量迁移任务时，我们得到当前需要迁移的最大id和最小id，并设置一个段，比如10000。从最小id开始，每次查询DTS服务器10000个数据，交给DTS处理。下面的sql: select * from table _ name其中id curid和id curid10000复制代码3。当id大于或等于maxId时，股票数据迁移任务结束。

　　当然，我们在实际迁移过程中可能不会用到阿里云，或者在我们的第三种场景中，需要做大量的数据库字段之间的转换，这是DTS不支持的，所以我们可以模仿DTS的做法，通过批量读取数据来迁移数据。这里需要注意的是，我们在批量迁移数据的时候，需要控制分段的大小和频率，防止影响我们正常的在线操作。

增量数据迁移

　　存量数据的迁移方案有限，但增量数据迁移方法都是花。一般来说，我们有以下方法：

　　DTS:阿里云的DTS是一站式服务。它提供增量数据迁移以及存量数据迁移，但需要按量收费。双写服务：比较适合不需要系统切换的迁移，即只改变存储但系统不变，比如数据库分区和表分区，redis数据同步等。这种方法比较简单，要迁移的数据可以同步写入代码中。但由于不是同一个数据库，无法保证交易，可能导致数据迁移时数据丢失。这个过程会通过后续的数据验证来解决。MQ异步编写：这可以应用于所有场景。当数据被修改时，会发送一条MQ消息，消费者会在收到这条消息后更新数据。有点类似于上面的双写，只是把对数据库的操作改成了MQ异步，出问题的概率会小很多。我们可以使用canal或者其他一些开源如databus来监听binlog，监听binlog的方式和上面的message MQ一样，只是我们省略了发送消息的步骤。这种方法基本上是开发量最小的方法。我们应该使用这些方法中的哪一种？我个人推荐监控binlog的做法。监控binlog降低了开发成本。我们只需要实现消费者逻辑，数据就能保证一致性。因为是被监控的binlog，所以不用担心之前的双写不是事务问题。

数据校验

　　以上提到的所有解决方案，虽然很多都是成熟的云服务(dts)或中间件(canal)，但都可能存在一定的数据丢失。数据丢失总体来说还是比较少的，但是检查起来非常困难。可能是dts或者canal不小心晃动了，也可能是接收数据时丢失了。既然没有办法避免我们的数据在迁移过程中丢失，我们就应该通过其他方式来纠正它。

　　一般来说，我们在迁移数据的时候，都会有一个数据验证的步骤，但是不同的团队可能会选择不同的数据验证方案：

　　在美团之前，我们会做一个双读，就是我们所有的读数都会从新的读，但是返回的还是旧的。这时候就需要对这部分数据进行核对了。如果有任何问题，我们可以发出警报，以手动或自动修复。这样我们常用的数据就可以快速修复，当然我们也会时不时的运行一次全量的数据检查，但是这种检查修复数据的时间是滞后的。现在经过ape辅导，我们不采用以前的方法了，因为虽然复读检查可以很快发现数据错误，但是对于这部分数据我们没有那么高的实时性检查，一个代码复读的开发还是略大一些，但是不能靠不及时的全额检查来保证，这就导致我们的数据检查时间非常长。我们采用了折中的方法，在和解中我们借鉴了T 1的一个思路。我们每天早上在旧数据库中获取昨天更新的数据，然后将其与我们新数据库中的数据进行比较。如果有任何数据不同或丢失，我们可以立即修复。当然，在实际开发过程中，我们还应该注意以下几点：

　　如何保证一个数据验证任务的正确性？验证任务本来是为了修正其他数据，但如果本身有问题，就失去了验证的意义。目前只能通过审查代码的方式来保证验证任务的正确性。验证任务时，需要注意日志的打印。有时候问题可能是所有数据直接出现问题造成的。然后验证任务可能会打印大量的错误日志，然后报警，可能会挂机或者影响别人的服务。这里，如果想简单点，可以把一些非手动报警变成warn。如果你想让它变得更复杂，你可以打包一个工具。如果某个错误打印了一段时间，超过了一定的量，就不用再打印了。验证任务应注意不要影响在线服务。通常验证任务会批量写很多查询语句，会导致批量表扫描。如果代码写得不好，很容易导致数据库挂起。

切流

　　当我们的数据检查基本没有错误的时候，说明我们的迁移程序比较稳定，那么可以直接使用我们的新数据吗？当然是做不到的。如果我们交换，顺利就好。如果出了问题，会影响到所有用户。

　　所以接下来需要做灰度，也就是切电流。不同业务流的维度会有所不同。对于用户维度，我们通常通过取userId的模块来截流。对于租户或者商户维度的业务，我们需要通过取租户id的模块来截流。这个截流需要制定一个截流方案，在什么时间段，要释放多少流量，在流量比较小的时候一定要截流。每次截断都需要详细观察日志，任何问题都应尽快解决。流量释放过程是一个从慢到快的过程。比如一开始是1%连续叠加，后来我们直接加10%或者20%。因为如果有问题，往往会在流量小的时候发现。如果小流量没有问题，那么后续的量可以快速增加。

注意主键ID

　　在数据迁移过程中，要特别注意主键id。在上面的双写方案中，还提到了双写时需要手动分配主键ID，防止ID生成顺序错误。

　　如果我们是因为子数据库、子表而进行迁移，就需要考虑到我们未来的主键id不可能是自增id，需要使用分布式Id。这里推荐美团开源的leaf。他支持两种模式：一种是雪花算法趋势在增加，但所有ID都是长的，适合一些支持长as ID的应用。还有号段模式，会根据你设置的一个基本id，从这个开始不断增加。而且基本上都是内存生成，性能也很快。

　　当然，我们仍然有需要迁移系统的情况。新系统中已经存在以前系统的主键id，因此需要映射我们的id。如果我们在迁移系统时已经知道将来要迁移哪些系统，我们可以使用保留方法。比如A系统的数据是1亿到1亿，B系统的数据是1亿到1亿。现在需要把A和B两个系统合并成一个新的系统，可以稍微估算一些缓冲，比如给A系统预留1.5亿到1.5亿，这样A系统就不需要映射了，B系统1.5亿到3亿。那我们可以

　　但是如果系统里没有预留板块做规划呢？您可以通过以下两种方式来实现：

　　需要添加一个表，以映射的方式记录旧系统的id和新系统的id。这个工作量还是比较大的，因为我们的迁移通常涉及几十个或者几百个表，记录成本还是很高的。如果id是long，我们可以很好的利用Long是64位，我们可以制定一个规则。我们新系统的id从一个相对较大的数开始，比如从一个大于Int的数开始，把小的Int部分留给我们旧系统进行Id迁移。比如上面1.5亿的数据，实际上只用了28位，我们的Int是32位。那么还有4位可用，可以代表16个系统进行迁移。当然，如果计划迁移更多的系统，您可以将新系统的id起点设置得更大。如下图

总结

　　最后简单总结一下这个套路，其实就是四个步骤。一个注意：存量，增量，检查，切流量，最后关注id。无论多大的数据，基本上按照这个套路迁移都不会有大问题。希望本文能对你后续的数据迁移工作有所帮助。

　　这就是数万亿数据应该迁移的方法的细节。更多请关注我们的其他相关文章！

郑重声明：本文由网友发布，不代表盛行IT的观点，版权归原作者所有，仅为传播更多信息之目的，如有侵权请联系，我们将第一时间修改或删除，多谢。

背景

数据迁移

存量数据迁移

增量数据迁移

数据校验

切流

注意主键ID

总结

相关文章阅读