记者得知,经过一年奋战,小红书已把业界体量最大的数据湖0缺点迁上阿里云。据统计,该名目共有1500人介入,迁徙数据500PB。
作为中国头部互联网公司之一,小红书月活已过3亿,其数据湖存储了过去11年的一切原始数据,包括结构化、半结构化和非结构化数据。近年来,随着业务的高速增长,小红书在线处置数据的需求始终参与,同时离线处置所积攒的历史疑问,也会在未来的切换中带来更多老本与危险。
为此,2023年11月,小红书动员迁云名目——计参差年内,把小红书的数据湖搬上阿里云。
迁徙至阿里云上后,数据湖可经过多个OSS Bucket允许归入一致资源池,成功多个Bucket共享资源池内的OSS吞吐及QPS才干。这样的流控才干在面向小红书复杂业务场景,可灵敏分配资源,高效应用吞吐功能,降落不同业务租户间的相互影响。阿里云原生HDFS+DLA元数据可成功无缝对接Hadoop EMR体系,允许元数据线性裁减才干,轻松应答小红书数百PB数据下的元数据线性增长。
较于过往业界体量最大的案例,小红书的本次迁徙的数据体量更大。
(图片来自小红书官网群众号)
据引见,小红书的迁云名目教训了三个阶段。第一步,名目组首先处置规范疑问,而后依据规范启动控制;第二步,成功控制后,名目在2024年5月正式进入双跑阶段。把数据拷贝到阿里云上,两头同时跑数,验证正确性与及时性;第三步,2024年8月,名目完结双跑,进入割接阶段。阿里云团队全程在现场保证,顺利成功了割接。
2024年11月,小红书迁云名目正式宣告完结。在0缺点的状况下,迁徙数据500PB,义务11万,介入人数1500人,触及部门40多个。名目触及产品之多和数据体量之大均创下业界记载。