概念厘清
- 数据中台 vs 数据平台/数据组: 更强调业务价值, 后者偏技术团队分工
- 数据中台 vs 业务中台: 一切业务数据化,一切数据业务化
方法论/12345
- 1 战略
- 2 保障: 组织+数据意识
- 3 目标原则: 可见/可用/可运营
- 4 建设内容: 技术/数据/服务/运营体系
- 5 关键步骤: 理现状/立架构/定资产/用数据/做运营
数据汇聚联通
- 数据采集/摄入/上报
- 埋点
- 爬虫
- 业务日志
- ETL->ELT 的转变: 尽可能原始数据存储, 避免过度加工.
- 数据同步/转换
- 数据存储方案: OLTP/OLAP/搜索/缓存/…
数据开发
- 离线处理
- 实时计算
- 即席分析
- 在线查询
数据体系
(自上往下)
- ADS / 应用数据层
- TDW / 标签数据层
- ID mapping / (Entity Identification Problem) 问题
- DW / 统一数仓
- Data Warehouse vs Data Lake: 个人理解区别
- 计算存储分离, 不锁定具体实现
- 入库数据避免过度清洗 (因为会洗错, 会丢信息)
- Data Warehouse vs Data Lake: 个人理解区别
- ODS / 贴源数据
数据体系(个人理解)
- 日志 / 不变性 / Log
- 维度数据 / 会变更 / KV
- 冗余 / 切面数据 (业务/报表/计算数据)
数据资产管理 / 数据治理
- 数据标准
- 数据模型
- 概念模型
- 逻辑模型
- 物理模型
- 元数据
- 范畴
- 数据表定义/约束关系
- 数据计算逻辑
- 指标/字段/属于概念定义
- 增删改查
- 变更管理
- 血缘/依赖关系
- 数据量统计分析/冷热度分析
- 标签管理
- 范畴
- 数据质量
- 准确
- 及时
- 完整/一致/有效/唯一性: 符合各种数据约束条件
- 变更可追溯/数据版本管理
- 数据安全
- 生命周期
- 数据资产门户/地图/搜索/数据字典/…
- 数据资产运营: 可阅读/易理解/好使用/有价值
数据服务体系
- 服务
- 查询 / API
- 分析 / SQL
- 推荐系统
- 圈人/DMP/用户画像
- 应用
- 数据报表
- 数据可视化/数据大屏
- 智能应用
- 能力服务化
- Q: 能力 vs 能力服务化
- 标签管理服务化
- SQL服务化
- 算法模型服务化
- API服务化
其他
成本运营
安全管理
总结
由于最近在做相关工作, 读起来还是有感觉的. 全书站在比较务虚的角度谈, 对于具体技术实施意义不大, 有些概念及模块划分个人持有不同看法. 但是本书对于做过相关工作后做一些理论/概念/方法论的总结还是非常有帮助的. 书本目录结构非常有条理, 结构层级关系分明, 线索清洗, 话不罗嗦, 读起来很容易