数据湖是用于存储各类数据的存储库(通常为大型存储库)。
数据湖是存储大量数据的系统,其构建目的通常是为了改进企业决策。
数据湖比传统的数据仓库更灵活、更快。
它是什么?
数据湖是存储大量原始数据的存储库。这些数据可能来自企业各处,其中包括企业运营的结构化的操作和事务数据系统,以及客户偏好等的非结构化外部数据。
数据湖最初被视为是对传统数据仓库的改进,传统数据仓库通常需要先处理数据再进行存储;由于需要先建立新的数据再将其输入仓库,传统数据仓库执行新型分析的速度很慢。
数据湖强调收集原始状态的数据后,再进行数据分析,因此可以解决这些问题。
可惜的是,数据湖解决了数据仓库的部分问题,却仍未解决最关键的问题——从数据中提取价值。
收集数据并将其存储在数据湖中并不能真正克服利用数据创造价值的挑战。由于数据质量问题,许多组织对其数据湖感到失望:如果不对输入数据湖的数据进行管理,就会造成数据重复和数据质量差等问题。
有何益处?
数据湖比传统的数据仓库更灵活、更快。如果构建得好的话,数据湖能成为存储大数据的好方法,可用于分析大数据,并产生新的洞见(比如了解业务绩效或识别新的客户趋势)。
利用数据湖,企业还能将大型公共数据集纳入分析范畴,比如基于天气数据了解良好天气对零售业务的影响,或者绘制数据以优化供应链的运输路线。
需考量的因素?
经验证明,“未使用的数据就像成熟的香蕉,会变坏。”无论构建数据仓库、数据湖还是Data Mesh,在不确定如何使用数据的情况下构建这些系统都是有风险的。如果输入到数据湖的源数据一团糟,那么当试图使用这些数据时,还是一团糟。
如果采用正确的方法,有的放矢地使用数据,数据湖也许能成为您的数据计划中一项有用技术。
许多组织后悔投资构建数据湖,原因在于这些组织未就如何使用数据湖中的数据进行前期规划。如果在投资数据湖之前先构建有价值的用例,您就会发现这笔投资很快就能产生回报。
如何应用?
可用于大数据项目。例如,从物联网部署、用户行为事件或金融交易中收集数据。
Would you like to suggest a topic to be decoded?
Just leave your email address and we'll be in touch the moment it's ready.