python核算代碼(pythoni代碼)
今日份知識(shí)你攝入了么?
圖片來(lái)自Unsplash,作者Tamas Pap
在本文中,我將討論學(xué)習(xí)數(shù)據(jù)工程感興趣的人可能感興趣的數(shù)據(jù)工程書籍和資源。我意識(shí)到市場(chǎng)上并沒(méi)有很多關(guān)于數(shù)據(jù)工程的綜合概念解釋的書籍。其中一些書籍介紹了如何使用特定工具和數(shù)據(jù)平臺(tái)架構(gòu),而另一些則是我最喜歡的睡前讀物:令人驚訝地容易入睡而且枯燥無(wú)味。有些書籍適用于戰(zhàn)略決策,而有些可能看起來(lái)有點(diǎn)過(guò)時(shí)但仍然有用。希望你會(huì)覺(jué)得有趣。
01
Python數(shù)據(jù)工程
Data Engineering with Python
使用Python處理海量數(shù)據(jù)集來(lái)設(shè)計(jì)數(shù)據(jù)模型和自動(dòng)化數(shù)據(jù)管道
Paul Crickard,2020年
對(duì)于那些想要學(xué)習(xí)開源Apache數(shù)據(jù)工程工具的人來(lái)說(shuō),這是一本很棒的書。它涵蓋了所有基本的數(shù)據(jù)工程主題,如數(shù)據(jù)建模,并提供了大量最常見(jiàn)的數(shù)據(jù)轉(zhuǎn)換示例。正如書中所提到的,它是關(guān)于Python和數(shù)據(jù)建模的,所以讀者將專注于ETL技術(shù),使用Python工具提取、清理和豐富數(shù)據(jù)集。它詳細(xì)解釋了Apache Kafka和Apache Spark,但也涵蓋了使用文件格式、數(shù)據(jù)轉(zhuǎn)換和清理的基本要素。這本書對(duì)數(shù)據(jù)管道部署以及數(shù)據(jù)環(huán)境提供了一些非常好的觀點(diǎn)。
02
數(shù)據(jù)工程基礎(chǔ)
Fundamentals of Data Engineering
Joe Reis, Matt Housley著
展開全文
2022年6月發(fā)布
出版商:O 'Reilly Media, Inc.
總的來(lái)說(shuō),這是一本非常好的書,我相信這是我目前正在寫的書中最接近的一本。它涵蓋了基本原理,確實(shí)很棒。然而,它并沒(méi)有解釋如何成為一名數(shù)據(jù)工程師。根據(jù)這本書,進(jìn)入這個(gè)角色沒(méi)有捷徑,也沒(méi)有簡(jiǎn)單的方法。讀者需要花2-3年的時(shí)間來(lái)研究這個(gè)特定的領(lǐng)域。
我喜歡這本書的地方在于,它提供了一種對(duì)技術(shù)和架構(gòu)的獨(dú)立觀點(diǎn)。
我們不會(huì)在這本書看到任何營(yíng)銷,在第2章中,它非常清晰地關(guān)注了數(shù)據(jù)工程生命周期,并解釋了它是如何從項(xiàng)目需求收集和管道設(shè)計(jì)開始工作的,并涵蓋了該領(lǐng)域的最佳實(shí)踐。
這本書都是關(guān)于SQL和Python以及如何使用它們來(lái)解決現(xiàn)實(shí)世界的數(shù)據(jù)工程任務(wù)。第4章介紹了選擇正確數(shù)據(jù)工程技術(shù)的框架。
總的來(lái)說(shuō),這是我的最愛(ài)之一。它不僅涵蓋了數(shù)據(jù)生成、ETL、聚合和清理的復(fù)雜性,而且還關(guān)注了可能對(duì)數(shù)據(jù)工程管理人員有用的策略。
03
數(shù)據(jù)倉(cāng)庫(kù)工具包:維度的權(quán)威指南
The Data Warehouse Toolkit: The Definitive Guide to Dimensional
建模,第三版
Ralph Kimball , Margy Ross著
2013年發(fā)布
出版商(s):Wiley
我記得在幾年前開始使用Snowflake時(shí)買了這本書。
這本書發(fā)布于2013年,仍然適用于許多數(shù)據(jù)建模場(chǎng)景。
我喜歡這本書的地方在于它的案例研究。它提供了來(lái)自不同行業(yè)的20多個(gè)真正有用的場(chǎng)景,如零售、營(yíng)銷等。它幫助我在更高的層次上理解維度建模和數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)?;旧?,它解釋了關(guān)于事實(shí)表和維度表以及如何在數(shù)據(jù)倉(cāng)庫(kù)解決方案中運(yùn)行ETL的一切知識(shí)。
即使是現(xiàn)在,讀這本書來(lái)見(jiàn)證數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)的發(fā)展也是非常有趣的。
04
數(shù)據(jù)網(wǎng)格
Data Mesh
Zhamak Dehghani著
2022年發(fā)布
出版者:Wiley
對(duì)數(shù)據(jù)網(wǎng)格原理的清晰而新穎的概述。數(shù)據(jù)網(wǎng)格和分散的數(shù)據(jù)管理無(wú)疑是數(shù)據(jù)工程領(lǐng)域的主要趨勢(shì)之一。
數(shù)據(jù)網(wǎng)格定義了當(dāng)我們擁有不同的數(shù)據(jù)領(lǐng)域(公司部門)及其團(tuán)隊(duì)和共享數(shù)據(jù)資源時(shí)的狀態(tài)。
對(duì)于那些想要學(xué)習(xí)數(shù)據(jù)網(wǎng)格設(shè)計(jì)、策略和架構(gòu)的人來(lái)說(shuō),這本書是一本很好的讀物。本書以邏輯一致的方式解釋了數(shù)據(jù)所有權(quán)模型,以超越傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)方法,轉(zhuǎn)向分散和分布式的數(shù)據(jù)平臺(tái)。
05
數(shù)據(jù)管道口袋參考:移動(dòng)和處理數(shù)據(jù)分析第1版
Data Pipelines Pocket Reference: Moving and Processing Data for Analytics 1st Edition
James Densmore著
格式:Kindle版
2021年2月發(fā)布
出版商:O 'Reilly Media, Inc.
這是我最喜歡的關(guān)于數(shù)據(jù)管道的書之一。在我的職業(yè)生涯中,一些Python和SQL代碼片段對(duì)我非常有用。本書的Github存儲(chǔ)庫(kù)代碼演示了如何從外部數(shù)據(jù)源提取數(shù)據(jù)并將其轉(zhuǎn)換為數(shù)據(jù)集。
這本書介紹了一種“構(gòu)建vs購(gòu)買”的方法,這是數(shù)據(jù)工程師的任務(wù)。事實(shí)上,目前市場(chǎng)上有許多托管ETL解決方案,如Stitch、Fivetran等。本書涵蓋了數(shù)據(jù)管道設(shè)計(jì)原則,并解釋了如何為成功的分析創(chuàng)建強(qiáng)大的數(shù)據(jù)處理。這本書從體系結(jié)構(gòu)的角度解釋了數(shù)據(jù)管道設(shè)計(jì)的許多關(guān)鍵點(diǎn)。它還涵蓋了云中現(xiàn)代數(shù)據(jù)基礎(chǔ)設(shè)施、數(shù)據(jù)管道監(jiān)控和警報(bào)等方面。
06
構(gòu)建現(xiàn)代數(shù)據(jù)平臺(tái):大規(guī)模企業(yè)Hadoop指南
Architecting Modern Data Platforms: A Guide to Enterprise Hadoop at Scale
Jan Kunigk, Ian Buss, Paul Wilkinson, Lars George著
2019年發(fā)布
出版商:O 'Reilly Media, Inc.
這本書很好地解釋了Hadoop技術(shù)。盡管該技術(shù)在中小企業(yè)層面不是很流行,但它認(rèn)為企業(yè)應(yīng)用仍然是可行的。這是一本有趣的讀物,重點(diǎn)關(guān)注實(shí)際使用案例,旨在創(chuàng)建云端和本地的大數(shù)據(jù)基礎(chǔ)設(shè)施。我相信對(duì)于經(jīng)驗(yàn)豐富的數(shù)據(jù)工程師來(lái)說(shuō),這本書將對(duì)他們?cè)谠贫藙?chuàng)建企業(yè)級(jí)管道并確保高水平的安全性和可用性非常有用。
這不是我經(jīng)常讀的書,但仍然很有用,因?yàn)樗攀隽艘恍┍徽J(rèn)為已經(jīng)過(guò)時(shí)的內(nèi)容,了解到Hadoop仍然存在是一件好事。
07
Spark:權(quán)威指南:大數(shù)據(jù)處理簡(jiǎn)化第一版
Spark: The Definitive Guide: Big Data Processing Made Simple 1st Edition
Bill Chambers, Matei Zaharia著
2018年發(fā)布
出版商:O 'Reilly Media, Inc.
當(dāng)談到數(shù)據(jù)湖的大數(shù)據(jù)管道中的ETL時(shí),這是我最喜歡的一個(gè)。我們都喜歡Spark的卓越可擴(kuò)展性和成本效益。對(duì)于想要學(xué)習(xí)數(shù)據(jù)湖中可擴(kuò)展數(shù)據(jù)處理的初學(xué)者和中級(jí)用戶來(lái)說(shuō),這是一本很棒的書。它涵蓋了一些基本的數(shù)據(jù)工程概念和使用Apache Spark進(jìn)行數(shù)據(jù)湖數(shù)據(jù)處理。Apache Spark被用于許多云產(chǎn)品中,例如AWS Glue。它使本書成為有抱負(fù)的數(shù)據(jù)工程師的絕佳選擇。
08
流式系統(tǒng):大規(guī)模數(shù)據(jù)處理的內(nèi)容、地點(diǎn)、時(shí)間和方式第1版
Streaming Systems: The What, Where, When, and How of Large-Scale Data Processing 1st Edition
Tyler Akidau, Slava Chernyak, Reuven Lax著
2018年發(fā)布
出版商:O 'Reilly Media, Inc.
這是一本關(guān)于流式數(shù)據(jù)處理設(shè)計(jì)模式的優(yōu)秀書籍。它解釋了流數(shù)據(jù)處理管道及其核心原理。對(duì)于數(shù)據(jù)工程師來(lái)說(shuō),理解數(shù)據(jù)管道設(shè)計(jì)模式的本質(zhì)并正確應(yīng)用它們是非常重要的,例如批處理數(shù)據(jù)處理、流式ETL等。由于流處理,應(yīng)用程序可以觸發(fā)對(duì)新數(shù)據(jù)事件的即時(shí)響應(yīng)。
流式處理是企業(yè)數(shù)據(jù)必備的解決方案。
這本書幫助我選擇正確的方式來(lái)處理數(shù)據(jù),并創(chuàng)建接近實(shí)時(shí)的分析管道。通常情況下,并不總是需要使用流式處理,這可能會(huì)成為一種昂貴的解決方案。
09
用數(shù)據(jù)講故事:商業(yè)專業(yè)人士的數(shù)據(jù)可視化指南第1版
Storytelling with Data: A Data Visualization Guide for Business Professionals 1st Edition
Cole Nussbaumer Knaflic(作者)
2015年發(fā)布
出版者:Wiley
這是一本關(guān)于數(shù)據(jù)可視化技術(shù)和商業(yè)智能(BI)的優(yōu)秀書籍。雖然商業(yè)智能是數(shù)據(jù)工程的重要組成部分(反之亦然),但這本書并不是一本職業(yè)指南。該書解釋了數(shù)據(jù)工程如何補(bǔ)充商業(yè)智能。它展示了如何以富有信息性、引人入勝的方式傳達(dá)數(shù)據(jù)洞見(jiàn)。這本書對(duì)我的儀表盤設(shè)計(jì)幫助很大。我會(huì)把它加入我的書架。
10
流利的Python:清晰,簡(jiǎn)潔,有效的編程第二版
Fluent Python: Clear, Concise, and Effective Programming 2nd Edition
Luciano Ramalho著
2022年發(fā)布
出版商:O 'Reilly Media, Inc.
另一本關(guān)于Python的非常有用的書,我一直留著。Python是數(shù)據(jù)工程的重要組成部分,它使本書非常有用。本書分為五個(gè)部分,涵蓋了數(shù)據(jù)工程師在數(shù)據(jù)管道中可能需要使用的幾乎所有內(nèi)容,例如上下文管理器、裝飾器、生成器和異步編程等。
11
數(shù)據(jù)工程師應(yīng)該知道的97件事:來(lái)自專家的集體智慧
97 Things Every Data Engineer Should Know: Collective Wisdom from the Experts
Tobias Macey著
2021年發(fā)布
出版商:O 'Reilly Media, Inc.
這是一本很棒的書,它證實(shí)了現(xiàn)在對(duì)數(shù)據(jù)工程師的需求很高。本書匯集了數(shù)據(jù)工程師的經(jīng)驗(yàn)。他們中的許多人為在大數(shù)據(jù)和人工智能領(lǐng)域取得顯著成功的公司設(shè)計(jì)了數(shù)據(jù)管道和ETL流程。很高興看到人們?nèi)匀辉敢夥窒硭麄兊闹R(shí)并解釋他們是如何解決具有挑戰(zhàn)性的ETL問(wèn)題的。本書包含97個(gè)用例,幾乎每個(gè)數(shù)據(jù)工程師都可以使用這些用例進(jìn)行數(shù)據(jù)處理和數(shù)據(jù)管道設(shè)計(jì)。我喜歡每天讀一篇。
結(jié)論
如果你是一個(gè)學(xué)習(xí)者或渴望掌握新的數(shù)據(jù)技能的數(shù)據(jù)愛(ài)好者,那么在云中有很多免費(fèi)的機(jī)會(huì)。我強(qiáng)烈建議在其中一家云平臺(tái)供應(yīng)商那里建立帳戶,開始學(xué)習(xí)市場(chǎng)上可用的數(shù)據(jù)工程工具。其中許多平臺(tái)提供免費(fèi)的基礎(chǔ)服務(wù),探索最新的數(shù)據(jù)工程進(jìn)展不需要任何費(fèi)用。只需確保在使用免費(fèi)服務(wù)時(shí)密切關(guān)注計(jì)費(fèi)情況。本文中給出的書籍概述將支持你的學(xué)習(xí)曲線。其中大部分假設(shè)讀者能夠熟練地使用JSON、SQL、REST API,并了解Python編程的基礎(chǔ)知識(shí)。
原文作者:Mike Shakhomirov
翻譯作者:Dou
美工編輯:過(guò)兒
校對(duì)審稿:Jason
原文鏈接:https://towardsdatascience.com/data-engineering-books-f373005d53fc
Meta的數(shù)據(jù)工程:內(nèi)部技術(shù)棧的高級(jí)概述
在2024年實(shí)現(xiàn)數(shù)據(jù)科學(xué)家更好的工作與生活平衡
使用生成式AI編寫代碼的正確方法
LeMA:對(duì)于一個(gè)LLM來(lái)說(shuō),學(xué)習(xí)數(shù)學(xué)就是在犯錯(cuò)!
通過(guò)碎片化NFT實(shí)現(xiàn)商業(yè)模式創(chuàng)新
點(diǎn)「在看」的人都變好看了哦
點(diǎn)擊“閱讀原文”查看數(shù)據(jù)應(yīng)用學(xué)院核心課程
掃描二維碼推送至手機(jī)訪問(wèn)。
版權(quán)聲明:本文由飛速云SEO網(wǎng)絡(luò)優(yōu)化推廣發(fā)布,如需轉(zhuǎn)載請(qǐng)注明出處。