大數據面試題一

時間 2021-01-09 標籤大數據面試題

第1題:spark代碼運行流程：

第二題:HDFS 文件寫入過程：

第三題:shuffle的sort，partition，group：

第四題：zookeeper選舉機制和集羣的搭建：

第五題:sparkStreaming在實時處理會發生什麼故障如何解決：

第六題：大數據離線遇到什麼問題怎麼處理的：

1.除了MySQL和oracle，在線數據庫還有其他選擇嗎？實際上，目前，首選通常是Oracle或mysql。實際上，可以根據情況完全選擇它。 MySQL和Oracle是傳統的關係數據庫。當前，有許多NoSQL數據庫，例如HBase，這是一個重要的代表。如果數據以強烈的離散方式分佈並根據特定的密鑰進行查詢，則HBase是一個不錯的選擇

2.分析的結果數據非常大，不能在線請求結果數據。怎麼了？通常，結果數據不是很大，即成千上萬的數據。在此數據級別上，對數據庫（例如mysql）沒有壓力。但是，如果數據量增加到數千萬或數十億個級別，並且存在複雜的SQL查詢，那麼MySQL現在肯定無法進行。此時，您可能需要構建索引（例如，將索引添加到要通過Lucene檢索的字段），或使用分佈式內存服務器來完成查詢。一言以蔽之，有兩種思維方式：一種是使用文件索引的形式，這是時間的空間。另一種是使用內存，即使用更快的存儲來拒絕請求

第8題:

一.什麼是yarn
YARN 是一個資源管理、任務調度的框架，主要包含三大模塊：ResourceManager（RM）、 NodeManager（NM）、ApplicationMaster（AM）。 ResourceManager 負責所有資源的監控、分配和管理； ApplicationMaster 負責每一個具體應用程序的調度和協調； NodeManager 負責每一個節點的維護。對於所有的 applications，RM 擁有絕對的控制權和對資源的分配權。而每個 AM 則會和 RM 協商資源，同時和 NodeManager 通信來執行和監控 task。

第9題:

第10題:

看文件有多少行wc -l

第11題: