大數據面試題一

第1題:spark代碼運行流程:

第二題:HDFS 文件寫入過程:

第三題:shuffle的sort,partition,group:

 

第四題:zookeeper選舉機制和集羣的搭建:

第五題:sparkStreaming在實時處理會發生什麼故障如何解決:

第六題:大數據離線遇到什麼問題怎麼處理的:

    1.除了MySQL和oracle,在線數據庫還有其他選擇嗎? 實際上,目前,首選通常是Oracle或mysql。 實際上,可以根據情況完全選擇它。 MySQL和Oracle是傳統的關係數據庫。 當前,有許多NoSQL數據庫,例如HBase,這是一個重要的代表。                                            如果數據以強烈的離散方式分佈並根據特定的密鑰進行查詢,則HBase是一個不錯的選擇

    2.分析的結果數據非常大,不能在線請求結果數據。 怎麼了? 通常,結果數據不是很大,即成千上萬的數據。 在此數據級別上,對數據庫(例如mysql)沒有壓力。 但是,如果數據量增加到數千萬或數十億個級別,並且存在複雜的SQL查詢,那麼MySQL現在肯定無法進行。 此時,您可能需要構建索引(例如,將索引添加到要通過Lucene檢索的字段),或使用分佈式內存服務器來完成查詢。 一言以蔽之,有兩種思維方式:一種是使用文件索引的形式,這是時間的空間。 另一種是使用內存,即使用更快的存儲來拒絕請求

第8題:

    一.什麼是yarn
YARN 是一個資源管理、任務調度的框架,主要包含三大模塊:ResourceManager(RM)、 NodeManager(NM)、ApplicationMaster(AM)。 ResourceManager 負責所有資源的監控、分配和管理; ApplicationMaster 負責每一個具體應用程序的調度和協調; NodeManager 負責每一個節點的維護。 對於所有的 applications,RM 擁有絕對的控制權和對資源的分配權。而每個 AM 則會和 RM 協商資源,同時和 NodeManager 通信來執行和監控 task。

第9題:

第10題:

    看文件有多少行wc -l 

第11題: