中體彩大數據面試題

中體彩

中體彩大數據面試題

 

【選擇題】

1.Spark Job 就認的調度模式()

A.FIFO B.FAIR C.無 D.運行時指定

2.下面哪個不是RDD的特點()

A.時分區 B.可序列化 C可修改 D可持久化

3.關於廣播交量,下面哪個是錯誤的()

A.任何函數調用 B.是隻讀的 C.存儲在各個節點 D.存儲在磁盤域HDFS

4.下面哪個操作是窄依賴()

A.join B.filter C.group D.sort

5.spark的master和worker通過什麼方式進行通信的?()

A.http B.nio C.netty D.Akka

6.hive的元數據存儲在derby 和MySQL中有什麼區別()

A.沒區別 B.多會話 C.支持網絡環境 D.數據庫的區別

7.下列哪項可以作爲集羣的管理?()

A.Puppet B.Pdsh C.Cloudera Manager D Zookceper

8.MapReduce與HBase的關係,哪些描述是正確的?()

A兩者不可或缺,MapReduce 是HBase可以正常運行的保證

B兩者不是強關聯關係,沒有MapReduce,HBase可以正常運行

C MapReduce可以直接訪問HBase

D它們之間沒有任何關係

9.下面與HDFS類似的框架是?()

A.NTFS B.FAT32 C.GFS D.EXT3

10.LSM含義是?()

A日誌結構合併樹 B二叉樹 C平衡二又樹 D長平衡二叉樹

11.關於HBase二級索引的秒速,哪些是正確的?()

A 核心是倒排表

B 二級索引概念是對應Rowkey這個「一級」索引

(圖中少二個選項,自己想下。。。)

12簡述HDFS的存儲機制

13請說明hive中Sort By,Order By,Cluster By ,Distrbute By 各個代表什麼意思?

14你覺得成爲一個優秀開發工程師應該具備哪些職業素養?你看過哪些軟件開發方面的書籍?

大數據培訓