apachehadoop官網,hadoop官網文檔

大家好,如果您還對apachehadoop官網不太了解,沒有關系,今天就由本站為大家分享apachehadoop官網的知識,包括hadoop官網文檔的問題都會給大家分析...
大家好,如果您還對apachehadoop官網不太了解,沒有關系,今天就由本站為大家分享apachehadoop官網的知識,包括hadoop官網文檔的問題都會給大家分析到,還望可以解決大家的問題,下面我們就開始吧!
hadoop表名規則
為了避免底層業務變動對上層需求影響過大,屏蔽底層復雜的業務邏輯,盡可能簡單、完整的在接口層呈現業務數據,建設高內聚松耦合的數據組織,使數據從業務角度可分割,顯得尤為重要。從整個集團業務條線出發,形成數據倉庫總體概念框架,并對整個系統所需要的功能模塊進行劃分,明確各模塊技術細節,建設一套完整的開發規范。
分層規范
ODS(原始數據層):也被稱為貼源層,ODS層是數據倉庫準備區,為DWD層提供基礎原始數據。
DWD(明細數據層):和ODS粒度一致的明細數據,對數據進行去重,臟數據過濾,空處理,保證數據質量。
DWS(服務數據層):輕度匯總數據及建寬表(按主題)存放數據。
ADS(應用數據層):存放應用類表數據。
ODS-DWD-DWS-ADS
ODS-DW(輕度數據匯總層、高度數據匯總層)-DM(數據集市)
表規范
命名
維表命名形式:dim_描述
事實表命名形式:fact_描述_[AB]
臨時表命名形式:tmp_正式表名_[C自定義序號]
寬表命名形式:dws_主題_描述_[AB]
備份表命名形式:正式表名_bak_yyyymmdd
表命名解釋:
1)表名使用英文小寫字母,單詞之間用下劃線分開,長度不超過40個字符,命名一般控制在小于等于6級。
2)其中ABC第一位"A"時間粒度:使用"c"代表當前數據,"h"代表小時數據,"d"代表天數據,"w"代表周數據,"m"代表月數據,"q"代表季度數據,"y"代表年數據。
3)其中ABC的第二位"B"表示對象屬性,用"t"表示表,用"v"表示視圖。
4)其中ABC的第三位"C"自定義序號用于標識多個臨時表的跑數順序。
注釋
注釋要結合表的英文名,要求注釋簡潔明了,體現出表的業務出處、主題和用途。
存儲格式
所謂的存儲格式就是在Hive建表的時候指定的將表中的數據按照什么樣子的存儲方式,如果指定了方式,那么在向表中插入數據的時候,將會使用該方式向HDFS中添加相應的數據類型。在數倉中建表默認用的都是PARQUET存儲格式,相關語句如下所示:
STOREDASINPUTFORMAT
'org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat'
OUTPUTFORMAT
'org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat'
字符集
Hadoop和hive都是用utf-8編碼的,在建表時可能涉及到中文亂碼問題,所以導入的文件的字符編碼統一為utf-8格式。
約定
理論上在數倉落地的表不應該出現null未知類型,對于可能出現null的字段,如果為字符型統一為空字符串,如果是數值則給0。
字段規范
命名
1)使用英文小寫字母,單詞之間用下劃線分開,長度不超過30個字符,命名一般控制在小于等于4級;
2)和源數據ods層表字段名一致,如為新增字段,盡量言簡意賅;
3)英文名盡量專業,符合業界要求,不得使用漢語拼音;
4)盡量避免使用關鍵字。如無法避免,使用”`”轉義;
5)指標字段能使用縮寫的盡量使用統一的縮寫,如申請金額統計apply_amt_sum。
注釋
注釋本著簡潔、詳實、完整的原則,對于有業務含義的字段,在注釋中需要枚舉并解釋其業務含義,如ods_loan_apidata_order_info.order_status訂單狀態:1待支付,2支付不成功,3支付成功;
類型
日期時間等格式統一用string類型,字符串也是用string,數值的話,會根據字段定義來確定,對于有小數點要求的,比如某些金額、利率,需要用到decimal類型,無小數點要求的用浮點類型double和整數類型(int,bigint)。
代碼規范
sql編碼
1)關鍵字右對齊,代碼注釋詳盡,查詢字段時每行不超過三個字段,縮進時空四格等相關書寫規范。
2)明細數據層依賴于ods層,應用數據層依賴于服務數據層,原則上,不允許跨層查詢。
3)如果SQL語句連接多表時,應使用表的別名來引用列。
4)WHERE條件中參數與參數值使用的類型應當匹配,避免進行隱式類型轉化。
5)在SELECT語句中只獲取實際需要的字段。
shell腳本
調度腳本主要是通過跑shell腳本,shell腳本的注意點:
1)命名與所跑的目標表名相同,注釋要完善,后綴以.sh結尾。
2)腳本頭需要加上分割線、作者、日期、目的、描述等信息。
學Hadoop需要哪些基礎知識來支撐
Hadoop是一個開源框架,允許使用簡單的編程模型在跨計算機集群的分布式環境中存儲和處理大數據。它旨在從單個服務器擴展到數千臺機器,每臺機器提供本地計算和存儲。本簡要教程提供了大數據,MapReduce算法和Hadoop分布式文件系統的快速介紹。
適合人群
本教程為希望通過HadoopFramework學習大數據分析基礎知識并成為Hadoop開發人員的專業人員準備。軟件專業人員,分析專業人員和ETL開發人員是本課程的主要受益人。
預備知識
在開始本教程之前,我們假設您已經接觸過CoreJava,數據庫概念和任何Linux操作系統。
HadoopAPI類庫
更多HadoopAPI詳細內容,請參考:HadoopAPI類庫http://codingdict.com/article/8105
Hadoop教程內容導航
ambari可以裝apache版本的hadoop嗎
之前有做過這種嘗試,為此還看了Ambari的具體實現,對里面的部署過程進行了一些干預,最后是部署成了ApacheHadoop
1.
2.1,但就HDFS功能正常,MapReduce是跑不起的,最后結論就是用Ambari的話,還是老老實實地裝HDP吧,除非深入了解Ambari,然后改寫它,但這樣的話,還不如自己開發個自動部署ApacheHadoop的程序來的快些。
hadoop是哪個公司研發的
Hadoop是一個由Apache基金會所開發的分布式系統基礎架構。
用戶可以在不了解分布式底層細節的情況下,開發分布式程序。充分利用集群的威力進行高速運算和存儲。
于2006年2月,成為一套完整而獨立的軟件,并被命名為Hadoop。到了2008年年初,hadoop已成為Apache的頂級項目,包含眾多子項目,被應用到包括Yahoo在內的很多互聯網公司
apache doris 依賴hadoop嗎
是的,ApacheDoris(以前稱為Palo)是一個開源的分布式SQL數據倉庫,它依賴于Hadoop生態系統。它使用Hadoop的分布式文件系統(HDFS)來存儲數據,并使用Hadoop的計算框架(如MapReduce或ApacheSpark)來執行查詢和分析操作。因此,要使用ApacheDoris,您需要先安裝和配置Hadoop集群。
hadoop是由什么開發的
Hadoop是一個由Apache基金會所開發的分布式系統基礎架構。
用戶可以在不了解分布式底層細節的情況下,開發分布式程序。充分利用集群的威力進行高速運算和存儲。Hadoop實現了一個分布式文件系統(DistributedFileSystem),其中一個組件是HDFS(HadoopDistributedFileSystem)。
關于apachehadoop官網和hadoop官網文檔的介紹到此就結束了,不知道你從中找到你需要的信息了嗎 ?如果你還想了解更多這方面的信息,記得收藏關注本站。
本文鏈接:http://www.resource-tj.com/su/1713.html