【導讀】深度學習的出現讓許多機器學習從業者將目光從Spark等大數據計算框架轉移到了TensorFlow、PyTorch等深度學習框架上。然而,大數據框架與深度學習框架并不是相互排斥的關系,它們之間有很好的結合。本文介紹一些大數據框架與深度學習框架的結合體。 TensorFlowOnSpark 簡介:Yahoo的TensorFlowOnSpark可以讓你在Spark集群上使用TensorFlow,也就是說,你可以利用Spark充分利用集群中大量機器的資源,同時可以利用TensorFlow使用節點中GPU超強的計算能力。 項目地址: https://github.com/yahoo/TensorFlowOnSpark 文檔地址: https://github.com/yahoo/TensorFlowOnSpark/wiki CaffeOnSpark 簡介:同樣也是Yahoo出品的開源軟件,與TensorFlowOnSpark類似,只不過使用的深度學習框架是Caffe。 項目地址: https://github.com/yahoo/CaffeOnSpark 文檔地址: https://github.com/yahoo/CaffeOnSpark/wiki elephas 簡介:在Spark上使用Keras。相對于TensorFlow、PyTorch,Keras具有相對簡單易用的接口和各種工具類,更適合開發人員使用。elephas使得大數據工程師可以方便地在自己熟悉的Spark中使用容易上手深度學習框架Keras。 項目地址: https://github.com/maxpumperla/elephas 文檔地址: http:///elephas/ Deeplearning4j 簡介:Deeplearning4j由一個叫Skymind的小公司發起,后被加入Eclipse開源軟件。雖然它難用、不靈活、不適合做模型迭代,但是Deeplearning4j是深度學習生態圈中屈指可數的幾個用Java編寫的框架之一,另外,它原生支持在Spark中運行。對于數據量大、模型相對固定且不需要復雜科學計算流程的任務,Deeplearning4j是一個不錯的選擇。 項目地址: https://github.com/deeplearning4j/deeplearning4j 文檔地址: https:///documentation BigDL 簡介:BigDL是另一個Java生態圈中的深度學習框架,原生就有Spark支持。相對于Deeplearning4j,BigDL具有更為強大的開發團隊支持,它是由Intel發起的開源項目。BigDL的目標之一就是充分利用大規模集群中的Intel CPU,這也是它的弱點之一:沒有GPU支持。 項目地址: https://github.com/intel-analytics/BigDL 文檔地址: https://github.com/intel-analytics/BigDL/wiki |
|
來自: LibraryPKU > 《機器學習》