久久精品精选,精品九九视频,www久久只有这里有精品,亚洲熟女乱色综合一区
    分享

    大數(shù)據(jù)全系技術概覽

     昵稱48052010 2019-12-18

    什么是大數(shù)據(jù)?

    大數(shù)據(jù)(big data),指無法在一定時間范圍內(nèi)用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。

    在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數(shù)據(jù)時代》中大數(shù)據(jù)指不用隨機分析法(抽樣調(diào)查)這樣捷徑,而采用所有數(shù)據(jù)進行分析處理。大數(shù)據(jù)的5V特點(IBM提出):Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價值密度)、Veracity(真實性)。

    大數(shù)據(jù)應用現(xiàn)狀

    醫(yī)療/健康

    百度、平安、阿里、騰訊、春雨醫(yī)生、易隨診、華大基因、丁香園、微糖、好大夫在線、39健康網(wǎng)、尋醫(yī)問藥網(wǎng)、有問必答網(wǎng)、育兒網(wǎng)、中國育兒網(wǎng)、寶寶樹、百度醫(yī)前智能問診平臺、東軟、金蝶。

    電商

    淘寶、天貓、京東、亞馬遜

    精準銷售

    對用戶消費全過程數(shù)據(jù)進行分析,掌握用戶基本屬性、購買能力、行為特征、社交特征、心里特征和興趣偏好等多方面信息。

    商家和供應商決策支持

    提供具有高度時效性的行業(yè)平均數(shù)據(jù)、市場需求變化、產(chǎn)業(yè)上下游動態(tài)等市場信息,幫助商家和供應商分析運營狀態(tài),預測銷售和用戶趨勢,并提供針對性的運營優(yōu)化策略;

    平臺運營優(yōu)化

    通過大數(shù)據(jù)分析為管理層以及各級運營管理人員提供數(shù)據(jù)分析和決策支持服務。

    語音服務

    科大訊飛、云知聲、思必馳、捷通華聲;

    廣告營銷

    億贊普、智子云、秒針系統(tǒng)、品友互動、精碩科技、集奧聚合、締元信、

    金融

    閃銀(Wecash)、宜信、拍拍貸、陸金所、人人貸、芝麻征信、騰訊征信、京小貸、元寶鋪、融360、數(shù)聯(lián)銘品、九次方;

    影視/娛樂

    騰訊視頻、愛奇藝、優(yōu)酷&土豆、搜狐視頻、蝦米音樂、網(wǎng)易云音樂、豆瓣FMQQ音樂、藝恩世紀國際信息咨詢(北京)有限公司、新影數(shù)訊、艾漫科技、牧星人影視。

    在線教育

    作業(yè)通、作業(yè)幫、學霸君

    人力資源

    搜前途、哪上班、e成招聘、望才招聘、內(nèi)聘網(wǎng)、人人獵頭

    旅游

    去哪兒、好巧網(wǎng)、馬蜂窩、智游啦、攜程

    地理信息服務

    百度地圖、高德地圖、中海達、東方道邇、靈圖軟件

    交通/物流

    航旅縱橫、飛常準、途志、車來了、北京匯通天下物聯(lián)科技、快的打車、美的空調(diào)、快逸行、九五智駕

    房地產(chǎn)

    萬科地產(chǎn)、鏈家地產(chǎn)、易遨中國、萬達地產(chǎn)

    企業(yè)應用

    企業(yè)有東方國信、亞信、金蝶、用友、神州數(shù)碼

    輿情

    鷹擊、邦富、30所、百度、新浪

    大數(shù)據(jù)技術共性

    業(yè)界主流大數(shù)據(jù)技術框架

    1. 磁盤存儲

    HDFS、HBASE、S3、Cassandra、MongoDB、Redis

    2. 內(nèi)存存儲

    Alluxio 、Redis

    3. 數(shù)據(jù)分析

    Spark(SQL、Streaming、MLlib、GraphX)、Storm、MapReduce、Mahout、Hive、Pig

    4. 分步式協(xié)調(diào)服務

    ZooKeeper

    5. 集群系統(tǒng)監(jiān)控

    CDH-CMS, Metrics, Grafana、Ambari

    6. 消息總線

    kafka、ActiveMQ、Apollo、 Redis

    7. 索引系統(tǒng)

    Solr、Lucene、ElasticSearch

    大數(shù)據(jù)組件應用分類

    1. 數(shù)據(jù)采集

    flume、kafka connector、sqoop、socket、sftp、mina

    2. 實時處理

    Spark Streaming、Kafka Streams、Storm、Samza、Flink

    3. 數(shù)據(jù)存儲

    HDFS、HBASE、S3、Cassandra、MongoDB、Redis、Solr、ElasticSearch

    4. 離線處理

    Spark SQL、Hive、Map Reduce、Pig、Impala

    5. 交互式查詢

    Drill、PresTO、Kylin

    6. 數(shù)據(jù)展現(xiàn)

    Echarts、Tableau、d3js

    大數(shù)據(jù)組件簡介

    1、Hadoop是Apache開源組織的一個分布式計算框架,提供了一個分布式文件系統(tǒng) (HDFS)、MapReduce分布式計算及統(tǒng)一資源管理框架(Yarn)的軟件架構。

    • 為大規(guī)模數(shù)據(jù)的存儲提供解決方案(HDFS);

    • 解決大規(guī)模分步式計算( MapReduce );

    • 作為其周邊軟件Hbase、Hive、Pig、Mahout等的基礎平臺。

    2、HBase是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統(tǒng),利用HBase技術可在廉價PC Server上搭建起大規(guī)模結構化存儲集群。

    • 解決海量數(shù)據(jù)的存儲;

    • 解決隨機、實時讀寫大數(shù)據(jù);

    • 提供簡化訪問HDFS的編程接口。

    3、kafka是Apache旗下的一個高性能,高吞吐量的分步式消息總線系統(tǒng)。

    • 分布式系統(tǒng)相互通信;

    • 數(shù)據(jù)復制、同步;

    • 日志同步;

    • Delay Queue;

    • 廣播通知。

    4、Hive是基于Hadoop的一個數(shù)據(jù)倉庫工具,可以將結構化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表,并提供簡單的sql查詢功能,可以將sql語句轉換為MapReduce任務進行運行。其優(yōu)點是學習成本低,可以通過類SQL語句快速實現(xiàn)簡單的MapReduce統(tǒng)計,不必開發(fā)專門的MapReduce應用,十分適合數(shù)據(jù)倉庫的統(tǒng)計分析。

    • 解決海量數(shù)據(jù)的存儲;

    • 解決大規(guī)模數(shù)據(jù)的分析:SQL。

    5、MongoDB 是一個高性能,開源,無模式的文檔型數(shù)據(jù)庫,它在許多場景下可用于替代傳統(tǒng)的關系型數(shù)據(jù)庫或鍵/值存儲方式。MongoDB不支持SQL,但有自己功能強大的查詢語法。MongoDB使用BSON作為數(shù)據(jù)存儲和傳輸?shù)母袷健SON是一種類似JSON的二進制序列化文檔,支持嵌套對象和數(shù)組。

    • 解決海量數(shù)據(jù)在線存儲;

    • 許多情況下可以代替?zhèn)鹘y(tǒng)關系數(shù)據(jù)庫;

    • 代替鍵/值存儲方式。

    6、Redis是一個開源的使用ANSI C語言編寫、支持網(wǎng)絡、可基于內(nèi)存亦可持久化的日志型、Key-Value數(shù)據(jù)庫,并提供多種語言的API。從2010年3月15日起,Redis的開發(fā)工作由VMware主持。從2013年5月開始,Redis的開發(fā)由Pivotal贊助。

    7、Apache Spark 是專為大規(guī)模數(shù)據(jù)處理而設計的快速通用的計算引擎。Spark是UC Berkeley AMP lab (加州大學伯克利分校的AMP實驗室)所開源的類Hadoop MapReduce的通用并行框架,Spark,擁有Hadoop MapReduce所具有的優(yōu)點;但不同于MapReduce的是——Job中間輸出結果可以保存在內(nèi)存中,從而不再需要讀寫HDFS,因此Spark能更好地適用于數(shù)據(jù)挖掘與機器學習等需要迭代的MapReduce的算法。

    Spark 是一種與 Hadoop 相似的開源集群計算環(huán)境,但是兩者之間還存在一些不同之處,這些有用的不同之處使 Spark 在某些工作負載方面表現(xiàn)得更加優(yōu)越,換句話說,Spark 啟用了內(nèi)存分布數(shù)據(jù)集,除了能夠提供交互式查詢外,它還可以優(yōu)化迭代工作負載。

    Spark 是在 Scala 語言中實現(xiàn)的,它將 Scala 用作其應用程序框架。與 Hadoop 不同,Spark 和 Scala 能夠緊密集成,其中的 Scala 可以像操作本地集合對象一樣輕松地操作分布式數(shù)據(jù)集。

    8、Storm是一個分布式的、容錯的實時計算系統(tǒng)。使用Storm進行實時大數(shù)據(jù)分析。

    9、Flink 是可擴展的批處理和流式數(shù)據(jù)處理的數(shù)據(jù)處理平臺,設計思想主要來源于Hadoop、MPP數(shù)據(jù)庫、流式計算系統(tǒng)等,支持增量迭代計算。

    10、Alluxio A memory speed virtual distributed storage. Alluxio是一個高容錯的內(nèi)存分布式文件系統(tǒng),允許文件以內(nèi)存的速度在集群框架中進行可靠的共享。典型特點就是加速讀寫數(shù)據(jù)的速度。

    11、ElasticSearch是一個基于Lucene的搜索服務器。它提供了一個分布式多用戶能力的全文搜索引擎,基于RESTful web接口。其典型特點是全文快速檢索。

    來源:戰(zhàn)略前沿技術

      本站是提供個人知識管理的網(wǎng)絡存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權內(nèi)容,請點擊一鍵舉報。
      轉藏 分享 獻花(0

      0條評論

      發(fā)表

      請遵守用戶 評論公約

      類似文章 更多

      主站蜘蛛池模板: 日韩精品一区二区三区视频| 国产资源精品中文字幕| 亚洲日韩精品无码av海量| 亚洲成A人片在线观看的电影| 国产精品久久久久免费观看| 久久精品一本到99热免费| 欧美成人一区二区三区不卡| 亚洲精品色午夜无码专区日韩| 日本精品一区二区不卡| 精品国产一区二区三区麻豆| 麻豆国产va免费精品高清在线| 国产精品自在自线视频| 亚洲成A人一区二区三区| 国内熟妇人妻色在线视频 | 亚洲AV永久无码精品三区在线| 亚洲爆乳WWW无码专区| 大香区一二三四区2021| 国产AV福利第一精品| 国精品无码一区二区三区在线蜜臀 | 又大又粗又爽A级毛片免费看| XXXXXHD亚洲日本HD| 国产精品自在线拍国产电影| 亚洲日韩久热中文字幕| 熟妇人妻一区二区三区四区| 久章草在线毛片视频播放| 又大又粗又爽A级毛片免费看| 免费A级毛片中文字幕| 亚洲人妻一区二区精品| 亚洲精品色午夜无码专区日韩| 国产成人A在线视频免费| 被拉到野外强要好爽| 亚洲综合色婷婷在线观看| 国产福利姬喷水福利在线观看| 亚洲色成人一区二区三区人人澡人人妻人人爽人人蜜桃麻豆 | 成在线人永久免费视频播放| 丰满无码人妻热妇无码区| 国产精品美女久久久久| 国产曰批视频免费观看完| 国产精品一区在线蜜臀| 久久精品丝袜高跟鞋| 无码熟妇人妻AV影音先锋|