久久精品精选,精品九九视频,www久久只有这里有精品,亚洲熟女乱色综合一区
    分享

    非常實用的 Python 庫,推一次火一次!

     AnonymousV臉 2022-01-11
    原文地址:https:///FBj1Ktxv
    譯文鏈接:https:///moEU7xzr

    人生苦短,快學Python

    Python 是一個很棒的語言。它是世界上發展最快的編程語言之一。它一次又一次地證明了在開發人員職位中和跨行業的數據科學職位中的實用性。整個 Python 及其庫的生態系統使它成為全世界用戶(初學者和高級用戶)的合適選擇。它的成功和流行的原因之一是它強大的第三方庫的集合,這些庫使它可以保持活力和高效。

    在本文中,我們會研究一些用于數據科學任務的 Python 庫,而不是常見的比如 panda、scikit-learn 和 matplotlib 等的庫。盡管像 panda 和 scikit-learn 這樣的庫,是在機器學習任務中經常出現的,但是了解這個領域中的其它 Python 產品總是很有好處的。

    一、Wget

    從網絡上提取數據是數據科學家的重要任務之一。Wget 是一個免費的實用程序,可以用于從網絡上下載非交互式的文件。它支持 HTTP、HTTPS 和 FTP 協議,以及通過 HTTP 的代理進行文件檢索。由于它是非交互式的,即使用戶沒有登錄,它也可以在后臺工作。所以下次當你想要下載一個網站或者一個頁面上的所有圖片時,wget 可以幫助你。

    安裝:

    $ pip install wget

    例子:

    import wget
    url = 'http://www./skaven/song_files/mp3/razorback.mp3'

    filename = wget.download(url)
    100% [................................................] 3841532 / 3841532

    filename
    'razorback.mp3'

    ### Pendulum


    二、Pendulum

    對于那些在 python 中處理日期時間時會感到沮喪的人來說,Pendulum 很適合你。它是一個簡化日期時間操作的 Python 包。它是 Python 原生類的簡易替代。請參閱文檔深入學習。

    安裝:

    $ pip install pendulum

    例子:

    import pendulum

    dt_toronto = pendulum.datetime(2012, 1, 1, tz='America/Toronto')
    dt_vancouver = pendulum.datetime(2012, 1, 1, tz='America/Vancouver')

    print(dt_vancouver.diff(dt_toronto).in_hours())



    三、imbalanced-learn

    可以看出,當每個類的樣本數量基本相同時,大多數分類算法的效果是最好的,即需要保持數據平衡。但現實案例中大多是不平衡的數據集,這些數據集對機器學習算法的學習階段和后續預測都有很大影響。幸運的是,這個庫就是用來解決此問題的。它與 scikit-learn 兼容,是 scikit-lear-contrib 項目的一部分。下次當你遇到不平衡的數據集時,請嘗試使用它。

    安裝:

    pip install -U imbalanced-learn

    # 或者

    conda install -c conda-forge imbalanced-learn

    例子:

    使用方法和例子請參考文檔。

    四、FlashText

    在 NLP 任務中,清理文本數據往往需要替換句子中的關鍵字或從句子中提取關鍵字。通常,這種操作可以使用正則表達式來完成,但是如果要搜索的術語數量達到數千個,這就會變得很麻煩。Python 的 FlashText 模塊是基于 FlashText 算法為這種情況提供了一個合適的替代方案。FlashText 最棒的一點是,不管搜索詞的數量如何,運行時間都是相同的。你可以在這里了解更多內容。

    安裝:

    $ pip install flashtext

    例子:

    提取關鍵字

    from flashtext import KeywordProcessor
    keyword_processor = KeywordProcessor()

    # keyword_processor.add_keyword(<unclean name>, <standardised name>)

    keyword_processor.add_keyword('Big Apple''New York')
    keyword_processor.add_keyword('Bay Area')
    keywords_found = keyword_processor.extract_keywords('I love Big Apple and Bay Area.')

    keywords_found
    ['New York''Bay Area']

    替換關鍵字

    keyword_processor.add_keyword('New Delhi''NCR region')

    new_sentence = keyword_processor.replace_keywords('I love Big Apple and new delhi.')

    new_sentence
    'I love New York and NCR region.'
    Fuzzywuzzy

    五、fuzzywuzzy

    這個庫的名字聽起來很奇怪,但是在字符串匹配方面,fuzzywuzzy 是一個非常有用的庫??梢院芊奖愕貙崿F計算字符串匹配度、令牌匹配度等操作,也可以很方便地匹配保存在不同數據庫中的記錄。

    安裝:

    $ pip install fuzzywuzzy

    例子:

    from fuzzywuzzy import fuzz
    from fuzzywuzzy import process

    # 簡單匹配度

    fuzz.ratio('this is a test''this is a test!')
    97

    # 模糊匹配度
    fuzz.partial_ratio('this is a test''this is a test!')
     100

    更多有趣例子可以在 GitHub 倉庫找到。

    、PyFlux

    時間序列分析是機器學習領域中最常見的問題之一。PyFlux 是 Python 中的一個開源庫,它是為處理時間序列問題而構建的。該庫擁有一系列優秀的現代時間序列模型,包括但不限于 ARIMA、GARCH 和 VAR 模型。簡而言之,PyFlux 為時間序列建模提供了一種概率方法。值得嘗試一下。

    安裝

    pip install pyflux

    例子

    詳細用法和例子請參考官方文檔。

    七、Ipyvolume

    結果展示也是數據科學中的一個重要方面。能夠將結果進行可視化將具有很大優勢。IPyvolume 是一個可以在 Jupyter notebook 中可視化三維體和圖形(例如三維散點圖等)的 Python 庫,并且只需要少量配置。但它目前還是 1.0 之前的版本階段。用一個比較恰當的比喻來解釋就是:IPyvolume 的 volshow 對于三維數組就像 matplotlib 的 imshow 對于二維數組一樣好用??梢栽谶@里獲取更多。

    使用 pip

    $ pip install ipyvolume

    使用 Conda/Anaconda

    $ conda install -c conda-forge ipyvolume

    例子

    • 動畫
    圖片
    • 體繪制
    圖片


    八、Dash

    Dash 是一個高效的用于構建 web 應用程序的 Python 框架。它是在 Flask、Plotly.js 和 React.js 基礎上設計而成的,綁定了很多比如下拉框、滑動條和圖表的現代 UI 元素,你可以直接使用 Python 代碼來寫相關分析,而無需再使用 javascript。Dash 非常適合構建數據可視化應用程序。然后,這些應用程序可以在 web 瀏覽器中呈現。用戶指南可以在這里獲取。

    安裝

    pip install dash==0.29.0  # 核心 dash 后端
    pip install dash-html-components==0.13.2  # HTML 組件
    pip install dash-core-components==0.36.0  # 增強組件
    pip install dash-table==3.1.3  # 交互式 DataTable 組件(最新?。?/span>

    例子下面的例子展示了一個具有下拉功能的高度交互式圖表。當用戶在下拉菜單中選擇一個值時,應用程序代碼將動態地將數據從 Google Finance 導出到 panda DataFrame。

    圖片


    九、Gym

    OpenAI 的 Gym 是一款用于增強學習算法的開發和比較工具包。它兼容任何數值計算庫,如 TensorFlow 或 Theano。Gym 庫是測試問題集合的必備工具,這個集合也稱為環境 —— 你可以用它來開發你的強化學習算法。這些環境有一個共享接口,允許你進行通用算法的編寫。

    安裝

    pip install gym

    例子這個例子會運行CartPole-v0環境中的一個實例,它的時間步數為 1000,每一步都會渲染整個場景。

    總結

    以上這些有用的數據科學 Python 庫都是我精心挑選出來的,不是常見的如 numpy 和 pandas 等庫。如果你知道其它庫,可以添加到列表中來,請在下面的評論中提一下。另外別忘了先嘗試運行一下它們。


      本站是提供個人知識管理的網絡存儲空間,所有內容均由用戶發布,不代表本站觀點。請注意甄別內容中的聯系方式、誘導購買等信息,謹防詐騙。如發現有害或侵權內容,請點擊一鍵舉報。
      轉藏 分享 獻花(0

      0條評論

      發表

      請遵守用戶 評論公約

      類似文章 更多

      主站蜘蛛池模板: 国产精品无码无卡在线播放| 国产精品自在线拍国产| 免费又黄又爽又猛的毛片| 久久精品人人做人人爽电影蜜月| 国产日韩精品中文字幕| 午夜自产精品一区二区三区| 一本一道VS无码中文字幕| 天天做天天爱夜夜爽导航| 国内丰满熟女出轨VIDEOS| 国产精品中文字幕一区| 国产综合视频一区二区三区| 精品国产一区二区三区av性色| 日本高清乱理伦片中文字幕| 无码国内精品久久人妻| 国产欧美在线一区二区三| 久久午夜无码免费| 中文字幕无线码中文字幕免费| 亚洲av日韩av综合在线观看| 又湿又紧又大又爽A视频| 国产精品免费中文字幕| V一区无码内射国产| 亚洲熟妇自偷自拍另类| 精品无码久久久久久久动漫| 无码人妻斩一区二区三区| 国产乱子影视频上线免费观看| 丁香五月婷激情综合第九色 | 国产卡一卡二卡三免费入口| 在线看无码的免费网站| 久久精品国产亚洲AV高清热| 国产精品美脚玉足脚交欧美| 一区二区三区国产不卡| 影音先锋人妻啪啪AV资源网站 | 国产精品日韩中文字幕| 精品无人区一区二区三区| 亚洲欧美中文字幕日韩一区二区| 国产老妇伦国产熟女老妇高清 | 国产精品爽黄69天堂A| 日本一道一区二区视频| 国产精品美女乱子伦高潮| 亚洲精品成人久久久| 无码人妻斩一区二区三区|