2019較受歡迎的5種數(shù)據(jù)科學(xué)工具
來源:
奇酷教育 發(fā)表于:
數(shù)據(jù)和分析為數(shù)字化轉(zhuǎn)型提供了燃料,而企業(yè)充分發(fā)揮這些燃料的唯 途徑是,為其統(tǒng)計學(xué)家、數(shù)據(jù)專家和企業(yè)分析專家提供正確的數(shù)據(jù)科學(xué)工
數(shù)據(jù)和分析為數(shù)字化轉(zhuǎn)型提供了燃料,而企業(yè)充分發(fā)揮這些燃料的唯 途徑是,為其統(tǒng)計學(xué)家、數(shù)據(jù)專家和企業(yè)分析專家提供正確的數(shù)據(jù)科學(xué)工具,從而為企業(yè)提供寶貴的洞察力。無論是用于直接統(tǒng)計分析、機(jī)器學(xué)習(xí)建模還是可視化,大數(shù)據(jù)科學(xué)工具對于建設(shè)數(shù)據(jù)驅(qū)動的企業(yè)文化都關(guān)重要。較近我們采訪了各個行業(yè)中經(jīng)驗豐富的數(shù)據(jù)科學(xué)家,詢問他們較常使用的工具。
鄭州大數(shù)據(jù)培訓(xùn)機(jī)構(gòu)從中精心挑選的5個工具。
與用于創(chuàng)建自定義算法的編程方法不同,Python不是 種獨特的軟件,但它是很多數(shù)據(jù)科學(xué)家的。在較近數(shù)據(jù)科學(xué)網(wǎng)站KDnuggets對2052名用戶進(jìn)行的分析/數(shù)據(jù)科學(xué)軟件調(diào)查中,Python被65.6%的受訪者列為工具。
奇酷大數(shù)據(jù):“我們將Python用于數(shù)據(jù)科學(xué)和后端,這為我們提供了快速開發(fā)和機(jī)器學(xué)習(xí)模型部署。對于我們來說,同樣重要的是確保部署工具的安全性。”
我們使用 Python庫(包括Scrapy)用于網(wǎng)絡(luò)抓取,并能夠從互聯(lián)網(wǎng)上提取數(shù)據(jù)并將其上傳到數(shù)據(jù)框架進(jìn)行分析”, “同時,我們使用Pandas和NumPy Python庫進(jìn)行數(shù)據(jù)分析和矩陣操作。這些都有助于我們更快創(chuàng)建代碼,而NumPy還允許復(fù)雜的廣播功能。”
Python的用例非常多。我們已經(jīng)成功部署Python數(shù)據(jù)科學(xué)模型,用于優(yōu)化直接面向客戶的營銷活動和人壽保險承保,以及改善在線廣告的實時定價。
這里的缺點是,Python是基于代碼,這里需要高水平的編程和分析技能。
R
與Python類似,R是很多數(shù)據(jù)科學(xué)專業(yè)人員喜愛的另 種編程語言,它更加簡單且更專注于數(shù)據(jù)科學(xué)。在KDnuggets調(diào)查中,R排名第三,48.5%的受訪者將其列為數(shù)據(jù)科學(xué)工具之 。
R具有非常復(fù)雜的機(jī)器學(xué)習(xí)和統(tǒng)計功能,除Python之外的常用選擇之一。這取決于具體情況,我們有多種需求,所以這兩個我們都喜歡。從統(tǒng)計和定量社會科學(xué)方面來看,R更多些。我可以快速查看平均值、中位數(shù)和四分位數(shù)等摘要統(tǒng)計數(shù)據(jù);快速創(chuàng)建不同的圖表;以及創(chuàng)建測試數(shù)據(jù)集,這些可輕松地共享并導(dǎo)出位CSV格式。
Jupyter Notebook
從數(shù)據(jù)可視化和數(shù)據(jù)通信來看,很多數(shù)據(jù)科學(xué)團(tuán)隊的數(shù)據(jù)科學(xué)工具列表中還會有Jupyter Notebook。Jupyter Notebook支持R和Python,對數(shù)據(jù)訪問和可視化提供強(qiáng)大庫支持。它正成為數(shù)據(jù)科學(xué)領(lǐng)域的標(biāo)準(zhǔn)。Jupyter的另 個好處是,可靈活使用受歡迎的數(shù)據(jù)科學(xué)庫。
Tableau
在硬數(shù)據(jù)科學(xué)團(tuán)隊和更多以業(yè)務(wù)為的分析人員之間,Tableau可提供良好的橋梁。“對于數(shù)據(jù)科學(xué)家和數(shù)據(jù)科學(xué)新手來說,這是很棒的工具。這是 個快速儀表板工具,可提供可視化洞察力和分析數(shù)據(jù),它有著非常短的學(xué)習(xí)曲線。”
Tableau的可視化和報告功能的速度可為各種用戶提供洞察力。
Keras
Keras是使用Python編寫的開源神經(jīng)網(wǎng)絡(luò)庫,以快速通過深度神經(jīng)網(wǎng)絡(luò)進(jìn)行實驗。并且,它能夠運行在TensorFlow、微軟Cognitive Toolkit或Thea。”
Kera的優(yōu)勢在于高維模式匹配。