20个超棒的Python库集合分享

 为了方便学习,本文列出的20个     Python      库将按领域进行分类,有些你可能并不熟悉,但是真的能提高你的模型算法实现效率,多一点尝试,多一些努力!

 核心库和统计数据

1.NumPy(Com     mi   ts:17911,Contributors:641)

官网:http://www.numpy.org/

NumPy是科学应用程序库的主要软件包之一,用于处理大型多维数组和矩阵,它大量的高级数学函数集合和实现方法使得这些对象执行操作成为可能。

2.SciPy(Commits:19150,Contributors:608)

官网:https://scipy.org/scipylib/

科学计算的另一个核心库是SciPy。它基于NumPy,其功能也因此得到了扩展。SciPy主数据结构又是一个多维数组,由Numpy实现。这个软件包包含了帮助解决线性代数、概率论、积分计算和许多其他任务的工具。此外,SciPy还封装了许多新的BLAS和LAPACK函数。

3.Pandas(Commits:17144,Contributors:1165)

官网:https://pandas.pydata.org/

Pandas是一个Python库,提供高级的数据结构和各种各样的分析工具。这个软件包的主要特点是能够将相当复杂的数据操作转换为一两个命令。Pandas包含许多用于分组、过滤和组合数据的内置方法,以及时间序列功能。

4.StatsModels(Commits:10067,Contributors:153)

官网:http://www.statsmodels.org/devel/

Statsmodels是一个Python模块,它为统计数据分析提供了许多机会,例如统计模型估计、执行统计测试等。在它的帮助下,你可以实现许多     机器学习   方法并探索不同的绘图可能性。

Python库不断发展,不断丰富新的机遇。因此,今年出现了时间序列的改进和新的计数模型,即GeneralizedPoisson、零膨胀模型(zeroinflatedmodels)和Nega  TI veBinomialP,以及新的多元方法:因子分析、多元方差分析以及方差分析中的重复     测量  

 可视化

5.Matplotlib(Commits:25747,Contributors:725)

官网:https://matplotlib.org/index.html

Matplotlib是一个用于创建二维图和     图形   的底层库。藉由它的帮助,你可以构建各种不同的图标,从直方图和散点图到费笛卡尔坐标图。此外,有许多流行的绘图库被设计为与matplotlib结合使用。

 20个超棒的Python库集合分享_设计制作_接口/总线/驱动

6.Seaborn(Commits:2044,Contributors:83)

官网:https://seaborn.pydata.org/

Seaborn本质上是一个基于matplotlib库的高级API。它包含更适合处理图表的默认设置。此外,还有丰富的可视化库,包括一些复杂类型,如时间序列、联合分布图(jointplots)和小提琴图(violindiag     ram   s)。

 20个超棒的Python库集合分享_设计制作_接口/总线/驱动

7.Plotly(Commits:2906,Contributors:48)

官网:https://plot.ly/python/

Plotly是一个流行的库,它可以让你轻松构建复杂的图形。该软件包适用于交互式Web应用程,可实现轮廓图、三元图和三维图等视觉效果。

8.Bokeh(Commits:16983,Contributors:294)

官网:https://bokeh.pydata.org/en/latest/

Bokeh库使用     JavaScript   小部件在浏览器中创建交互式和可缩放的可视化。该库提供了多种图表集合,样式可能性(stylingpossibili  TI es),链接图、添加小部件和定义回调等形式的交互能力,以及许多更有用的特性。

 20个超棒的Python库集合分享_设计制作_接口/总线/驱动

9.Pydot(Commits:169,Contributors:12)

官网:https://py     pi   .org/project/pydot/

Pydot是一个用于生成复杂的定向图和无向图的库。它是用纯Python编写的Graphviz     接口   。在它的帮助下,可以显示图形的结构,这在构建     神经网络   和基于决策树的算法时经常用到。

 20个超棒的Python库集合分享_设计制作_接口/总线/驱动

 机器学习

10.Scikit-learn(Commits:22753,Contributors:1084)

官网:http://scikit-learn.org/stable/

这个基于NumPy和SciPy的Python模块是处理数据的最佳库之一。它为许多标准的机器学习和数据挖掘任务提供算法,如聚类、回归、分类、降维和模型选择。

利用DataScienceSchool提高你的技能

DataScienceSchool:http://datascience-school.com/

11.     XGBoost   /LightGBM/CatBoost(Commits:3277/1083/1509,Contributors:280/79/61)

官网:

http://xgboost.readthedocs.io/en/latest/

http://lightgbm.readthedocs.io/en/latest/Python-Intro.html

https://github.com/catboost/catboost

梯度增强算法是最流行的机器学习算法之一,它是建立一个不断改进的基本模型,即决策树。因此,为了快速、方便地实现这个方法而设计了专门库。就是说,我们认为XGBoost、LightGBM和CatBoost值得特别关注。它们都是解决常见问题的竞争者,并且使用方式几乎相同。这些库提供了高度优化的、可扩展的、快速的梯度增强实现,这使得它们在数据科学家和Kaggle竞争对手中非常流行,因为在这些算法的帮助下赢得了许多比赛。

12.Eli5(Commits:922,Contributors:6)

官网:https://eli5.readthedocs.io/en/latest/

通常情况下,机器学习模型预测的结果并不完全清楚,这正是Eli5帮助应对的挑战。它是一个用于可视化和调试机器学习模型并逐步跟踪算法工作的软件包,为scikit-learn、XGBoost、LightGBM、lightning和sklearn-c     rf   sui     te   库提供支持,并为每个库执行不同的任务。

    深度学习    

13.     TensorFlow   (Commits:33339,Contributors:1469)

官网:https://www.tensorflow.org/

TensorFlow是一个流行的深度学习和机器学习框架,由GoogleBr     ai   n开发。它提供了使用具有多个数据集的人工神经网络的能力。在最流行的TensorFlow应用中有目标识别、     语音识别   等。在常规的TensorFlow上也有不同的leyer-helper,如tflearn、tf-slim、skflow等。

14.PyTorch(Commits:11306,Contributors:635)

官网:https://pytorch.org/

PyTorch是一个大型框架,它允许使用     GPU   加速执行张量计算,创建动态计算图并自动计算梯度。在此之上,PyTorch为解决与神经网络相关的应用程序提供了丰富的API。该库基于Torch,是用C实现的开源深度学习库。

15.Keras(Commits:4539,Contributors:671)

官网:https://keras.io/

Keras是一个用于处理神经网络的高级库,运行在TensorFlow、Theano之上,现在由于新版本的发布,还可以使用CNTK和MxNet作为后端。它简化了许多特定的任务,并且大大减少了单调代码的数量。然而,它可能不适合某些复杂的任务。

 分布式深度学习

16.Dist-keras/elephas/spark-deep-learning(Commits:1125/170/67,Contributors:5/13/11)

官网:

http://joerihermans.com/work/distributed-keras/

https://pypi.org/project/elephas/

https://databricks.github.io/spark-deep-learning/site/index.html

随着越来越多的用例需要花费大量的精力和时间,深度学习问题变得越来越重要。然而,使用像ApacheSpark这样的分布式计算系统,处理如此多的数据要容易得多,这再次扩展了深入学习的可能性。因此,dist-keras、elephas和spark-deep-learning都在迅速流行和发展,而且很难挑出一个库,因为它们都是为解决共同的任务而设计的。这些包允许你在ApacheSpark的帮助下直接训练基于Keras库的神经网络。Spark-deep-learning还提供了使用Python神经网络创建管道的工具。

 自然语言处理

17.NLTK(Commits:13041,Contributors:236)

官网:https://www.nltk.org/

NLTK是一组库,一个用于自然语言处理的完整平台。在NLTK的帮助下,你可以以各种方式处理和分析文本,对文本进行     标记   和标记,提取信息等。NLTK也用于原型设计和建立研究系统。

18.SpaCy(Commits:8623,Contributors:215)

官网:https://spacy.io/

SpaCy是一个具有优秀示例、API文档和演示应用程序的自然语言处理库。这个库是用Cython语言编写的,Cython是Python的C扩展。它支持近30种语言,提供了简单的深度学习集成,保证了健壮性和高准确率。SpaCy的另一个重要特性是专为整个文档处理设计的体系结构,无须将文档分解成短语。

19.Gensim(Commits:3603,Contributors:273)

官网:https://radimrehurek.com/gensim/

Gensim是一个用于健壮语义分析、主题建模和向量空间建模的Python库,构建在Numpy和Scipy之上。它提供了流行的NLP算法的实现,如word2vec。尽管gensim有自己的models.wrappe     rs   .fasttext实现,但fasttext库也可以用来高效学习词语表示。

    数据采集    

20.Scrapy(Commits:6625,Contributors:281)

官网:https://scrapy.org/

Scrapy是一个用来创建网络爬虫,扫描网页和收集结构化数据的库。此外,Scrapy可以从API中提取数据。由于该库的可扩展性和可移植性,使得它用起来非常方便。

 结论

本文上述所列就是我们在2018年为数据科学领域中丰富的Python库集合。与上一年相比,一些新的现代库越来越受欢迎,而那些已经成为经典的数据科学任务的库也在不断改进。

下表显示了GitHub活动的详细统计数据:

 20个超棒的Python库集合分享_设计制作_接口/总线/驱动

编辑:hfy

26
87
0
87

相关资讯

  1. 1、在线职业教育缓解“宅”家焦虑,用户体验与服务闭环是发展关键3651
  2. 2、家装O2O与互联网装修的十大谬论1733
  3. 3、新零售时代:一场新的商业革命,在于资源的重新梳理与供给724
  4. 4、社群营销方法论:IP+社群+场景2811
  5. 5、把事情看明白讲清楚:视觉化思维2454
  6. 6、在训练营中,如何设计用户分层体系3291
  7. 7、作为一名运营,要具备哪些基本能力?3164
  8. 8、站在产品角度,钉钉为何能有如此的效率价值?975
  9. 9、要切入家装O2O,传统装修光剪了辫子还不够2469
  10. 10、2016年的十大技术趋势1008
全部评论(0)
我也有话说
0
收藏
点赞
顶部