2.6 scikit-learn简介

来自CloudWiki
跳转至: 导航搜索

SciKit-learn 是老牌的开源 Python 算法框架,始于 2007 年的 Google Summer of Code 项目,最初由 David Cournapeau 开发;它是一个简洁、高效的算法库,提供一系列的监督学习和无监督学习的算法,以用于数据挖掘和数据分析。SciKit-learn 几乎覆盖了机器学习的所有主流算法,这为其在 Python 开源世界中奠定了江湖地位。 它的算法库建立在 SciPy (Scientific Python) 之上——你必须先安装 SciPy 才能使用 SciKit-learn ,它的框架中一共包括了:

  • NumPy: 基础的多维数组包
  • SciPy: 科学计算的基础库
  • Matplotlib: 全面的 2D/3D 测绘
  • IPython: 改进的交互控制器
  • Sympy: 符号数学
  • Pandas:数据结构和分析

它命名的由来:SciPy 的扩展和模块在传统上被命名为 SciKits,而提供学习算法的模组就被命名为 scikit-learn。 它与 Python 世界另一大算法框架——TensorFlow 的主要区别是:TensorFlow 更底层。而 SciKit-learn 提供了执行机器学习算法的模块化方案,很多算法模型直接就能用。 优点:

  • 经过筛选的、高质量的模型
  • 覆盖了大多数机器学习任务
  • 可扩展至较大的数据规模
  • 使用简单