python机器学习工具包MILK

milk 详细介绍
milk(machine learning toolkit) 是 python 语言的机器学习工具包。
它主要是在很多可得到的分类比如 svms、k-nn、随机森林以及决策树中使用监督分类法,它还可执行特征选择。这些分类器在许多方面相结合,可以形成不同的例如无监督学习、密切关系传播和由 milk 支持的 k-means 聚类等分类系统。
milk 关注速度和内存的使用,因此大多数对性能比较敏感的代码都是用 c++ 编写的。为了方便起见,基于 python 实现了接口。
示例代码
测试对一些 features,labels 数据的分类情况,通过交叉验证测量:
import numpy as npimport milkfeatures = np.random.rand(100,10) # 2d array of features: 100 examples of 10 features eachlabels = np.zeros(100)features[50:] += .5labels[50:] = 1confusion_matrix, names = milk.nfoldcrossvalidation(features, labels)print 'accuracy:', confusion_matrix.trace()/float(confusion_matrix.sum())如果想要使用分类器,可以创建一个 learner object 并调用它的 train() 方法:
import numpy as npimport milkfeatures = np.random.rand(100,10)labels = np.zeros(100)features[50:] += .5labels[50:] = 1learner = milk.defaultclassifier()model = learner.train(features, labels)# now you can use the model on new examples:example = np.random.rand(10)print model.apply(example)example2 = np.random.rand(10)example2 += .5print model.apply(example2)特性
支持向量机。使用封装了 pythonesque 的 libsvm solverlasso 算法k-means 使用的内存小,可有效地对数百万个实例进行集群随机森林自组织地图逐步判别分析特征选择非负矩阵分解(non-negative matrix factorization,nmf)算法ap(affinity propagation)聚类算法下载地址:https://gitee/mirrors/milk