【it168 技术】本文推荐一些免费的预测分析软件,它们主要用于分析统计使用,机器学习和数据挖掘来寻找关于客户行为,市场趋势和原始数据集中其他领域的线索的相关性和模式。其中一些预测建模解决方案可通过许可,免费获得开源或社区版本;其中一些预测分析软件是商业版本的免费版或社区版,但提供的功能较少。
什么是预测分析软件?
预测分析是高级分析的一个分支,用于对未来未知事件进行预测。预测分析使用数据挖掘,统计,建模,机器学习和人工智能等多种技术来分析当前数据,以预测未来!那么下面将为大家简单介绍一下以下的20多款工具!
1.r software environment
r是用于统计计算和图形的免费软件,可运行在各种unix,windows和mac os平台上。r提供了广泛的统计功能,如线性,非线性建模,经典统计测试,时间序列分析,分类,聚类和图形技术。它也是高度可扩展的,提供数据操作,计算和图形显示,数据处理,数组计算,数据分析工具,包括条件,循环和许多其他功能的编程语言。语言主要用于统计方法论的研究,r为它们提供了一个开源的途径,可以在r中产生精心设计的质量图,包括数学符号和公式。
2.dataiku
dataiku data studio(dss)是一个软件平台,汇总了从原始数据到生产应用程序所需的所有步骤和大数据工具。dss分析数据通过简单的界面操作,即可找到数据中的相关性和重要变量,并测试最佳拟合模型。dss还可以将模型和预测值发布到各种其他目的地,例如elasticsearch,ftp服务器和内部数据仓库。
▲
3.orange data mining
orange data mining是一个开源的数据可视化和分析工具。数据挖掘是通过可视化编程或通过python脚本完成的。orange会记住这些选择,提供最常用的组合,并智能地选择要使用的小部件之间的通信通道。可以利用情节,条形图,树状图,网络和热图来进行可视化。有机器学习的组件,可用于生物信息学和文本挖掘。该解决方案包含了用于数据分析的功能,并且在orange中有超过100个小部件。
▲
4.rapidminer
rapidminer可作为数据分析的独立应用程序使用,也可作为集成到专有产品中的数据挖掘引擎。rapidminer提供数据挖掘和机器学习程序,包括数据加载和转换,数据预处理,可视化,建模,评估和部署。rapidminer是用java编程语言编写的。它采用的学习计划和归属来自于weka的机器学习环境,统计建模方案来自r project。可用于文本挖掘,多媒体挖掘,功能设计,数据流挖掘的集成方法的发展,以及分布式数据挖掘。
rapidminer v6.0仍然是开源的。rapidminer的最新版本现在仅作为试用版或商业许可证提供。
▲
5.anaconda
anaconda是一个由python支持的开放式数据科学平台。 anaconda的开源版本是python和r的高性能版本,包括超过100种用于数据科学的最受欢迎的python,r和scala软件包。还可以访问超过720个软件包,可以使用包含在anaconda中的conda,包,从属关系等。
▲
6.knime
knime桌面版是开源的,是用户友好的数据访问,数据转换,初步调查,预测分析,可视化和报告的图形工作台。开放的集成平台提供了1000多个模块或节点。knime还提供了基于数据信息开发报告的能力,并将新见解的应用自动化回到生产系统。knime产品有knime desktop,knime professional,knime team space,knime server和knime cluster execution。 knime desktop可以自由下载到桌面。基于eclipse平台的,并且有双重许可证。非开源产品中的功能包括共享存储库,身份验证,远程执行,调度,soa集成和web用户界面。
▲
7.dmway
dmway使得预测分析更易于获取并且价格合理。dmway解决方案允许用户在几个小时或几天而不是几个月的时间内建立更好的预测模型,这可以适应任何行业。dmway分析引擎可以提供最高级别的建模。分析引擎设计用于模拟经验丰富的数据科学家采取的步骤,以建立准确有效的分析模型。dmway评分引擎是建议企业寻求协助部署由分析引擎提供的预测分析结果的工具。
这个创新的解决方案是通过使用专家系统方法而不是“机器人”方法来实现的,模仿有经验的数据科学家关于构建大规模预测模型的方式。dmway评分引擎是为企业寻求协助部署由分析引擎提供的预测分析结果而推荐的工具。
▲
8.hp haven predictive analytics
hp distributed r是r语言的开源,可扩展和高性能平台,可加速大规模机器学习,统计分析和图形处理。haven predictive analytics为hp vertica提供数据加速和原生sql支持。与市场领先的列式mpp数据库的本地集成将总体数据访问性能提高了5倍,并提供了一整套经过验证的开箱即用的并行算法,以成熟的标准r算法生成准确一致的结果。是预测分析免费,完全兼容开源r语言和工具,并得到惠普企业的支持,并按每个节点定价。hp haven predictive analytics由hp vertica和distributed r提供支持。distributed r是基于与hp labs开发的开放源代码r语言的高性能分析引擎,可满足要求最苛刻的大数据预测分析任务。分布式r提高了性能,并允许用户分析比以前流行的r统计编程语言更大的数据集。
9.graphlab create
graphlab create是一个为开发人员和数据科学家构建的机器学习平台,具有函数式编程技巧和对数据科学的一些基本理解。能够轻松地实现从想法到生产的原型和规模。示例服务包括推荐系统,欺诈检测或客户流失预测器。开发人员和数据科学家能够快速部署并轻松与其他应用程序集成。discover版本提供免费的开发者许可证,并提供社区论坛支持。
▲
10.lavastorm分析引擎
lavastorm分析引擎公开版是一个易于使用,成本效益的工具,用于临时发现和业务分析。公开版对于希望将分析处理能力放在桌面上的用户非常理想,而且不需要大型数据处理能力,提供自动持续分析和协作功能。lavastorm是一种可视化的数据发现解决方案,可以让你快速整合不同的数据,轻松发现洞察,并持续检测异常,异常值或模式。它为企业用户提供自助服务能力,为it用户提供集成,分析和业务控制领域的快速开发能力。其功能包括从任何来源(包括大数据源)获取,转换,合并和丰富数据,而不需要大量建模,预先规划或用脚本。可检测数据问题,如完整性,格式不一致,准确性,自动化评估和清理流程。
▲
11.actian vector express
actian analytics platform(express hadoop sql edition)是hadoop内部运行100%的免费社区版的端到端分析平台。actian分析平台将hadoop转变为一个高性能的分析平台,使企业能够通过分析来自多个来源的数据而无需采样,从而提高预测和决策的准确性。actian express,hadoop sql edition使用现有的hadoop集群提供高速和性价比。actian vector express是actian分析平台的免费社区版本,旨在提供快速简单的方法来提高分析的性能。它建立在基于矢量的分析数据库基础之上,actian express提供很好的性能和性价比,并且需要更少的硬件,几乎不需要调整。actian vector express包括以下功能:分析工作台 - 快速构建可视工作流程准备,转换和分析数据,分析数据库 - 在几秒钟内运行复杂的查询反对数十亿条记录和管理控制台。
▲
12.scikit-learn
scikit-learn是简单高效的数据挖掘和数据分析工具。它是python中的机器学习库,建立在numpy,scipy和matplotlib之上,它也是开源的。其特点包括分类,回归,聚类,降维,模型选择和预处理。
▲
13.微软r
r是强大的,用于统计计算,机器学习和图形的首选编程语言,并得到用户,开发者的繁荣的社区支持。r家族包括,服务器,客户端,sql server等服务。支持各种大数据统计,预测建模和机器学习功能,r server支持基于开源r的全方位的分析探索,分析,可视化和建模。microsoft r客户端是免费的社区支持。
14.h2o.ai
h2o是一个开源的预测分析平台。h2o用户可以轻松地从微软excel和rstudio中探索和建模大数据,并将其与来自hdfs,s3,sql和nosql数据源的数据连接起来。h2o讲述了数据科学的语言,支持r,python,scala,java和强大的rest api。业务应用程序由h2o的nanofasttm评分引擎提供支持。包括:分布式算法和回归树,如gbm,随机森林(rf),广义线性模型(glm),k-均值和主成分分析(pca)。
15.weka data mining
weka是用于数据挖掘任务的机器学习算法的集合。算法可以直接应用于数据集,也可以从java代码调用。weka包含用于数据处理,分类,回归,聚类,关联规则和可视化的工具。它也非常适合开发新的机器学习方案。 weka是用java编写的,由新西兰怀卡托大学开发。
▲
16.apache spark
apache spark是用于大规模数据处理的快速且通用的引擎。spark需要一个集群管理器和一个分布式存储系统。对于集群管理,spark支持独立(本地spark集群),hadoop yarn或apache mesos。对于分布式存储,spark能与各种各样的,包括hadoop分布式文件系统(hdfs),mapra文件系统(fs-mapra),cassandra,openstack swift,亚马逊s3,kudu,或自定义解决方案实现对接。
17.octave
octave是数字计算的高级解释语言。它提供了数据可视化和操纵的线性,非线性问题和图形的解决方案。有许多可用于公共数值线性代数解决问题的工具,寻找非线性方程的根,集成普通功能,操纵多项式,及整合的普通微分和代数微分方程。
▲
18.tanagra
tanagra是一个用于学术和研究目的的免费数据挖掘软件,它具有探索性数据分析,统计学习,机器学习和数据库等多种数据挖掘方法的功能。支持标准的数据挖掘任务,如:可视化,描述性统计,实例选择,特征选择,功能建设,回归,影响因子分析,聚类,分类和关联规则的学习。
19.predictionio
predictionio是一款开源的机器学习服务器,可以让软件开发人员创建个性化,推荐和内容发现等预测功能。通过predictionio,预测这种特点的用户行为,提供个性化的视频,新闻,交易,广告,职位,事件,文件,应用程序,餐馆和匹配服务。
20.apache mahout
apache mahout提供可扩展的机器学习算法,主要集中在协作过滤,聚类和分类。许多实现使用apache hadoop平台,包括成熟的hadoop mapreduce算法,scala,spark和h2o算法。协同过滤:基于用户的协同过滤,基于项目的协同过滤,矩阵分解与als,矩阵分解与隐式反馈和加权矩阵分解,svd + als。