加入收藏 | 设为首页 | 会员中心 | 我要投稿 温州站长网 (https://www.0577zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 运营中心 > 网站设计 > 教程 > 正文

能够简化数据科学的6种工具

发布时间:2019-06-27 04:10:20 所属栏目:教程 来源:Peter Wayner
导读:副标题#e# 新的工具捆绑了数据清理,拖放式编程以及云计算,可以帮助任何熟悉电子表格的人充分利用数据科学的力量。 数据科学可能从来都不是那么容易的,但它正变得越来越容易深入。像机器学习、回归和降维这样的术语虽然依然和以往一样难以理解,但是人们

如果你的数据集较大,RapidMiner也可以满足你的需求。那些拥有并行解决方案的人可以使用RapidMiner的拥有Hadoop和Hive集成的版本“Radoop”。还有一个基于服务器的解决方案,可以从AWS,Azure或您自己的本地服务器配置云计算机。基于服务器的生态系统促进了与集中的数据和分析存储库的协作,这些数据和分析可以安排在生产中交付报告和见解。

每种产品的定价模型都是独立的。桌面版有一个免费的社区版,但它缺少两个最吸引人的特性:用于清理数据的TurboPrep和用于生成结果的AutoModel。一个初级版本的价格为每位用户每年2,500美元起,该版本的数据行数限制为100,000行。更大的数据集和部署更多处理器的能力则需要更高的成本。在办公场所安装自己版本的服务器工具起价为15,000美元,但你也可以在RapidMiner的云版本上购买使用时间,起价为每小时6.75美元。

Knime

Knime是一个开源的数据分析平台,具有一个可视化的IDE,可以将各种数据处理和分析例程链接在一起。其核心软件是免费发布的,但是一些插件和扩展也有相应的商业版本,并且费用主要用于支持开发。你还可以使用在云中或你自己的计算机上运行的服务器版本。

该软件的基础是用Java编写的,所以Knime的许多集成都依赖于Java生态系统。用户也许会注意到Knime IDE是构建在Eclipse之上的,这使得Java开发人员可能会更加熟悉它。该平台可以处理所有主要的数据库(MySQL,PostgreSQL)和云服务(Amazon Athena,Redshift)中的数据以及任何其他具有JDBC兼容连接器的数据。Knime提供了一个与“数据库内处理”特别紧密的集成,这可以加速你的工作。它还集成了下一代的分布式数据工具,如Apache Spark。

它拥有一个强大的开源社区以支持大量的扩展和工作流程,可以自由使用,修改和定制,其大多数代码托管在GitHub或Bitbucket上。此外,它还有大量的商业扩展,并提供集成支持。

那些严重依赖Google Web应用程序的公司也可能会喜欢更深层次的集成。Knime可以读取和写入Google表格中的数据,这也是一种将数据分析引入经常使用Google电子表格的办公室的潜在有效方式。

其企业服务器产品有三种规格,包括了不同的额外功能。初级版本支持5个用户和8个核心,每年8500美元起,主要针对分析团队。而高级版本则允许你将结果分发给组织内的其他人。

Talend

Talend提供了一系列可以在桌面、本地数据中心或云中运行的应用程序。该公司的多层工具可以在转换数据并进行分析之前使用,它会从各个仓库和数据库中收集数据。例如,管道设计器提供了一个可视化设计工具,用于从各种数据源提取数据,然后可以使用标准工具或Python扩展对其进行分析。

其开源版本可以在几个包中免费获得,比如open Studio for Data Quality和Stitch数据加载器。云计算版本的起售价为每位用户每月1,170美元,年度用户和规模更大的团队也可享受折扣。价格是按人数计算的,而不是基于消耗的计算资源。而Data Fabric的定价则是通过报价来完成的。

Looker

Looker瞄准的是那些常因太多数据源和太多数据版本而引起混乱的用户。它的产品创建了一个可靠精确的、受版本控制的数据来源,可以由下游的任何用户操纵和绘制图表。从业务用户到后端开发人员,每个人都可以创建自己的仪表板,其中可以包含根据个人喜好配置的数据和图表。

该平台是围绕着开源世界的许多标准而构建的。数据和代码可以在Git的控制下发展。仪表板可视化则来自D3。你可以使用LookML来从SQL数据库中收集数据,LookML是一种类似于常规命令式编程语言的自定义查询语言。

谷歌最近宣布将收购Looker并将其集成到谷歌云中。这次收购将如何影响该平台还有待观察。其价格可按要求进行提供。

其他能够使数据更容易访问的工具

上述工具并不是改变我们处理数据方式的唯一选择。一些其他的工具和平台也在集成类似的想法。主要的云计算公司也都提供了分析存储系统中数据的工具。例如,Azure的Databricks提供了用于配置Apache Spark的灵活用户界面,而Data Factory则提供了一个用于提取,转换和加载所有数据的可视化工具。

一些工具会更侧重于机器学习和其他形式的人工智能。亚马逊的SageMaker简化了构建、培训和部署机器学习流程的工作,在一个开放的市场上提供了100多种算法和模型。H20.ai则提供了他们所谓的“无人驾驶AI”,这是一个使用Apache Spark构建的开源平台,可以用来简化模型创建和分析。

以上这些都集中在了一组工具集上,这些工具可以提升我们探索数据的能力,让我们更清楚地理解所有数字的含义。

(编辑:温州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读