天空软件网-免费软件下载,绿色软件下载,手机软件下载,电脑软件下载,天空软件下载中心
TAG标签| 网站地图| 设为首页| 加入收藏
当前位置:天空软件网 > 软件下载 > 编程开发 > 数据库 >

Weka(Waikato Environment for Knowledge Analysis)

类型:数据库

语言:中文

更新:2024-12-21 14:00

大小:22.8M

版本:3.6.11 官方最新版

平台:WinAll, Win7

标签:数据挖掘

  • 软件介绍
  • 软件截图
  • 相关下载

#65279;#65279;Weka是来之新西兰怀卡托大学的一款开源软件,主如果数据挖掘方面的一些算法的集合。这款软件大概是目前数据挖掘范围最好的开源软件了.

由Java开发的Weka 是一个知名机器学机软件,其支持几种经典的数据挖掘任务,显著的数据预处置,集群,分类,回归,虚拟化,与功能选择。其技术基于假设数据是以一种单个文件或关联的,在那里,每一个数据点都被很多属性标注。 Weka 用Java的数据库链接能力可以访问SQL数据库,并可以处置一个数据库的查看结果。它主要的用户接品是Explorer,也同样支持相同功能的命令行,或是一种基于组件的常识流接口。

Weka实在是一个伟大的工具。基于java,却没运行其它java程序那种慢吞吞的感觉。前天我还在说Data Mining is excruciating but interesting,有了Weka,Data Mining也可以轻轻松松了!

数据挖掘的过程:

1.读入练习、测试样本

2.初始化分类器

3.用练习样本练习分类器

4.用测试样本测试分类器的学习成效

5.打印分类结果

WEKA启动:

数据挖掘绝不是大企业的专有,更不是多昂贵的软件。事实上,有一种软件可以达成那些价格不菲的软件所能达成的全部功能 — 这个软件就是 WEKA(参见参考资料)。WEKA 诞生于 University of Waikato(新西兰)并在 1997 年初次以其现代的格式达成。它用了 GNU General Public License 。这款软件以 Java#8482; 语言撰写并包括了一个 GUI 来与数据文件交互并生成可视结果(譬如表和曲线)。它还有一个通用 API,所以你可以像嵌入其他的库一样将 WEKA 嵌入到你我们的应用程序以完成诸如服务器端自动数据挖掘如此的任务。

大家继续并安装 WEKA。由于它基于 Java,所以假如你在计算机上没安装 JRE,那样请下载一个包括 JRE 的 WEKA 版本。

图 1. WEKA 的开始屏

在启动 WEKA 时,会弹出 GUI 选择器,让你选择用 WEKA 和数据的四种方法。对于本文章系列中的例子,大家只选择了Explorer选项。对于大家要在这类系列文章中所需达成的功能,这已经足够。

图 2. WEKA Explorer

在熟知了怎么样安装和启动 WEKA 后,让大家来看看大家的第一个数据挖掘技术:回归。

Weka如何使用?

Weka是基于java,用于数据挖掘和常识剖析一个平台。来自世界各地的java喜好者们都可以把我们的算法放在这个平台上,然后从大量数据中挖掘其背后隐藏的种种关系;或许你只不过出于对数据的狂热喜好,但或许你的发现会蕴含着无限的商业机会。

打开Weka,第一出现一个命令行窗口。原以为要在这个命令行下写java语句呢,不过稍等一秒,Weka GUI Chooser的出现了。这是一个非常简单的窗体,提供四个按钮:Simple CLI、Explorer、Experimenter、KnowledgeFlow。Simple CLI应该是一个用命令行的界面,有点像SAS的编辑器;Explorer是则是视窗模式下的数据挖掘工具;Experimenter和 KnowledgeFlow的用法有待进一步探索....

先打开Weka Exlporer感受一下它的强大吧。它有六个标签页,分别是Preprocess、Classify、Cluster、Associate、 Select attributes、Visualize。在Preprocess中Open一个数据文件。当然也可以Open URL或Open DB,不过我没check一下支持什么DB。
打开数据文件后,可以用Filter进行一下过滤,等于“预处置的预处置”。Filter提供了很多算法来过滤数据,譬如 filters/unsupervised/instance/normalize应该是一个标准化的算法。当然,也可以撰写你一个人的算法!
这个时候窗体上已经给出这个数据集的一些基本特点了,譬如有多少属性,各属性的一些简单统计量,右下方还给出一些可视化成效譬如柱状图。通过这类可以初步知道这个数据集了。但这类都是非常直观的可以看出来,好戏在后头,隐藏的关系马上亮相。

下面的两个标签页是classify和cluster,接触数据挖掘的人对它们肯定不会陌生。同样Weka有很多分类和聚类算法可供选择,在这里面称为clasifier和clusterer。不过Weka提供的classify功能好像还不够灵活,只能定长度和定频率地分类。但这个关系不大,目前不少数据处置软件都可以做到这个,譬如excel。Cluster功能强大,提供了很多巧妙的聚类算法,选定一个算法,给出你所需要生成的聚类数目,就能自动完成。当然假如能不给出聚类数目也能自动聚类的话就更佳了,不过我还没有发现如何做。

Next,终于到伟大的Associate了! 这是一个用于挖掘Associate Rules的模块。对商学略有涉猎的人肯定熟悉沃尔玛发现了啤酒和尿布销售的关系这一佳话。有了Weka Associate,任何一家超市都可以做到这一点了。将前面导入的数据用Associator进行挖掘,就能发现其中无数隐藏的关系。Weka-3 -4提供了Apriori、PredictiveApriori、Tertius三种关联规则挖掘算法,不过我感觉这已经够用了。选定一个算法,进行一些必要的设置,包含支持度上界、下界,每次运算的支持度递减值,等等。另外一个要紧的参数:所需要生成的关联规则个数。太不可思议了,以前大家能从大量数据中发现一个关联规则就已经沾沾自喜,目前Weka居然问你想生成多少关联规则!
参数设置完成,点Start,就能去喝茶了。不一会,10条关联规则已经生成,可以提交给老板了。当然,你还可以剖析一下什么规则比较有用,哪一条有潜在收益,这就需要business sense了。

另外两个标签页还没有如何看。Select attributes大概是针对单属性的剖析?Visualize则提供了很多可视化成效,需要拿出去演示时很便捷。不过今天用感觉这个模块的功能有点问题,没太搞懂。也大概是我用错了。

将数据载入 WEKA

数据创建完成后,就能开始创建大家的回归模型了。启动 WEKA,然后选择Explorer。将会出现 Explorer 屏幕,其中Preprocess选项卡被选中。选择Open File按钮并选择在上一节中创建的 ARFF 文件。在选择了文件后,WEKA Explorer 应该像图 3 中所示的这个屏幕网站快照。

图 3. 房子数据加载后的 WEKA

在这个视图中,WEKA 允许你查阅正在处置的数据。在 Explorer 窗口的左侧,给出了你数据的所有列(Attributes)与所提供的数据行的数目(Instances)。若选择一列,Explorer 窗口的右边就会显示数据集内该列数据的信息。譬如,通过选择左边的houseSize列(它应该默认选中),屏幕右边就会变成显示有关该列的统计信息。它显示了数据集内此列的最大值为 4,032 平方英尺,最小值为 2,200 平方英尺。平均大小为 3,131 平方英尺,标准偏差为 655 平方英尺(标准偏差是一个描述差异的统计量度)。除此之外,还有一种可视的方法来查询数据,单击Visualize All按钮即可。因为在这个数据集内的行数有限,因此可视化的功能看上去没有更多数据点(譬如,有数百个)时那样功能强大。

好了,对数据的介绍已经够多了。让大家立即创建一个模型来获得我房屋的价格。

TAG标签:数据挖掘(1)

转载请说明来源于天空软件网(https://www.lmqxw.com)

本文地址:https://www.lmqxw.com/soft/722.html

郑重声明:文章来源于网络作为参考,本站仅用于分享不存储任何下载资源,如果网站中图片和文字侵犯了您的版权,请联系我们处理!邮箱3450399331@qq.com