Weka(Waikato Environment for Knowledge Analysis)是一款免费的,基于JAVA环境下开源的机器学习(machine learning)以及数据挖掘(data minining)软件。

Weka作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。

因此,Weka在基因表达分析,聚类,疾病分型等生物信息方面有着强大的应用前景。

1. Weka的下载和安装

Weka的下载安装较为简单,这里就不多加描述。读者们可以链接以下网址,下载可以在各个操作平台(Linux,Windows,Mac OS X)上使用的Weka。

http://www.cs.waikato.ac.nz/ml/weka/downloading.html

2. 输入文件的准备

Weka多使用ARFF格式的文件,当然CSV也是可以的。这里主要介绍下ARFF格式(如图所示)。

ARFF文件主要有三个部分:relation,attribute和data。

2.1 relation

在这里你只要起任何你自己可以辨别的名字就可以了。

2.2 attribute

attribute每一行是一个特征名,例如age,menopause等。特征名后面跟着枚举的预设数据值。

2.3 data

数据部分所包含的数据类型有枚举型(nominal)、数值型(integer real)、文本型(string)、日期型(date)。每一行是一个例子。

 

1. 数据的分析

3.1打卡已安装好的Weka,点击“Application”里的“Explorer”。

3.2点击“Open file”,选择你事先准备好的ARFF文件。Weka就会出现以下例子。

如图,这里总共有286个例子,10个特征。

因为左侧的是“age”这一attribute,右侧就会根据这一attribute分成复发型的和非复发型的,并根据年龄分为9个阶段进行统计。如果想知道其他attribute的复发型和非复发型的分布,只需在左边选择相应的attribute,即可做到。

QQ截图20160831114054

3.3如果要分类,聚类,关联分析,可视化等,只需点击上方相应的“Classify”,“Cluster”等。然后,点击“choose”选择相应的算法即可。如图选择的是“NaiveByes”算法得到的结果。

由于篇幅有限,weka的很多用途没能得到全面介绍,请读者们见谅。且机器学习软件的使用,更重要的是对算法的选择以及随后的验证环节。读者们如有兴趣,可查阅以下网址。

1.Weka在生物信息数据挖掘中的应用,可参阅以下网址。

http://www.cs.waikato.ac.nz/~eibe/pubs/frank-etal-bioinformatics.pdf

 


文章转载自:http://mp.weixin.qq.com/s?__biz=MzAwNjE0MDY3MQ==&mid=2650694191&idx=1&sn=f964b6e479b4f993ce6ba6713a02db90&scene=1&srcid=0808G2nDVIqAz6p3YEifaTfD#wechat_redirect