首页 理论教育TriORT方法解析差异表达基因检测数据

TriORT方法解析差异表达基因检测数据

【摘要】:样本三均值trimeani:正常组样本三均值trimeanix:癌症组样本三均值trimeaniy:基于ORT方法改进的TriORT方法的统计量TriORT*i定义如下:基因i的癌症组样本集合过高表达时的定义为:其过低表达时的定义为:TriORT方法和ORT方法的不同之处在于,ORT方法中表示数据转换变化的中值和中值绝对离差分别被三均值和三均值绝对离差来代替,这样使得数据稳健,能全面地反映样本数据特征。

差异表达基因检测普遍采用的是计算T统计方法,T统计方法通过两组样本的均值来判断基因是否存在差异表达。COPA方法使用中值和中值绝对离差来表示数据转换的变化,OS方法在COPA方法基础上增加了分位数作为附加表达式来识别癌症组样本表达强度,与OS方法类似的ORT方法是使用癌症组样本来表示数据转换的变化,而OS方法则是将所有样本一起使用。

在基因表达谱正常组样本和癌症组样本二分类的基因芯片数据研究中,一般基因芯片数据都是以g×n的矩阵形式存在的,包含的基因个数用p表示,样本的个数用n表示,并且样本个数n包括正常组样本数n0和癌症组样本数n1,因此n=n0+n1。用xij表示正常组样本的基因表达强度值,yij表示癌症组样本的基因表达强度值,其中i和j分别为基因和样本的循环指标。Zi为指示函数,其值取0和1,分别表示正常组样本和癌症组样本。

均值、中值(中位数)、三均值从不同侧面反映了数据的位置特征,综合应用这三个数据,以探索数据的本质特征。均值简易,但不稳健,难抗异常值;中位数较稳健,抗异常值;三均值较准确、稳健。三均值有较强的稳健性,并能充分利用样本信息,因此三均值能较好地概括数据位置的数字特征[113]

对所有的基因芯片数据进行样本中基因表达的差异表达基因检测,可以利用分位数的知识。均值medx是x1,x2,…,xn的平均数,中位数medianx是描述数据中心位置的数字特征,三均值的计算公式是。因此,样本三均值、正常组样本三均值和癌症组样本三均值的定义如下。

样本三均值trimeani

正常组样本三均值trimeanix:(www.chuimin.cn)

癌症组样本三均值trimeaniy

基于ORT方法改进的TriORT方法的统计量TriORT*i定义如下:

基因i的癌症组样本集合过高表达时的定义为:

其过低表达时的定义为:

TriORT方法和ORT方法的不同之处在于,ORT方法中表示数据转换变化的中值和中值绝对离差分别被三均值和三均值绝对离差来代替,这样使得数据稳健,能全面地反映样本数据特征。