選用了目前主流的分類器(比如 SVM,KNN)以及篩選特征值的方法(貪婪算法)篩選并建立穩(wěn)定的模型,幫助客戶篩選到靈敏度與特異性高的 maker。
分子建模預(yù)測(cè)
采用模式識(shí)別與數(shù)據(jù)挖掘技術(shù)有效進(jìn)行模型的構(gòu)建,將部分?jǐn)?shù)據(jù)拿來(lái)做訓(xùn)練集預(yù)測(cè)模型,然后部分?jǐn)?shù)據(jù)作為測(cè)試數(shù)據(jù)集(獨(dú)立樣本)來(lái)驗(yàn)證模型的準(zhǔn)確性。目的在于利用實(shí)驗(yàn)數(shù)據(jù)來(lái)篩選出一批靶標(biāo)基因,并以此構(gòu)建模型。小樣本數(shù)據(jù)的建模在于篩選并評(píng)判 maker 的穩(wěn)定性,便于后期實(shí)驗(yàn)驗(yàn)證;大樣本數(shù)據(jù)的建模用于進(jìn)行早期診斷、疾病預(yù)測(cè)。采用方法分為:線性分類器以及非線性分類器,并利用了 Leave-one-out cross-validation(LOOCV)以及 cross-validated misclassification error rate 的篩選策略找到優(yōu)選 MARKER。
1、小樣本建模:樣本數(shù)在 20 以上;
2、大樣本建模:樣本數(shù)在 100 以上;
3、數(shù)據(jù)類型:表達(dá),甲基化,CNV,SNP 均可。
1、圖片格式:ROC 曲線圖,TIFF 格式;
2、文本文件:樣本的分類情況,靈敏度與特異性,maker 的權(quán)重(線性分類器結(jié)果)。
-END-