GSEA數據要求1、通常為表達譜芯片或測序數據(已經過預處理),也可以是其他形式可排序的基因數據。2、具有已知生物學意義(GO、Pathway、**特征基因集等)的基因集。下游分析:得到GSEA結果之后的分析有:1.基因注釋:1、繪制基因集富集趨勢圖(Enrichmentplot)橫坐標:按差異表達差異排序的基因序列。數值越小(偏向左端)的基因**在shICAM-1組中有越高倍數的差異表達,數值越小(偏向右端)的基因在對照組中有越高倍數的差異表達。縱坐標:上方的縱坐標為富集打分ES,ES是一個動態的值,沿著基因序列,找到條目中的基因則增加評分,否則減少評分。通常用偏離0**遠的值作為**終富集打分。下方的縱坐標**基因表達與表型的關聯,***值越大**關聯越強,數值大于0**正相關,小于0則**負相關。 云生物提供數據科學服務。上海生物/藥物信息學分析數據科學售后服務
sankey
桑基圖(sankey)是一種數據流圖,每條邊**一條數據流,寬度**數據流的大小。一套數據集可能有多重屬性,每層屬性之間有交叉,就可以用這種圖來展示。一般應用場景:分組與基因為多對多關系,展示高頻突變基因所處的分組;miRNA和靶基因的關系;人群按性別、年齡、家族史等特征分組,展示不同分組得**的規律。
數據要求:
多個分組及其關系,包括且不限于基因表達、突變。
下游分析:
1. 補充展示部分的已有相關研究
2. 解釋展示部分對研究課題的意義 四川算法還原與開發數據科學歡迎咨詢基因組數據全鏈條處理。
蛋白質主要由碳、氫、氧、氮等化學元素組成,是一類重要的生物大分子。蛋白質的功能由蛋白質的三維結構決定。蛋白質三維結構繪圖,可以直觀地展示蛋白質三維功能結構,廣泛應用于單核苷酸突變功能分析、藥物蛋白分子相互作用分析等研究領域。基本原理蛋白質三維結構繪圖主要分為蛋白質三維結構預測以及對結構進行可視化兩步。蛋白質三維結構預測是基于蛋白質中氨基酸序列預測蛋白質折疊結構的步驟,**常用的預測方法為同源建模,同源建模的原理是序列相似的蛋白質具有相似的蛋白質結構,要推測一個未知結構蛋白的三維結構,只需要找到與之序列高度相似的已知結構模板。在無法進行同源建模(找不到模型)的情況下,還有折疊識別及從頭建模法,但是計算量大運行緩慢且建模準確度不如同源建模。獲得蛋白質三維結構預測的pbd文件后還需要通過分子三維結構軟件繪制可視化的三維圖,并分析特殊位點(分子對接或突變位點分析),常用的有pymol和DeepView等。數據要求目標蛋白的氨基酸序列或者編碼蛋白的基因序列,突變數據等。下游分析突變位點靶向藥物分析等。
術語解釋:Cox回歸:又稱比例風險回歸模型(proportionalhazardsmodel,簡稱Cox模型),是由英國統計學家。該模型以生存結局和生存時間為應變量,可同時分析多種因素對于生存期長短的影響。Cox模型能分析帶有截尾生存時間的資料,且不要求估計資料的生存分布類型,因此在醫學界被***使用。Logistic回歸:又稱邏輯回歸模型,屬于廣義線性模型。邏輯回歸是一種用于解決二分類問題的分析方法,用于估計某種事物的可能性。相較于傳統線性模型,邏輯回歸模型以概率形式輸出結果,可控性高且結果可解釋性強。數據要求:樣本臨床信息或生物學特征(基因突變、基因表達等)樣本的隨訪數據(總生存期,生存狀態)或樣本的分組情況下游分析:1.補充相關因素的已有相關研究2.解釋相關因素對研究課題的意義。 微生物多樣性分析桌面軟件。
棒棒糖圖是直觀顯示蛋白質結構上的突變點**簡單且有效的方式。許多致*基因具有比任何其他基因座更頻繁突變的優先位點。這些位點被認為是突變熱點,棒棒糖圖可以用于顯示突變熱點以及其他突變位點。并可以對比不同**/亞型的突變位點。
基本原理
將蛋白質結構根據氨基酸順序繪制為長條形,以不同色塊標注不同結構域,在基因突變導致氨基酸改變的位置標注棒棒糖,并在棒棒糖圓球標注位點的突變頻數以及突變位點。
數據要求
基因突變或者蛋白質突變數據
下游分析
1、突變位點靶向藥物分析
2、驅動基因突變分析 公共數據庫挖掘、診療軟件開發、算法還原與開發、臨床統計等。上海生物/藥物信息學分析數據科學售后服務
實驗室致病類病原微生物數據分析平臺。上海生物/藥物信息學分析數據科學售后服務
survivalCurve生存分析生存分析(survivalCurve)旨在更好地分析對不同因素對患者預后的影響,從而找到影響患者疾病的關鍵因素。生存曲線(Kaplan-Meier曲線)是生存分析的基本步驟,展示分類樣本的生存曲線,從而揭示不同因素對疾病預后的影響。一般可應用的研究方向有:患者的生存期跟基因變異的關系、藥物處理導致模式動物生存期變化。基本原理Kaplan-Meier法,直接用概率乘法定理估計生存率,故稱乘積極限法(product-limitmethod),是一種非參數法。相比其他方法,KM曲線能更好的處理刪失數據。先將樣本生存時間從小到大排列。若遇到非刪失值和刪失值相同時,非截刪失****。在生存時間后列出與時間相應的死亡人數,期初病例數(即生存期為某時間時尚存活的病例數)。然后計算活過每個時間點的生存率。以生存時間為橫坐標,生存率為縱坐標所作的曲線,即為Kaplan-Meier曲線。術語解釋風險比(HazardRatio,HR):Kaplan-Meier方法中計算的風險比HR為兩分組對生存期影響的比例,用來描述該基因高表達對生存期的危險程度。該方法中的假設檢驗為兩組中樣本的生存期是否存在差異,即該因素是否會導致生存期的改變。刪失(censored):在生存分析中。 上海生物/藥物信息學分析數據科學售后服務