GSEA基本原理從方法上來講,GSEA主要分為基因集進行排序、計算富集分數(EnrichmentScore,ES)、估計富集分數的***性水平并進行多重假設檢驗三個步驟。**步對輸入的所有基因集L進行排序,通常來說初始輸入的基因數據為表達矩陣,排序的過程相當于特定兩組中(case-control、upper-lower等等)基因差異表達分析的過程。根據所有基因在兩組樣本的差異度量不同(共有六種差異度量,默認是signal2noise,GSEA官網有提供公式,也可以選擇較為普遍的foldchange),對基因進行排序,并且Z-score標準化。第二步是GSEA的**步驟,通過分析預先定義基因集S在**步獲得的基因序列上的分布計算富集指數EnrichmentScore,并繪制分布趨勢圖Enrichmentplot。每個基因在基因集S的EnrichmentScore取決于這個基因是否屬于基因集S及其差異度量(如foldchange)。差異度量越大基因的EnrichmentScore權重越大,如果基因在基因集S中則EnrichmentScore取正,反則取負。將基因集L在基因集S里的所有基因的EnrichmentScore一個個加起來,就是Enrichmentplot上的EnrichmentScore趨勢,直到EnrichmentScore達到**值,就是基因集S**終的EnrichmentScore。第三步是為了檢驗第二部獲得結果的統計學意義。 提供語言潤色、圖表調整、格式修改等工作模塊。成果發表指導數據科學共同合作
mutationEvents**已存在的基因突變會影響其他基因的突變,突變分析時確定這些基因突變潛在的相互作用,能更好地了解健康細胞轉化為*細胞的過程和機制。DISCOVER,一種針對基因突變的統計檢驗工具,幫助尋找***的基因突變間互斥性和共現性。一般可應用的研究場景:探索一組基因是否在**中存在互斥性和共現性;基于基因突變的互斥性和共現性,研究**發***展的潛在機制?;驹恚篋ISCOVER(DiscreteIndependenceStatisticControllingforObservationswithVaryingEventRates)是一種用于檢測**基因組數據的共現性和互斥性的新統計檢驗方法。與Fisher'sexacttest等用于這些任務的傳統方法不同的是,DISCOVER基于一個空模型,該模型考慮了總體**特異性的變化率,從而決定變化率的同時發生的頻率是否高于或低于預期。該方法避免了共現檢測中的虛假關聯,提高了檢測互斥性的統計能力。DISCOVER的性能與其他幾個已發布的互斥性測試相比,在整個***性水平范圍內,DISCOVER在控制假陽性率的同時更敏感。 數據庫建設數據科學歡迎咨詢WGCNA其譯為加權基因共表達網絡分析。
GSEA全名為GeneSetEnrichmentAnalysis(基因集富集分析)。用以分析特定基因集(如關注的GO條目或KEGGPathway)在兩個生物學狀態(如**與對照,高齡與低齡)中是否存在差異。能夠研究基因變化的生物學意義。SubtypeGSEA是在GSEA的基礎上對不同亞型樣本中重要通路的富集情況進行組間比較,能直觀比較不同亞型中相同通路富集情況?;驹鞧SEA主要分為基因集進行排序、計算富集分數(EnrichmentScore,ES)、估計富集分數的***性水平并進行多重假設檢驗三個步驟。**步對輸入的所有基因集L進行排序,通常來說初始輸入的基因數據為表達矩陣,排序的過程相當于特定兩組中(case-control、upper-lower等等)基因差異表達分析的過程。根據所有基因在兩組樣本的差異度量不同(共有六種差異度量,默認是signal2noise,GSEA官網有提供公式,也可以選擇較為普遍的foldchange),對基因進行排序,并且Z-score標準化。第二步是GSEA的**步驟,通過分析預先定義基因集S在**步獲得的基因序列上的分布計算富集指數EnrichmentScore,并繪制分布趨勢圖Enrichmentplot。每個基因在基因集S的EnrichmentScore取決于這個基因是否屬于基因集S及其差異度量(如foldchange)。
STEM基因表達趨勢分析數據要求表達譜芯片或測序數據(已經過預處理)下游分析得到***富集的時間表達模式之后的分析有:1.時間表達模式中基因的功能富集2.時間表達模式中基因表達與性狀之間的相關性挖掘模塊的關鍵信息:1.找到時間表達模式中的**基因2.利用關系預測該時間表達模式功能文獻1:DynamicEBF1occupancydirectssequentialepigeneticandtranscriptionaleventsinB-cellprogramming(于2018年1月發表在GenesDev.,影響因子)EBF1動態占據在B細胞中對序列表觀遺傳和轉錄過程的影響該文獻采用基因表達趨勢分析,探尋了EBF1誘導前后25kb轉錄起始位點內基因轉錄水平的差異,來尋找EBF1對特定功能基因的影響以及造成影響的時間節點。文獻2:ComprehensivetranscriptionalprofilingofNaCl-stressedArabidopsisrootsrevealsnovelclassesofresponsivegenes(于2016年10月發表在BMCPlantBiol.,影響因子)該文獻采用基因表達趨勢分析,研究了高濃度鹽水作用不同時間下擬南芥根的基因表達差異,來探尋在遇到高濃度鹽水時擬南芥在基因層面上的應對方式。 參考國內外數據資源,根據需求制定構建方案。
不同分組的全基因組拷貝數變化的比較:**初目的:不同分組的拷貝數變異在染色體水平和染色體臂水平的展示和比較。應用:不同分組的全基因組拷貝數變化的比較,展示genome-wideDNAcopy-numberprofiles。不同染色體臂的變異與臨床表型息息相關。輸入數據格式:一個表征每個樣本的染色體變異(gain,balance,loss)的數值矩陣和樣本分組信息?;蛘呖截悢档脑冀Y果,可處理成所需矩陣。參考文獻:(2)::本文計算出病人的拷貝數變異情況后,按照之前病人的分組比較了不同分組的染色體變異的異同,找到特定的染色體變異模式。確定了各組的特征,如lmonosomy2inPFB2,monosomy8inPFB3,monosomy3inPFB1,andgainof1qinPFB1.。 circos圖通過圓圈和連線展示多個亞組之間的關系,包括且不限于基因、基因片段、亞型。成果發表指導數據科學共同合作
利用甲基化數據分析樣本的拷貝數變異。成果發表指導數據科學共同合作
bubbles(不同分組的基因表達或通路富集展示):Bubbles可以同時展示pvalue和表達量。例如展示motif的pvalue和motif對應的轉錄因子的表達量,方便快速看出轉錄因子富集且高表達所在的group,預示著該分組對細胞狀態的改變(例如細胞分化、轉移、應激)起關鍵調控作用;例如做基因功能富集分析時,展示富集的通路qvalue和基因數量或geneRatio。
基本原理:
Bubbles的實質是分組數據下基因表達量或通路內基因數量的可視化,同時可以展示pvalue。
數據要求:
表達矩陣,分組 成果發表指導數據科學共同合作