没有样本,没钱测序,如何拿别人的数据来发自己的文章呢?
公共数据库挖掘呀!
众所周知,TCGA和GEO是最著名的两大公共数据库,前者主要存储高通量(二代测序)数据的肿瘤样本数据,后者GEO数据库全称GeneExpressionOmnibusdatabase,是由美国NCBI创建并维护的基因表达数据库。它创建于年,论文中涉及到的基因表达检测的数据几乎都提交到了这个数据库。
GEO除了二代测序数据,还包含芯片测序、单细胞测序数据,样本数据也不限于肿瘤。不同于TCGA的规整数据,GEO芯片数据由于芯片平台(公司)不同,需要进行ID转换(芯片ID对应基因)、数据标准化、去批次效应后,才能进行数据分析,这也是GEO数据挖掘的难点,很多科研萌新一看到眼花缭乱的数据,瞬间懵逼了。
不过好在,在今天的神站上,你只要“鼠标点点点”就可以分析两大数据库的数据,获得高清矢量图,更重要的是全部提供原始数据和方法学写作。
01
TCGA数据分析平台是由几个临床医生联合生信大拿一起搭建,界面极其简介,左侧栏是TCGA上所有33种肿瘤类型,之后第二期会纳入非肿瘤的疾病。顶部是各种分析模块。首页特别注明了,所有数据均由Rv4.0.3分析完成,意思就是说在平台上分析的结果和拿R语言敲代码分析的结果是完全一样的,这就太爽了。
别看界面简单,该平台功能极其强大,比如想分析下“某个基因在肺腺癌里EGFR突变和野生型病人中表达水平和预后差异”就轻而易举。
平台有极其强大的样本筛选功能,可以对样本进行除了临床信息,治疗信息的进一步筛选外,比如可以根据某一个基因是否突变筛选,某一个基因的表达量水平进行筛选,比如近年来火热的肺腺癌EGFR野生型伴PDL-1低表达相关研究,就完全没问题了。这也是目前已知所有第三方网站无法实现的。
样本筛选表
样本筛选好后,就可以选择需要的功能模块进一步分析啦。
单样本分析,顾名思义就是针对某一个样本的分析,里面的工具目前包括了临床信息比较,批量生存分析,基因与生存,基因与TMB/MSI,桑基图,两基因相关性。
而多样本分析,就是针对某几个样本之间差异的比较,目前包括以下工具:
多组生存,基因表达比较,miRNA比较,突变比较,免疫评分,免疫检查点,甚至铁死亡,m6A。
在复杂分析里,集成了以下耳熟能详的分析模块,比如亚组分型,基因突变景观,差异基因分析,预后模型(列线图),预后模型(Signature),泛癌分析。
然后,在思维导图和视频教程里,师兄和师兄讲解了如何使用“十字研究法”,交叉运用单样本和多样本工具,让课题设计思如泉涌。
这些分析如果让公司去做,估计要几百上千甚至上万了,而这个平台鼠标点击几下,就可以生成所有的高清矢量图,更重要的是还有对应的原始数据下载,这个相当重要。
不仅如此,平台还针对每一个分析结果,给出了对应图例,方法学,结果的中英文对照,和参考文献,这个对我们写文章也很重要。
从课题设计,工具使用,再到零代码,一键分析,原始数据下载,再到论文写作,不得不说,这个由一群医生创建的生信平台,实在是太懂广大科研gou了。
0
中文版GEO数据库相比TCGA主要存储高通量(二代测序)数据的肿瘤样本数据,GEO数据库全称GeneExpressionOmnibusdatabase,是由美国NCBI创建并维护的基因表达数据库。它创建于年,论文中涉及到的基因表达检测的数据几乎都提交到了这个数据库。
GEO除了二代测序数据,还包含芯片测序、单细胞测序数据,样本数据也不限于肿瘤。不同于TCGA的规整数据,GEO芯片数据由于芯片平台(公司)不同,需要进行ID转换(芯片ID对应基因)、数据标准化、去批次效应后,才能进行数据分析,这也是GEO数据挖掘的难点,很多科研萌新一看到眼花缭乱的数据,瞬间懵逼了。
临床生信之家的GEO分析工具,从小编的体验看,有以下特点:
1.所有数据都来之GEO,以上提到的难弄的数据预处理过程均自动完成。
.临床生信之家一贯的:无需代码基础,鼠标点点点即可完成ID转换,数据标准化,去批次,高清出图,原始数据下载一气呵成!
3.数据集介绍全部实行中英文对照。
这样的“中文版GEO数据库”你爱不爱呢?!
首先选择GEO分析模块,选择数据集筛选,搜索框中直接输入心血管方向的“高血压”。
右边可以选择是匹配标题还是摘要还是实验设计类型,此处我们选择标题。
临床生信之家