清华大学鲁志课题组在《Genome Biology》发表论文 开发了用于研究RNA及多个结合蛋白相互作用的生物信息学方法

2017年9月8日,清华大学生命科学学院鲁志课题组在《Genome Biology》发表题为Identification of high-confidence RNA regulatory elements by combinatorial classification of RNA–protein binding sites的方法学论文,该论文通过整合RNA及其结合蛋白(RBP)相互作用的高通量测序数据(CLIP-seq),开发了一个基于非负矩阵分解(NMF)的生物信息学方法 -- RBPgroup(http://RBPtarget.ncrnalab.org/RBPgroup)。该方法不但能鉴定出具有高可信度的RNA调控元件,与此同时,也能够预测多个RNA结合蛋白(RBP)之间的潜在相互作用关系。该成果为研究多个蛋白在RNA上的协同调控提供了有力的新方法。

图1  用于研究RNA及多个RNA结合蛋白相互作用的整合数据分析流程 

 RNA结合蛋白(RBP)对于细胞维持如RNA剪接,RNA聚腺苷酸化,RNA转运,翻译和转录本降解等一系列基本的细胞学功能至关重要。基于一项研究工作的估计,人类存在超过1500种不同的RBP,这些RBP通过结合不同的RNA靶标序列(调控元件),进而行使其相应的生物学功能。许多RNA结合蛋白在结合其RNA靶标时存在相互作用或竞争的关系,因此,研究RNA结合蛋白的组合方式和鉴定相应的RNA调控原件,对研究各种后转录调控机制至关重要。 

 近几年来,紫外交联免疫沉淀结合高通量测序(CLIP-seq)技术的出现,使得研究人员能够在不同哺乳动物细胞中鉴定转录组范围内的、具有高分辨率的RNA-RNA结合蛋白的结合位点。目前,为了揭示重要的后转录调控机制,越来越多的CLIP-seq数据被产出,这些RNA结合蛋白的结合位点已经在我们实验室的前期工作中被很好地整理和收录在诸如CLIPdb和POSTAR等重要的数据库中。在这些大数据的基础上,整合多个CLIP-seq数据,研究RNA和多个结合蛋白的相互协同作用,对研究复杂的RNA转录后调控网络非常关键。

  鲁志课题组利用从文献中收集的HEK293,HepG2和K562三个细胞系的327套CLIP-seq数据,通过整合分析,发展了基于非负矩阵因子分解(NMF)的生物信息学方法 --RBPgroup。该工作表明,相同聚类组中的RNA结合蛋白在功能上存在重要的相关性,与此同时,在该组对应的RNA靶标序列中,能够显著富集出与RNA重要调控作用相关的调控元件。该研究将这套研究方法体系应用于国际ENCODE(Encyclopedia of DNA Elements)计划中的eCLIP数据,发现了众多潜在的RNA结合蛋白的调控复合物(或竞争物)组合,并且其中部分得到了实验的验证。为了让科学界更容易获得这项工作的研究结果,丰富的RNA调控序列与RNA结合蛋白调控复合物组合被整理在一个基于Web的网页平台上(http://RNAtarget.ncrnalab.org/RBPgroup),对应生物信息学工具RBPgroup的代码被公开在开源网站GitHub上(https://github.com/lulab/RBPgroup)。

 清华大学生命科学学院鲁志研究员为该论文的通讯作者,清华大学生命学院直博生李洋、史斌斌和浙江大学生命科学研究院肖睦博士为该论文的共同第一作者。该研究得到了国家自然科学基金委优秀青年项目、面上项目、科技部重点研发计划等经费的支持,数据的计算分析工作也得到了国家蛋白质科学研究(北京)设施清华基地生物计算平台的支持。

论文链接:https://genomebiology.biomedcentral.com/articles/10.1186/s13059-017-1298-8

Cell:细胞治疗领域观察者

长按识别二维码,轻松关注