2002年,来自德国马克斯普朗克植物育种研究所的研究豆科植物的研究人员发现一种之前被认为发挥着非编码功能的长679个核苷酸(679nt)的RNA实际上是一种编码蛋白的信使RNA(mRNA)。基于它的长度大于200nt,它被归类于长链非编码RNA(long noncoding RNA, lncRNA)。这种RNA是由被称作早期结瘤素40(early nodulin 40, ENOD40)的基因转录而产生的,含有短开放阅读框(short open reading frame, sORF)---开放阅读框(open reading frame, ORF),即所谓的由起始密码子和终止密码子夹在中间的蛋白编码序列---,但这些sORF是如此之短以至于它们之前被忽视掉。然而,当这些德国研究人员更加详细地研究这种RNA时,他们发现它含有两个sORF,而且这两个sORF确实编码小肽(micropeptide,也译作微肽):一个编码12肽,另一个编码24肽。通过分析豆科植物样品,他们证实这两种小肽确实在这种植物中表达,而且与一种蔗糖合成酶相互作用。
5年后,另一种之前被认为属于lncRNA的含有sORF的mRNA在果蝇体内发现。在对果蝇胚胎进行筛选发现lncRNA后,当时在日本国家基础生物学研究所任职的Yuji Kageyama(如今在神户大学任职)抑制每种lncRNA转录本的表达。Kageyama说,“仅仅只有一种lncRNA具有明确的表型。”缺乏这种特定lncRNA的胚胎丧失了某些角皮层特征,从而让胚胎具有平滑的稻米粒外观,因而将这种lncRNA命名为pri(polished rice)。
在将注意力转向这种lncRNA如何发挥功能后,Kageyama曾认为他应当首先排除它编码蛋白的可能性。但是他不能够排除。他说,“我们实际上发现它是一种蛋白编码基因。它完全是个意外。” Kageyama和同事们证实,这种pri基因编码4个小肽---三个是11肽和一个是32肽---而且在激活一种在发育上发挥着关键作用的转录因子中起着重要作用。
从那以后,几种其他的lncRNA---在长度上小于300nt---在被发现携带编码小肽的sORF后被重新划分为mRNA。考虑到记录到的lncRNA数量巨大---它们中的大多数没有已知的功能,发现其他的编码小肽的lncRNA数量似乎比较高。
如今,寻找这些编码小肽的lncRNA的努力正在开展中,但是,它是一项充满挑战性的搜寻。毕竟,有充分理由表明这些小肽和它们的编码基因在如此长的时间内未被人们注意到。
被忽视的sORF
从二十世纪九十年代晚期到二十一世纪,随着一种又一种物种的基因组被测序和储存在数据库中,寻找新的基因和它们相关联的mRNA也随之开展。尽管需要筛选上百万个或甚至几十亿个核苷酸,但是研究人员利用计算捷径,寻找典型的基因和mRNA特征,如启动子区域、外显子/内含子剪接位点,当然也包括ORF。
ORF可能能够存在于几乎任何一段RNA序列上,但是事实上,很多ORF并不编码蛋白。鉴于发现编码蛋白的ORF的几率随着它的长度增加而增加,大多数ORF发现算法的大小界限值为300nt---可翻译为100个氨基酸残基(100aa)。来自美国德州大学西南医学中心的Eric Olson说,这允许研究人员“过滤掉垃圾---也就是说,随机存在于RNA中的没有意义的ORF”。
当然,通过排除所有小于300nt的ORF,这些算法不可避免地漏掉那些真正地编码小肽的sORF。“我确信想出这种界限值的人们了解这种规则将肯定漏掉少于100aa的小肽”,来自美国加州大学伯克利分校的Nicholas Ingolia说,“本质上而言,sORF被当作计算垃圾扔掉,因而被忽视掉。”
除了统计上的实用性和人们的疏忽外,还存在其他原因导致sORF和它们的编码的小肽被忽视掉。鉴于它们的较小的长度,在小鼠、果蝇和斑马鱼等模式生物中,sORF更不可能像较大长度的ORF那样在随机的突变筛选中被选中,这意味着它们的功能更不可能被揭示出。此外,来自奥地利维也纳分子病理学研究所的Andrea Pauli说,很多重要的蛋白是基于它们在不同物种中的保守性而被鉴定出来的,但是“ORF长度越短,它更难被发现和将它与其它的基因组进行比对从而了解是否确实存在保守性。”
Olson实验室的博士后研究员Doug Anderson注意到,对蛋白本身而言,标准的电泳分析方法是依据肽的大小进行分离的,这意味着小肽经常丢失了。他说,“很多时候,更小的肽早就跑出我们的凝胶的底部。”来自比利时根特大学的Gerben Menschaert说,标准的蛋白质谱法在鉴定小肽上也是有问题的,这是因为“这种方法存在清洗步骤以至于只有较大的蛋白能够保留下来”。
但是,随着研究人员更加深入地研究上千个被认为存在于基因组中的lncRNA,令人吃惊的是,他们持续地发现小肽。比如,2014年2月,Pauli(当时还是哈佛大学Alex Schier实验室的一名博士后研究员)发现隐藏在一种斑马鱼lncRNA中的sORF。她当时一直在寻找参与斑马鱼发育的lncRNA。她说,“我们真地没有期待到会在其中发现任何编码区,毕竟之前没有发现到这一点,而且更不用提它们之前被认为是并非至关重要的。”但是,她鉴定出的这种lncRNA实际上编码一个长58aa的小肽(她称之为Toddler),而且这种小肽作为一种影响早期胚胎的细胞运动所必需的信号蛋白发挥功能。
去年,Anderson和他的同事们报道了另一种lncRNA。自从2010年加入Olson实验室以来,Anderson就一直在寻找在小鼠胚胎的心肌和骨骼肌中表达的lncRNA。他发现多种候选物,但是只有一种因具有高水平的保守性而脱颖而出--- Anderson认为它可能具有一种重要的功能。他是对的,这种lncRNA具有重要作用,但并不是出于Anderson或Olson之前所认为的原因:它事实上是一种mRNA,编码一种长46aa的小肽。
Olson说,“当我们着重关注这个基因的保守区时,Anderson发现它起始于ATG密码子和结束于一个终止密码子。当研究它是否可能编码一种肽时,结果发现它确实如此。”研究人员将这种肽称作为myoregulin,并且发现它作为肌肉松弛的一种关键性的钙泵调节物发挥功能。
如今,随着越来越多的被忽视的肽被揭示出,一个重要的问题是还有多少等待人们去发现。Ingolia说,“将有几十种小肽吗?就像有上百种微RNA(microRNA)那样,有上百种小肽吗?我们并不知道。”
Olson猜测这一数字非常大。事实上,“这么多年来myoregulin一直未被发现确切地告诉我们可能存在尚未发现的小肽金矿。因此,我们立刻要去积极地挖掘。”
寻找隐藏的小肽
在本世纪头十年的中期,当阅读到关于pri ORF的论文后,Menschaert就一直利用质谱方法富集小肽,在当时,它们被认为是从更大的蛋白上切割下来的。他想到,如果存在一个sORF编码小肽的例子,那么就一定存在更多。
为了发现他的预感是否对的,Menschaert开展大量的RNA测序以便鉴定sORF,同时开展大量的质谱分析以便发现推测的小肽。但是鉴于这是一个漫长的和费时费力的工作,他一次只能够研究少量的sORF。随后,在2009年,研究人员开发出一种新的快速的被称作核糖体图谱(ribosome profiling)的全基因组方法,这种方法能够翻译所有的ORF(不论是长的还是短的),然后就利用针对核糖体结合RNA(ribosome-associated RNA, 即结合到核糖体上的RNA)的下一代测序法对它们进行大量地评估。
这种技术是对另一种被称作核糖体印迹(ribosome footprinting)的方法的更新,其中在核糖体印迹中,研究人员分离出核糖体结合RNA,利用核酸酶消化它们,然后提取因与核糖体的结合而免受酶消化的RNA短片段并对它们进行测序。这种更新的技术仍然需要质谱分析来证实这些RNA产生的蛋白确实存在于细胞中;当然,真正的非编码性RNA有时碰巧也能够与核糖体结合在一起。不过,说句公道话,核糖体印迹是鉴定核糖体结合RNA的一种更为直观的方法。
然而,Ingolia说,在过去十年的测序技术取得进展之前,这是一种非常费时的过程。“人们曾针对单个特异性的mRNA使用核糖体印迹方法,但是不能够将它应用于细胞中发生的任何东西上。” 来自美国加州大学旧金山分校的Jonathan Weissman说,此后开发出的下一代测序法让研究人员能够“一次读取数以亿计的核糖体印迹信息”。
因此,他、Ingolia(当时他的实验室的一名博士后研究员)和他们的同事们将核糖体印迹优化为核糖体图谱法,来获取整个转录组的全局翻译事件图谱。2011年,他们在一篇论文中报道,在小鼠胚胎干细胞中,大多数明显是由基因组中的非编码区转录而产生的lncRNA事实上结合到核糖体上。Weissman说,“我们很早就能够观察到我们正在获得来自典型的ORF之外的信号。” Pauli说,“考虑到这篇论文证实在已知的编码区外存在大量的翻译,它确实是一项里程碑发现。”
但是还不清楚到底有多少是这样的。尽管Ingolia和Weissman的发现能够指出编码小肽的sORF散落在转录组中,但是他们也在他们的分析中发现一些已得到充分研究的具有众所周知的细胞核功能的lncRNA与核糖体结合在一起。来自美国加州理工学院的Mitch Guttman说,典型的非编码性RNA,比如作为端粒DNA复制模板的端粒酶RNA,还比如已知参与剪接的小核RNA(snRNA)在核糖体图谱分析中“被认为是高度翻译的”。“这最初给我们的提示是这种核糖体图谱分析法并不总是指示真正的翻译。”
Guttman说,一些ORF可能作为翻译调控机制的一部分与核糖体结合在一起,或者仅是随机的相互作用---后者可能甚至产生非功能性的小肽:它们被认为是不稳定的,因而会快速地降解掉。为了将反映真正翻译的核糖体图谱和不能真正反映的核糖体图谱区分开来,Guttman与Ingolia和Weissman合作:基于一种特定的mRNA在提取的核糖结合RNA中的分布,构建出一种被称作核糖体释放分数(ribosome release score)的权值。当翻译一种真正的ORF的核糖体碰到终止密码子时,它们从mRNA上释放出来。真正翻译的mRNA然后就应当表现出更高比例的来自它们的编码区的核糖体印迹片段(相对于来自它们下游的非翻译区)。Guttman说,“对真实的肽而言,[在终止密码子后]会观察到非常明显的下降,但是对典型的非编码性RNA而言,则不会观察到这种现象。”
将这种核糖体释放分数应用于Ingolia和Weissman在2011年发布的小鼠胚胎干细胞数据中后,研究人员发现绝大多数的位于基因间的lncRNA仍然被认为是非编码性的。但是并不是所有的lncRNA都是这样的。Guttman说,依据推测大约有5%的lncRNA具有的核糖释放分数值类似于编码蛋白的mRNA。他说,“如果考虑到存在上万种lncRNA,5%是一个大的数字。这仍然可能能够产生大量的小肽。因此,这是非常令人关注的,也值得去探究。”
为了有助验证sORF翻译和鉴定产生的小肽,新的权值和算法---基于核糖体印迹分析结果、序列保守性、同义突变频率和其他的特征---不断在开发出来。在去年11月在线发表的一项研究中,Menschaert和同事们建立一种具有检索功能的sORF数据库:sORFs.org,其目的在于汇集关于sORF和它们的翻译潜力的数据。
就目前而言,研究人员已将针对小鼠、果蝇和人类的核糖体图谱研究中鉴定出的所有sORF未加任何过滤地囊括在这种数据库中。Menschaert说,“当时的想法就是囊括一切。”当前,这种庞大的数据库总共包括266,342个sORF,但是利用多种权值进行筛选能够缩小这个巨大的列表。Menschaert说,比如,对人类sORF进行严格筛选将这个列表减少至大约400个强有力的候选物。
一旦一种新的小肽被鉴定出,那么就会利用分子生物学平台研究它的功能。Menschaert说,“这一过程较为缓慢。”但是针对这项研究接受采访的几名科学家指出他们发现了新的小肽。比如,今年1月份,Olson和他的同事们报道,他们发现了第二种lncRNA表达的肌肉特异性的小肽---一种长34aa的肽,被命名为DWORF。他们发现证据证实DWORF作为肌肉收缩的一种调节物发挥作用,在小鼠心脏中大量表达,在人缺血性心脏组织中受到抑制,这提示着它可能与心力衰竭存在关联。
Weissman说,类似的其他小肽也可能具有免疫原性。他已发现人巨细胞病毒(HCMV)的一种lncRNA中的sORF编码的小肽能够在之前被HCMV感染的病人细胞中产生T细胞免疫反应。Pauli对此表示赞同,“我确信将有一些小肽在某些疾病中起着重要作用。”
随着研究人员持续地更加仔细地梳理基因组小片段,小肽的更多细胞功能可能逐一揭露出来。这些小肽的微小长度可能会导致它们被忽视掉,导致它们的sORF埋藏在统计学噪声中,导致它们的RNA被错误地归类,但是正如迄今为止描述的小肽所证实的那样,这并不能够阻止它们发挥着重要的而且经常是必不可少的功能。
简言之,大小并不代表一切。确实,Pauli说,研究人员迄今为止还没有鉴定出更多的编码小肽的sORF的唯一原因在于“人们之前只是不知道它们确实存在”。
版权声明:本网站所有内容,凡注明来源为“寻医问药网-医脉”,版权均归寻医问药网所有,欢迎转载,转载请注明作者和出处,否则将追究法律责任。本网注明来源为其他媒体的内容为转载,版权归原作者所有,如有侵犯版权,请及时联系我们。