从现有大量的miRNA功能验证结果来看,大豆中miRNA的表达常具有组织特异性和生长阶段特异性的特点,表明miRNA很可能参与了大豆生长发育中的生物学过程。对大豆的产量和品质形成产生重要的影响。
综上,已有的大量通过实验的方法进行验证,费力耗时,本研究将经过降解组验证的可信microRNA对其靶基因的调控关系作为建立数据库基础数据,同时,基于比较构建网络的基本关系的共性和特性,获得在5个组织中都存在的保守关系和不同组织中各自存在的特异关系,并利用这些关系建立直观可见的网络。可视化网络清晰地反应了microRNA与靶基因之间的关系,以此能够较为准确地发现特殊的关系,且经过网络关系都经过降解组验证,较为可信,节省了实验成本且相对全面地解释了我们调查的5个组织中大豆microRNA及其靶基因的表达情况和各自特点。
1 材料与方法
1.1 原始数据收集
从miRBase(http://www.mirbase.org)中下载全部大豆638个microRNA及其前体的第二代测序(next generation sequencing, NGS)数据; 降解组文库测序GEO数据(Gene Expression Omnibus,http://www.ncbi.nlm.nig.gov/geo),分别来自根、种子、子叶、种皮、叶五个组织,在NCBI中录入号分别为GSMGSM1213430, GSM647200, GSM848963, GSM848964和GSM1419390_WW3032d[24-27]
1.2 实验方法
1.2.1 原始数据格式处理
解压原始文件,将所下载的降解组GEO格式序列文件转化成fasta格式“>read n@exp‘/n’ ACTTGNN..”;由于所下载的根的降解组测序数据为原始的sra文件,利用专用的sra转换软件sra文件转化为原始测序所得fastaq文件,根据测序报道中的提供的接头信息,除去原始序列的测序接头后,将fastaq格式文件转化成fasta格式,后对处理过的降解组序列以107为底(RP10M,reads per 10 million)进行均一化处理以备后用。
1.2.2 大豆microRNA靶基因预测和降解组验证
上传成熟microRNA序列数据到psTarget 预测服务器(http://plantgrn.noble.org/psRNATarget) [28], 利用其默认参数进行预测,获得大豆中所有638 microRNA的靶基因预测结果psRNATargetJob-1477899682577164。将所得结果进行降解组验证。首先,将均一化的降解组数据与靶基因预测结果进行比对; 然后,建立索引,将符合以下条件的microRNA及其靶基因关系保留下来:
(1)至少有一条降解组序列满足其5’端在与microRNA的5’端靶基因结合位点相差在9~12nt区域;
(2)满足条件(1)的降解组序列数量要超过5RP10M;
(3)选取匹配上切割区域的降解组序列表达量最丰富(Catagory1)或次级丰富(Catagory2)。并用本地python脚本做出全部cat1和cat2 的t-plot图,可以直观看出切割位点,完成对microRNA与靶基因切割关系的验证。
1.2.3 大豆microRNA靶基因的调控网络建立和分析
以所有降解组验证后的microRNA与靶基因关系为基础建立大豆microRNA调控网络。首先将上述验证结果导入cytoscape软件中,生成各个不同组织中的调控网络,并对这些组织中存在的microRNA调控群数量进行统计。以各组织中的调控网络及其基本表格为基础,进一步分析:
(1)将这些网络取合集合并后,获得整个大豆microRNA调控网络关系图,导出基本表,同时对各个调控群存在的不同组织数量进行计数。
(2)为获得在各个组织中都有表达的网络,作为各组织中通用的microRNA调控网络,将各组织网络作交集运算,导出边界表格和节点表格,去除独立的无相互关系的节点,重新整合成网络基本表,再次导入cytoscape中获得通用网络;