处理过程
表达文库分析
SeekSpace® Tools 使用 SeekSoul® Tools RNA 模块来进行空间转录组表达文库的分析,具体算法描述见SeekSoul® Tools。
空间转录组表达文库的R1结构:
细胞判定
相较于SeekSoul® Tools,SeekSpace® Tools在细胞判定过程中默认采用"forceCell"方法,默认提取前80000个细胞的UMI数量,并使用min_umi为200作为默认阈值,筛选出UMI数大于该阈值的细胞作为最终判定的细胞来生成表达矩阵。
空间定位
提取空间标签和位置信息
和空间位置相关的文库有两个,分别是空间文库和HDMI文库。
空间文库
空间文库的R1结构和表达文库一致,R2结构如下:
对于空间文库R1,同样使用SeekSoul® Tools的RNA模块进行cell barcode校正和UMI提取。然后,在R2上提取spatial barcode,并生成细胞标签(cell barcode)与空间标签(spatial barcode)的对应关系。与表达文库的UMI所代表的含义不同,空间文库的UMI(spatial UMI)代表了每个细胞标签上每个空间标签的表达量。
HDMI文库 HDMI文库为单端测序,每条read包含32个碱基的spatial barcode,每个spatial barcode都有相对应的位置信息。我们使用空间文库提取的spatial barcode作为白名单,并利用SeekSoul® Tools的RNA模块对HDMI文库的spatial barcode进行校正,同时提取spatial barcode对应的空间坐标。
过滤
在空间文库中提取的spatial barcode中,可能会包含一些无效的barcode。这些无效的barcode可能是由于混入了表达文库中长度较短的mRNA片段所致。由于这些片段在HDMI文库中不存在,因此无法提供相应的位置信息。除了上述提到的因素,测序错误也会产生无效的barcode。为了确保数据的准确性,我们对这些无效的spatial barcode进行了过滤处理,将其排除在分析之外。
在HDMI文库中,部分spatial barcode可能会出现多次,并且每次出现时可能带有不同的位置信息。由于我们无法确定这些spatial barcode的确切空间位置,因此这些spatial barcode将被过滤掉。
针对某些spatial barcode,我们观察到其对应的UMI支持数异常高。我们推测这可能是由于这些spatial barcode在实验操作中脱离了芯片,并被液滴包裹所致。这部分spatial barcode被认为是不准确的。为了过滤掉这些错误的spatial barcode,我们采取了以下步骤:
将芯片上的位置按照30x30的大小划分为多个bin。
统计每个bin中的spatial barcode的UMI支持数。
对bin按照UMI支持数进行降序排序。
基于排序后的bins的分布,计算阈值。
如果某个bin中的UMI支持数超过阈值,我们将移除该bin中UMI支持数最多的cell barcode对应的所有spatial barcode。
最后,我们将过滤掉所有非细胞的cell barcode以及其对应的spatial barcode,仅对在生物学上具有意义的细胞进行定位。
细胞位置判定
在确定细胞的中心位置时,我们必须考虑一些噪声性的spatial barcode的存在。这些spatial barcode可能是在实验过程中作为背景存在于液滴中,或者标记在细胞核的碎片上,导致与液滴中其他细胞核上标记为同一细胞标签。这种情况会导致芯片上出现多个中心位置。所以,我们需要对芯片上具有多个中心的细胞进行过滤以确保那些具有明确定义中心位置的细胞被保留。
在左侧图中,展示了一个细胞的spatial barcode在空间中的分布示意图,每个格子代表一个bin。每个bin的大小约为100像素,相当于26.5微米。图中的颜色表示每个bin中spatial barcode 的UMI支持数,颜色越深表示支持数越高。
右侧图是对左侧图中绿色框内的图像进行放大的视角。红点所在的bin代表该细胞中UMI支持数最高的bin,被定义为该细胞的中心。红框内包括中心bin和周围的24个bin,构成了该细胞的核心。为了判断该细胞是否为多中心,我们需要寻找次中心。次中心被定义为不在核心中的UMI支持数最高的bin。我们计算核心的UMI总数与次中心及周围24个bin中的UMI总数之间的比例,如果比例大于等于2,则认为该细胞具有唯一的中心点。对于其他细胞,我们认为它们具有多个中心点,因此将这些细胞排除。
最后,利用细胞核心中的spatial barcode分布,我们可以确定细胞在芯片空间中的位置。
经过上述处理后,有如下数据指标:
Total Spatial Reads: 空间文库中的read数,表示测序获得的所有reads数量。
Valid Spatial Reads: 有效的空间read数,指的是R1 barcode不需要校正或校正成功,且R2具有至少32个碱基长度的reads数量。
Total Spatial UMIs: 总的空间UMI数,表示从有效reads中提取出cell barcode、 spatial barcode和UMI后进行去重得到的UMI数目。
Spatial Barcode Saturation: 空间文库饱和度。1- 总的空间UMI数/有效的空间read数
Valid Spatial UMIs: 有效的空间UMI数,指的是排除无效spatial barcode后剩余的spatial barcode的UMI支持数
Spatial UMIs with Unique Locations: 具有唯一位置的spatial barcode的UMI支持数占有效的空间UMI数的比例
Accurate Spatial UMIs: 准确的spatial barcode的UMI支持数占有效的空间UMI数的比例
Accurate Spatial UMI Bins: 拥有准确的spatial barcode 的bins占总的bin的比例
Cell-Identified Spatial UMIs: 与细胞相关的spatial UMI。被判定为细胞的cell barcode上带有的spatial barcode的UMI支持数占准确的spatial UMIs的比例
Mean Spatial UMIs per Cell: 每个细胞的平均spatial UMI数,与细胞相关的spatial UMI数除以判定的细胞数
组织图像识别
SeekSapce® Tools 基于图像处理算法识别组织图像并提取组织覆盖下的细胞,以进行后续的分析。它能够接收DAPI染色和经过DAPI配准后的HE染色的图像。输入的图像经过缩放和高斯模糊处理,并利用OpenCV中的图像处理算法,最终实现组织和背景的分离。在整个处理过程中,图像的宽高比与原始图像保持一致。
如果组织图像和细胞所在区域不完全重合,SeekSpace® Tools提供了手动对齐功能。通过手动对齐功能,可以对组织图像进行均匀缩放、平移和旋转操作。对齐后,可以下载图片调整参数,并重新输入到SeekSpace® Tools中生成新的背景图像,以确保组织图像与细胞区域的准确对应。
后续分析
经过上述步骤,得到被组织覆盖的细胞的表达矩阵后,我们可以进行下一步的分析。
Seurat分析流程
使用Seurat计算线粒体含量,细胞中UMI总数,细胞中基因总数。之后对矩阵进行归一化、寻找高变基因、降维聚类之后寻找差异基因。