分类：生物信息

理解字符串匹配算法KMP

字符串匹配问题的基本形式是：在文本串 text 中，查找模式串 pattern 出现的位置。最朴素的做法是暴力匹配：一旦发生不匹配，就把模式串整体右移一位，重新从头比较。这种方法的问题在于：已经比较过的字符被重复比较, 最坏时间复杂度是 O(nm). KMP（Knuth–Morris–Pratt）算法的核心目标只有一个：当匹配失败时，模式串尽可能向右跳，而不是回到起点。

2025-12-24

使用二代和三代WGS数据进行基因组组装

本教程中，我们的目标是使用第二代和第三代全基因组测序 (WGS) 数据组装细菌基因组。我们将以此为例来探讨 WGS 数据分析，并探讨测序技术之间的差异。

2024-09-20

使用NART通过读取分类进行长扩增子分析

NART设计用于基于图谱的纳米孔扩增子（实时）分析，例如 16S rRNA 基因。NART由NART（Nanopore Amplicon Real-Time entry）和 NAWF（Nanopore Amplicon snakemake WorkFlow entry）组成。通过基于映射的策略提供从基础调用读取到最终计数矩阵的（实时）端到端解决方案。

2024-09-20

使用LACA从长扩增子中从头挑选OTU

LACA是用于长扩增子一致性分析（例如 16S rRNA 基因扩增子分析）的可重复且可扩展的工作流程。它使用用snakemake管理工作流程以及conda来管理环境。

2024-09-20

单细胞数据如何绘制stacked violin?

Python 的Scanpy包和Seurat包一样，是单细胞数据处理的利器，其中，Scanpy中有一种堆积的小提琴图，可以很好的展示 marker 的表达情况，但是在Seurat中并没有内置命令。因此，我自己尝试提取数据并用ggplot2包来画该图。首先来展示以下画图的成果，如图

2024-09-20

再说转录组数据标准化（TPM，RPKM，FPKM）

基础概念讲解在 RNA-Seq 的分析中，我们常用RPKM、FPKM 和 TPM作为转录组数据定量的表示方法。它们都是对表达量进行标准化的方法，为何不直接用 read 数表示，而选标准化呢?

2024-09-20

单细胞数据如何混合亚类和大类做点图分析Marker基因

单细胞数据数据量很大，加重了分析的负担，但只要掌握好的方法和工具，就可以无往而不利。今年要说的这个如题，是因为在区分亚类的时候，提取了大类型并调整分辨率重新聚类计算的亚类。针对这种情况，该如何实现呢？

2024-09-20

ClusterProfiler:真的不只是富集分析

网上很多教程都在讲 Y 叔的 clusterprofile 富集分析的教程，但是查阅了官方文档后才知道，这个包真的不仅仅只有这个功能，其他功能也很强大。

2024-09-20

16S rRNA基因扩增子分析

在此工作流程中，介绍了 Qiime2 和 R 中 16S rRNA 基因扩增子数据分析的主要步骤。本教程是为哥本哈根大学食品科学系的 MAC 2023 课程准备的。尽管这些步骤是为 Oxford Nanopore Tech (ONT) 测序设计的，但也在 Ilumina 短读长上进行了测试。

2024-09-20

猪的stop数据库芯片构建

项目目的利用 CBE 的碱基编辑能将正常氨基酸密码子转换成终止密码子的性能，设计出针对人类、猪、小鼠的全部基因的 CBE-STOP 芯片。通过 TRAP 系统的细胞内测试，检测分析所有 gRNA 介导的 STOP 效率，最终建立人类、猪、小鼠的 CBE-STOP 的 gRNA 效率数据库，供做 base-editing 相关研究的科研人员使用。

2020-05-13