理解字符串匹配算法KMP字符串匹配问题的基本形式是:在文本串 text 中,查找模式串 pattern 出现的位置。最朴素的做法是暴力匹配:一旦发生不匹配,就把模式串整体右移一位,重新从头比较。这种方法的问题在于:已经比较过的字符被重复比较, 最坏时间复杂度是 O(nm). KMP(Knuth–Morris–Pratt)算法的核心目标只有一个:当匹配失败时,模式串尽可能向右跳,而不是回到起点。2025-12-24生物信息
使用二代和三代WGS数据进行基因组组装本教程中,我们的目标是使用第二代和第三代全基因组测序 (WGS) 数据组装细菌基因组。我们将以此为例来探讨 WGS 数据分析,并探讨测序技术之间的差异。2024-09-20生物信息
使用NART通过读取分类进行长扩增子分析NART设计用于基于图谱的纳米孔扩增子(实时)分析,例如 16S rRNA 基因。NART由NART(Nanopore Amplicon Real-Time entry)和 NAWF(Nanopore Amplicon snakemake WorkFlow entry)组成。通过基于映射的策略提供从基础调用读取到最终计数矩阵的(实时)端到端解决方案。2024-09-20生物信息
使用LACA从长扩增子中从头挑选OTULACA是用于长扩增子一致性分析(例如 16S rRNA 基因扩增子分析)的可重复且可扩展的工作流程。它使用用snakemake管理工作流程以及conda来管理环境。2024-09-20生物信息
单细胞数据如何绘制stacked violin?Python 的Scanpy包和Seurat包一样,是单细胞数据处理的利器,其中,Scanpy中有一种堆积的小提琴图,可以很好的展示 marker 的表达情况,但是在Seurat中并没有内置命令。因此,我自己尝试提取数据并用ggplot2包来画该图。 首先来展示以下画图的成果,如图2024-09-20生物信息
再说转录组数据标准化(TPM,RPKM,FPKM)基础概念讲解在 RNA-Seq 的分析中,我们常用RPKM、FPKM 和 TPM作为转录组数据定量的表示方法。 它们都是对表达量进行标准化的方法,为何不直接用 read 数表示,而选标准化呢?2024-09-20生物信息
单细胞数据如何混合亚类和大类做点图分析Marker基因单细胞数据数据量很大,加重了分析的负担,但只要掌握好的方法和工具,就可以无往而不利。今年要说的这个如题,是因为在区分亚类的时候,提取了大类型并调整分辨率重新聚类计算的亚类。针对这种情况,该如何实现呢?2024-09-20生物信息
ClusterProfiler:真的不只是富集分析网上很多教程都在讲 Y 叔的 clusterprofile 富集分析的教程,但是查阅了官方文档后才知道,这个包真的不仅仅只有这个功能,其他功能也很强大。2024-09-20生物信息
16S rRNA基因扩增子分析在此工作流程中,介绍了 Qiime2 和 R 中 16S rRNA 基因扩增子数据分析的主要步骤。本教程是为哥本哈根大学食品科学系的 MAC 2023 课程准备的。尽管这些步骤是为 Oxford Nanopore Tech (ONT) 测序设计的,但也在 Ilumina 短读长上进行了测试。2024-09-20生物信息
猪的stop数据库芯片构建项目目的 利用 CBE 的碱基编辑能将正常氨基酸密码子转换成终止密码子的性能,设计出针对人类、猪、小鼠的全部基因的 CBE-STOP 芯片。通过 TRAP 系统的细胞内测试,检测分析所有 gRNA 介导的 STOP 效率,最终建立人类、猪、小鼠的 CBE-STOP 的 gRNA 效率数据库,供做 base-editing 相关研究的科研人员使用。 2020-05-13生物信息