如何使用 Python 调用 CloudFlare WorkerAI 提供的 Flux 模型

前面的文章打破信息差有提到过,CloudFlare 提供了一些免费的开源模型的 API,而 Flux 的生图模型就在其中。不过,这个模型的 API 最终返回给我们的是 Base64 数据,而不是可直观查看的图片,所以我们需要将图片数据写入文件并上传到云端,然后通过 URL 访问它。另外,我们还希望支持写中文的提示词,所以我们需要在其中增加一个大模型的翻译层,这样就可以把中文的提示词翻译成英文,从而被 Flux 识别。今天,我就通过 Python 代码的方式来实现上述的功能。 🚀

编程语言

Julia语言编写Needleman Wunsch全局比对算法

输入是两个字符串,输出是对齐后的两个字符串。

编程语言

Julia语言模仿BAM文件的pileup类似操作

简介使用过pysam和samtools的小伙伴肯定了解 pileup的操作,如果把 BAM 文件看作表格的话,那么通常我们是按行去解析它的 record,进而获得一些信息,例如比对到哪条染色体,比对的开始位置和结束位置等. 另一种情况下,我们想要按照列去循环解析,得到这个列上的具体信息,典型的就是这个列上比对序列的碱基是什么?比对序列的位置是什么?以及是 Match or Mismatch or indel 等。那么,该操作就需要引入pileup操作了。

编程语言

Python编写拆分Barcode的脚本,并用Codon编译为Native code

摘要成对的 reads 中,read_2 的开头包含两份 barcode 序列,分别长 10bp,中间有一段固定长度为 15bp 的序列分割,例如 1ATCTATGACATGTTACGTTAACTCCNATCTATCACTTAGCGCTGNCCCTGTCCTCTACACTCCACCCCCTCCCCACCAGACTAAACAACGCCCTTTCCCC 该序列中ATTTATGACA及AATCTATCAA为 barcode 序列。要注意,barcode 因为测序的原因存在一定的错配,需要对其有一定的容纳。

编程语言

不同的语言处理gzip压缩文件的时间对比

首先在 shell 中测试如下命令12#!/bin/shtime gzip -d -c risearch_chr1:143971112-143971134:+:FAM72C.out.gz > risearch_chr1:143971112-143971134:+:FAM72C.out

编程语言

使用R语言实现bedtools求交集的功能?

Bedtools 作为基因组研究的 “ 瑞士军刀 ”, 功能强大且易于操作,是生信行业不可多得的好软件。通常对 bed 区间的注释,我们使用其中“ 求交集 ”的功能(bedtools intersect) ,但是有一个很不方便的地方,我们通常要生成对应的 bed 文件,再注释完成后还需要用 R 语言等读入才能继续分析,所以整合度不是很好,本文希望提供 R 语言的思路来解决该问题。

编程语言

Julia短小代码批量检测BAM文件的完整性

我们在运行 bwa mem 比对的时候,由于某些不明的原因会造成程序中断,例如内存超了,IO 错误,计算节点崩溃等,然而 BAM 是否完整很难察觉,最终导致后续流程无法运行。这里,我们通过一段简短的代码来检查 BAM 文件的完整性,代码如下:

编程语言

julia计算为ASCAT创建GC矫正文件

如题,官方已经提供了一个 R 的版本createGCcontentFile.R ,但是根据代码就能看出这个版本非常占内存了,首先要把基因组整个序列都 load 入内存中去,每次计算出的矫正数据也是储存 dataframe 中。为了降低内存占用,也为了提高计算速度,我写了一个 julia 版本的。代码如下:

编程语言

用julia语言计算测序数据的Insert Size?

Julia 读取 BAM 的库想要计算Insert size,需要提供一个基因组比对后的文件,sam也好,bam也罢。那么,使用 julia 语言计算该值的第一步便是了解如何读取和解析BAM文件格式。

编程语言

基于Julia语言的多线程barcode拆分

拆分原理 软件的逻辑是首先获取 barcode 列表。然后采用多线程分别在 fastq 文件中并行提取对应 barcode 的 reads。 WGS 的下机数据经常出现在 fastq2 里。所以程序会从 fastq 中自动查找是否存在对应 barcode。 程序可以自动检测 barcode 始于开始还是末尾,计算 hanming 距离,运行 1bp 的 mismatch。

编程语言
12