如何在Python中调用C/C++代码
How to mix C/C++ code in Python
本文介绍一种手动的、简单的在Python中使用C/C++代码的方式。这个方法主要使用了ctypes模块。其他的混合Python,C/C++编程的方法还有Swig 和 Boost.Python。前一种方法需要写一个接口文件(interface),而后一种需要使用庞大、深奥的boost类库,后两者适合可能适合更复杂的情况,这里只介绍第一种方法。
混合C/C++代码需要这几步:
1. 包装接口 C/C++ wrap functions up
2. 打包成共享库 Compiling C/C++ code and pack it to shared library
3. Python中导入共享库 Python imports shared library
先介绍一下北京,这里我的C++类GenomeSequence使用了模板(Template)和Memorymap,这是一个访问基因序列的类,比如如果一个生物序列是GAGTTTTATCGCTTCCATGACGCAGAAGTTAACACT… 我们的类是gs,那么gs[0] = ‘G’, gs[1]=’A’ …. 摘录相关的函数如下:
class GenomeSequence : public genomeSequenceArray { public: /// Simple constructor - no implicit file open GenomeSequence(); /// set the reference name that will be used in open() /// \param referenceFilename the name of the reference fasta file to open /// \return false for success, true otherwise /// /// \sa open() bool setReferenceName(std::string referenceFilename); /// return the number of bases represented in this reference /// \return count of bases genomeIndex_t getNumberBases() const { return getElementCount(); } inline char operator[](genomeIndex_t index) const { uint8_t val; if (index < getNumberBases()) { if ((index&1)==0) { val = ((uint8_t *) data)[index>>1] & 0xf; } else { val = (((uint8_t *) data)[index>>1] & 0xf0) >> 4; } } else { val = baseNIndex; } val = isColorSpace() ? int2colorSpace[val] : int2base[val]; return val; } /* ........... more codes omitted ................ */ }
但实际上这些细节并不重要,重要是如何包装,我们编写GenomeSequence_wrap.cpp文件,包括对上述4个函数的封装,源码如下:
#include "GenomeSequence.h" #include <string> extern "C"{ GenomeSequence* GenomeSequence_new(){ return new GenomeSequence();} bool GenomeSequence_setReferenceName(GenomeSequence* gs, char* s) { if (!gs) return false; std::string str = s; //printf("Loading %s ...\n", s); if (!gs->setReferenceName(str)){ gs->open(); } else { printf("Loading FAIL\n"); } return (gs->setReferenceName(str)); } void GenomeSequence_close(GenomeSequence* gs) {if (gs) gs->close();}; int GenomeSequence_getNumBase(GenomeSequence* gs) { if (!gs) { printf("invalid gs\n"); return -1; } return (gs->getNumberBases()); } char GenomeSequence_getBase(GenomeSequence* gs, unsigned int i) { if (gs) { return (*gs)[i]; }; }; }
第二步是编译,记住单个C/C++文件编译时使用-fPIC参数,最后打包的时候编译成共享库,摘录Makefile文件中片段如下:
lib: g++ -c -fPIC -I./lib GenomeSequence_wrap.c g++ -shared -Wl,-soname,libstatgen.so -o libstatgen.so lib/*.o lib/samtools/k*.o lib/samtools/bgzf.o *.o
最后一步是在Python中写一个封装类,注意前两行引入ctypes库,之后就用这个库调用包装函数就行。
注意:我在GenomeSequence类的__getitem__中使用了如何扩展Python的容器类一文中介绍的一些技巧,这样可以更灵活的使用下标来访问数组中的元素。
from ctypes import cdll lib = cdll.LoadLibrary("./libstatgen.so") class GenomeSequence: def __init__ (self): self.obj = lib.GenomeSequence_new() def open(self, filename): lib.GenomeSequence_setReferenceName(self.obj, filename) def __len__ (self): return lib.GenomeSequence_getNumBase(self.obj) def __getitem__(self, key): if isinstance(key, int): return chr(lib.GenomeSequence_getBase(self.obj, key)) elif isinstance(key, slice): return ''.join([self[x] for x in xrange(*key.indices(len(self)))]) elif isinstance(key, tuple): return ''.join([self[i] for i in key]) def at(self, i): return chr(lib.GenomeSequence_getBase(self.obj, i)) def close(self): lib.GenomeSequence_close(self.obj) if __name__ == '__main__': gs = GenomeSequence () gs.open("/home/zhanxw/statgen/src/karma/test/phiX.fa"); print len(gs) seq = [(gs.at(i)) for i in xrange(60)] print ''.join(seq) print gs[0:10],gs[20:30] print gs[0:10, 20:30] print gs[-10:] gs.close() print "DONE"
本文主要参考【1】。这里的方法基本重复了【1】中的步骤。写出本文中的代码在于进一步验证ctypes库可以灵活的处理C/C++和Python中的简单数据类型int, char*。