Context Navigation

harvest_bacteria.py

リビジョン 2, 10.5 KB (コミッタ: hatakeyama, 15 年前)
import galaxy-central

行番号
1	#!/usr/bin/env python
2	#Dan Blankenberg
3
4	#Harvest Bacteria
5	#Connects to NCBI's Microbial Genome Projects website and scrapes it for information.
6	#Downloads and converts annotations for each Genome
7
8	import sys, os, time
9	from urllib2 import urlopen
10	from urllib import urlretrieve
11	from ftplib import FTP
12	from BeautifulSoup import BeautifulSoup
13	from util import get_bed_from_genbank, get_bed_from_glimmer3, get_bed_from_GeneMarkHMM, get_bed_from_GeneMark
14
15	assert sys.version_info[:2] >= ( 2, 4 )
16
17	#this defines the types of ftp files we are interested in, and how to process/convert them to a form for our use
18	desired_ftp_files = {'GeneMark':{'ext':'GeneMark-2.5f','parser':'process_GeneMark'},
19	'GeneMarkHMM':{'ext':'GeneMarkHMM-2.6m','parser':'process_GeneMarkHMM'},
20	'Glimmer3':{'ext':'Glimmer3','parser':'process_Glimmer3'},
21	'fna':{'ext':'fna','parser':'process_FASTA'},
22	'gbk':{'ext':'gbk','parser':'process_Genbank'} }
23
24
25
26	#number, name, chroms, kingdom, group, genbank, refseq, info_url, ftp_url
27	def iter_genome_projects( url = "http://www.ncbi.nlm.nih.gov/genomes/lproks.cgi?view=1", info_url_base = "http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=genomeprj&cmd=Retrieve&dopt=Overview&list_uids=" ):
28	for row in BeautifulSoup( urlopen( url ) ).findAll( name = 'tr', bgcolor = ["#EEFFDD", "#E8E8DD"] ):
29	row = str( row ).replace( "\n", "" ).replace( "\r", "" )
30
31	fields = row.split( "</td>" )
32
33	org_num = fields[0].split( "list_uids=" )[-1].split( "\"" )[0]
34
35	name = fields[1].split( "\">" )[-1].split( "<" )[0]
36
37	kingdom = "archaea"
38	if "<td class=\"bacteria\" align=\"center\">B" in fields[2]:
39	kingdom = "bacteria"
40
41	group = fields[3].split( ">" )[-1]
42
43	info_url = "%s%s" % ( info_url_base, org_num )
44
45	org_genbank = fields[7].split( "\">" )[-1].split( "<" )[0].split( "." )[0]
46	org_refseq = fields[8].split( "\">" )[-1].split( "<" )[0].split( "." )[0]
47
48	#seems some things donot have an ftp url, try and except it here:
49	try:
50	ftp_url = fields[22].split( "href=\"" )[1].split( "\"" )[0]
51	except:
52	print "FAILED TO AQUIRE FTP ADDRESS:", org_num, info_url
53	ftp_url = None
54
55	chroms = get_chroms_by_project_id( org_num )
56
57	yield org_num, name, chroms, kingdom, group, org_genbank, org_refseq, info_url, ftp_url
58
59	def get_chroms_by_project_id( org_num, base_url = "http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=genomeprj&cmd=Retrieve&dopt=Overview&list_uids=" ):
60	html_count = 0
61	html = None
62	while html_count < 500 and html == None:
63	html_count += 1
64	url = "%s%s" % ( base_url, org_num )
65	try:
66	html = urlopen( url )
67	except:
68	print "GENOME PROJECT FAILED:", html_count, "org:", org_num, url
69	html = None
70	time.sleep( 1 ) #Throttle Connection
71	if html is None:
72	"GENOME PROJECT COMPLETELY FAILED TO LOAD", "org:", org_num,"http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=genomeprj&cmd=Retrieve&dopt=Overview&list_uids="+org_num
73	return None
74
75	chroms = []
76	for chr_row in BeautifulSoup( html ).findAll( "tr", { "class" : "vvv" } ):
77	chr_row = str( chr_row ).replace( "\n","" ).replace( "\r", "" )
78	fields2 = chr_row.split( "</td>" )
79	refseq = fields2[1].split( "</a>" )[0].split( ">" )[-1]
80	#genbank = fields2[2].split( "</a>" )[0].split( ">" )[-1]
81	chroms.append( refseq )
82
83	return chroms
84
85	def get_ftp_contents( ftp_url ):
86	ftp_count = 0
87	ftp_contents = None
88	while ftp_count < 500 and ftp_contents == None:
89	ftp_count += 1
90	try:
91	ftp = FTP( ftp_url.split("/")[2] )
92	ftp.login()
93	ftp.cwd( ftp_url.split( ftp_url.split( "/" )[2] )[-1] )
94	ftp_contents = ftp.nlst()
95	ftp.close()
96	except:
97	ftp_contents = None
98	time.sleep( 1 ) #Throttle Connection
99	return ftp_contents
100
101	def scrape_ftp( ftp_contents, org_dir, org_num, refseq, ftp_url ):
102	for file_type, items in desired_ftp_files.items():
103	ext = items['ext']
104	ftp_filename = "%s.%s" % ( refseq, ext )
105	target_filename = os.path.join( org_dir, "%s.%s" % ( refseq, ext ) )
106	if ftp_filename in ftp_contents:
107	url_count = 0
108	url = "%s/%s" % ( ftp_url, ftp_filename )
109	results = None
110	while url_count < 500 and results is None:
111	url_count += 1
112	try:
113	results = urlretrieve( url, target_filename )
114	except:
115	results = None
116	time.sleep(1) #Throttle Connection
117	if results is None:
118	"URL COMPLETELY FAILED TO LOAD:", url
119	return
120
121	#do special processing for each file type:
122	if items['parser'] is not None:
123	parser_results = globals()[items['parser']]( target_filename, org_num, refseq )
124	else:
125	print "FTP filetype:", file_type, "not found for", org_num, refseq
126	#FTP Files have been Loaded
127
128
129	def process_FASTA( filename, org_num, refseq ):
130	fasta = []
131	fasta = [line.strip() for line in open( filename, 'rb' ).readlines()]
132	fasta_header = fasta.pop( 0 )[1:]
133	fasta_header_split = fasta_header.split( "\|" )
134	chr_name = fasta_header_split.pop( -1 ).strip()
135	accesions = {fasta_header_split[0]:fasta_header_split[1], fasta_header_split[2]:fasta_header_split[3]}
136	fasta = "".join( fasta )
137
138	#Create Chrom Info File:
139	chrom_info_file = open( os.path.join( os.path.split( filename )[0], "%s.info" % refseq ), 'wb+' )
140	chrom_info_file.write( "chromosome=%s\nname=%s\nlength=%s\norganism=%s\n" % ( refseq, chr_name, len( fasta ), org_num ) )
141	try:
142	chrom_info_file.write( "gi=%s\n" % accesions['gi'] )
143	except:
144	chrom_info_file.write( "gi=None\n" )
145	try:
146	chrom_info_file.write( "gb=%s\n" % accesions['gb'] )
147	except:
148	chrom_info_file.write( "gb=None\n" )
149	try:
150	chrom_info_file.write( "refseq=%s\n" % refseq )
151	except:
152	chrom_info_file.write( "refseq=None\n" )
153	chrom_info_file.close()
154
155	def process_Genbank( filename, org_num, refseq ):
156	#extracts 'CDS', 'tRNA', 'rRNA' features from genbank file
157	features = get_bed_from_genbank( filename, refseq, ['CDS', 'tRNA', 'rRNA'] )
158	for feature in features.keys():
159	feature_file = open( os.path.join( os.path.split( filename )[0], "%s.%s.bed" % ( refseq, feature ) ), 'wb+' )
160	feature_file.write( '\n'.join( features[feature] ) )
161	feature_file.close()
162	print "Genbank extraction finished for chrom:", refseq, "file:", filename
163
164	def process_Glimmer3( filename, org_num, refseq ):
165	try:
166	glimmer3_bed = get_bed_from_glimmer3( filename, refseq )
167	except Exception, e:
168	print "Converting Glimmer3 to bed FAILED! For chrom:", refseq, "file:", filename, e
169	glimmer3_bed = []
170	glimmer3_bed_file = open( os.path.join( os.path.split( filename )[0], "%s.Glimmer3.bed" % refseq ), 'wb+' )
171	glimmer3_bed_file.write( '\n'.join( glimmer3_bed ) )
172	glimmer3_bed_file.close()
173
174	def process_GeneMarkHMM( filename, org_num, refseq ):
175	try:
176	geneMarkHMM_bed = get_bed_from_GeneMarkHMM( filename, refseq )
177	except Exception, e:
178	print "Converting GeneMarkHMM to bed FAILED! For chrom:", refseq, "file:", filename, e
179	geneMarkHMM_bed = []
180	geneMarkHMM_bed_bed_file = open( os.path.join( os.path.split( filename )[0], "%s.GeneMarkHMM.bed" % refseq ), 'wb+' )
181	geneMarkHMM_bed_bed_file.write( '\n'.join( geneMarkHMM_bed ) )
182	geneMarkHMM_bed_bed_file.close()
183
184	def process_GeneMark( filename, org_num, refseq ):
185	try:
186	geneMark_bed = get_bed_from_GeneMark( filename, refseq )
187	except Exception, e:
188	print "Converting GeneMark to bed FAILED! For chrom:", refseq, "file:", filename, e
189	geneMark_bed = []
190	geneMark_bed_bed_file = open( os.path.join( os.path.split( filename )[0], "%s.GeneMark.bed" % refseq ), 'wb+' )
191	geneMark_bed_bed_file.write( '\n'.join( geneMark_bed ) )
192	geneMark_bed_bed_file.close()
193
194
195
196	def __main__():
197	start_time = time.time()
198	base_dir = os.path.join( os.getcwd(), "bacteria" )
199	try:
200	base_dir = sys.argv[1]
201	except:
202	print "using default base_dir:", base_dir
203
204	try:
205	os.mkdir( base_dir )
206	print "path '%s' has been created" % base_dir
207	except:
208	print "path '%s' seems to already exist" % base_dir
209
210	for org_num, name, chroms, kingdom, group, org_genbank, org_refseq, info_url, ftp_url in iter_genome_projects():
211	if chroms is None:
212	continue #No chrom information, we can't really do anything with this organism
213	#Create org directory, if exists, assume it is done and complete --> skip it
214	try:
215	org_dir = os.path.join( base_dir, org_num )
216	os.mkdir( org_dir )
217	except:
218	print "Organism %s already exists on disk, skipping" % org_num
219	continue
220
221	#get ftp contents
222	ftp_contents = get_ftp_contents( ftp_url )
223	if ftp_contents is None:
224	"FTP COMPLETELY FAILED TO LOAD", "org:", org_num, "ftp:", ftp_url
225	else:
226	for refseq in chroms:
227	ftp_result = scrape_ftp( ftp_contents, org_dir, org_num, refseq, ftp_url )
228	#FTP Files have been Loaded
229	print "Org:", org_num, "chrom:", refseq, "[", time.time() - start_time, "seconds elapsed. ]"
230
231	#Create org info file
232	info_file = open( os.path.join( org_dir, "%s.info" % org_num ), 'wb+' )
233	info_file.write("genome project id=%s\n" % org_num )
234	info_file.write("name=%s\n" % name )
235	info_file.write("kingdom=%s\n" % kingdom )
236	info_file.write("group=%s\n" % group )
237	info_file.write("chromosomes=%s\n" % ",".join( chroms ) )
238	info_file.write("info url=%s\n" % info_url )
239	info_file.write("ftp url=%s\n" % ftp_url )
240	info_file.close()
241
242	print "Finished Harvesting", "[", time.time() - start_time, "seconds elapsed. ]"
243	print "[", ( time.time() - start_time )/60, "minutes. ]"
244	print "[", ( time.time() - start_time )/60/60, "hours. ]"
245
246	if __name__ == "__main__": __main__()

Note: リポジトリブラウザについてのヘルプは TracBrowser を参照してください。

Context Navigation

root/galaxy-central/scripts/microbes/harvest_bacteria.py

異なるフォーマットでダウンロード: