Context Navigation

interval.py

リビジョン 2, 64.8 KB (コミッタ: hatakeyama, 15 年前)
import galaxy-central

行番号
1	"""
2	Interval datatypes
3	"""
4
5	import pkg_resources
6	pkg_resources.require( "bx-python" )
7
8	import logging, os, sys, time, tempfile, shutil
9	import data
10	from galaxy import util
11	from galaxy.datatypes.sniff import *
12	from galaxy.web import url_for
13	from cgi import escape
14	import urllib
15	from bx.intervals.io import *
16	from galaxy.datatypes import metadata
17	from galaxy.datatypes.metadata import MetadataElement
18	from galaxy.datatypes.tabular import Tabular
19	import math
20
21	log = logging.getLogger(__name__)
22
23	# Contains the meta columns and the words that map to it; list aliases on the
24	# right side of the : in decreasing order of priority
25	alias_spec = {
26	'chromCol' : [ 'chrom' , 'CHROMOSOME' , 'CHROM', 'Chromosome Name' ],
27	'startCol' : [ 'start' , 'START', 'chromStart', 'txStart', 'Start Position (bp)' ],
28	'endCol' : [ 'end' , 'END' , 'STOP', 'chromEnd', 'txEnd', 'End Position (bp)' ],
29	'strandCol' : [ 'strand', 'STRAND', 'Strand' ],
30	'nameCol' : [ 'name', 'NAME', 'Name', 'name2', 'NAME2', 'Name2', 'Ensembl Gene ID', 'Ensembl Transcript ID', 'Ensembl Peptide ID' ]
31	}
32
33	# a little faster lookup
34	alias_helper = {}
35	for key, value in alias_spec.items():
36	for elem in value:
37	alias_helper[elem] = key
38
39	# Constants for configuring viewport generation: If a line is greater than
40	# VIEWPORT_MAX_READS_PER_LINE * VIEWPORT_READLINE_BUFFER_SIZE bytes in size,
41	# then we will not generate a viewport for that dataset
42	VIEWPORT_READLINE_BUFFER_SIZE = 1048576 # 1MB
43	VIEWPORT_MAX_READS_PER_LINE = 10
44
45	class Interval( Tabular ):
46	"""Tab delimited data containing interval information"""
47	file_ext = "interval"
48
49	"""Add metadata elements"""
50	MetadataElement( name="chromCol", default=1, desc="Chrom column", param=metadata.ColumnParameter )
51	MetadataElement( name="startCol", default=2, desc="Start column", param=metadata.ColumnParameter )
52	MetadataElement( name="endCol", default=3, desc="End column", param=metadata.ColumnParameter )
53	MetadataElement( name="strandCol", desc="Strand column (click box & select)", param=metadata.ColumnParameter, optional=True, no_value=0 )
54	MetadataElement( name="nameCol", desc="Name/Identifier column (click box & select)", param=metadata.ColumnParameter, optional=True, no_value=0 )
55	MetadataElement( name="columns", default=3, desc="Number of columns", readonly=True, visible=False )
56
57	def __init__(self, **kwd):
58	"""Initialize interval datatype, by adding UCSC display apps"""
59	Tabular.__init__(self, **kwd)
60	self.add_display_app ( 'ucsc', 'display at UCSC', 'as_ucsc_display_file', 'ucsc_links' )
61	def init_meta( self, dataset, copy_from=None ):
62	Tabular.init_meta( self, dataset, copy_from=copy_from )
63	def set_peek( self, dataset, line_count=None, is_multi_byte=False ):
64	"""Set the peek and blurb text"""
65	if not dataset.dataset.purged:
66	dataset.peek = data.get_file_peek( dataset.file_name, is_multi_byte=is_multi_byte )
67	if line_count is None:
68	# See if line_count is stored in the metadata
69	if dataset.metadata.data_lines:
70	dataset.blurb = "%s regions" % util.commaify( str( dataset.metadata.data_lines ) )
71	else:
72	# Number of lines is not known ( this should not happen ), and auto-detect is
73	# needed to set metadata
74	dataset.blurb = "? regions"
75	else:
76	dataset.blurb = "%s regions" % util.commaify( str( line_count ) )
77	else:
78	dataset.peek = 'file does not exist'
79	dataset.blurb = 'file purged from disk'
80	def set_meta( self, dataset, overwrite = True, first_line_is_header = False, **kwd ):
81	"""Tries to guess from the line the location number of the column for the chromosome, region start-end and strand"""
82	Tabular.set_meta( self, dataset, overwrite = overwrite, skip = 0 )
83	if dataset.has_data():
84	empty_line_count = 0
85	num_check_lines = 100 # only check up to this many non empty lines
86	for i, line in enumerate( file( dataset.file_name ) ):
87	line = line.rstrip( '\r\n' )
88	if line:
89	if ( first_line_is_header or line[0] == '#' ):
90	self.init_meta( dataset )
91	line = line.strip( '#' )
92	elems = line.split( '\t' )
93	for meta_name, header_list in alias_spec.iteritems():
94	for header_val in header_list:
95	if header_val in elems:
96	#found highest priority header to meta_name
97	setattr( dataset.metadata, meta_name, elems.index( header_val ) + 1 )
98	break #next meta_name
99	break # Our metadata is set, so break out of the outer loop
100	else:
101	# Header lines in Interval files are optional. For example, BED is Interval but has no header.
102	# We'll make a best guess at the location of the metadata columns.
103	metadata_is_set = False
104	elems = line.split( '\t' )
105	if len( elems ) > 2:
106	for str in data.col1_startswith:
107	if line.lower().startswith( str ):
108	if overwrite or not dataset.metadata.element_is_set( 'chromCol' ):
109	dataset.metadata.chromCol = 1
110	try:
111	int( elems[1] )
112	if overwrite or not dataset.metadata.element_is_set( 'startCol' ):
113	dataset.metadata.startCol = 2
114	except:
115	pass # Metadata default will be used
116	try:
117	int( elems[2] )
118	if overwrite or not dataset.metadata.element_is_set( 'endCol' ):
119	dataset.metadata.endCol = 3
120	except:
121	pass # Metadata default will be used
122	#we no longer want to guess that this column is the 'name', name must now be set manually for interval files
123	#we will still guess at the strand, as we can make a more educated guess
124	#if len( elems ) > 3:
125	# try:
126	# int( elems[3] )
127	# except:
128	# if overwrite or not dataset.metadata.element_is_set( 'nameCol' ):
129	# dataset.metadata.nameCol = 4
130	if len( elems ) < 6 or elems[5] not in data.valid_strand:
131	if overwrite or not dataset.metadata.element_is_set( 'strandCol' ):
132	dataset.metadata.strandCol = 0
133	else:
134	if overwrite or not dataset.metadata.element_is_set( 'strandCol' ):
135	dataset.metadata.strandCol = 6
136	metadata_is_set = True
137	break
138	if metadata_is_set or ( i - empty_line_count ) > num_check_lines:
139	break # Our metadata is set or we examined 100 non-empty lines, so break out of the outer loop
140	else:
141	empty_line_count += 1
142	def displayable( self, dataset ):
143	try:
144	return dataset.has_data() \
145	and dataset.state == dataset.states.OK \
146	and dataset.metadata.columns > 0 \
147	and dataset.metadata.data_lines > 0 \
148	and dataset.metadata.chromCol \
149	and dataset.metadata.startCol \
150	and dataset.metadata.endCol
151	except:
152	return False
153
154	def get_estimated_display_viewport( self, dataset, chrom_col = None, start_col = None, end_col = None ):
155	"""Return a chrom, start, stop tuple for viewing a file."""
156	viewport_feature_count = 100 # viewport should check at least 100 features; excludes comment lines
157	max_line_count = max( viewport_feature_count, 500 ) # maximum number of lines to check; includes comment lines
158	if not self.displayable( dataset ):
159	return ( None, None, None )
160	try:
161	# If column indexes were not passwed, determine from metadata
162	if chrom_col is None:
163	chrom_col = int( dataset.metadata.chromCol ) - 1
164	if start_col is None:
165	start_col = int( dataset.metadata.startCol ) - 1
166	if end_col is None:
167	end_col = int( dataset.metadata.endCol ) - 1
168	# Scan lines of file to find a reasonable chromosome and range
169	chrom = None
170	start = sys.maxint
171	end = 0
172	max_col = max( chrom_col, start_col, end_col )
173	fh = open( dataset.file_name )
174	while True:
175	line = fh.readline( VIEWPORT_READLINE_BUFFER_SIZE )
176	# Stop if at end of file
177	if not line:
178	break
179	# Skip comment lines
180	if not line.startswith( '#' ):
181	try:
182	fields = line.rstrip().split( '\t' )
183	if len( fields ) > max_col:
184	if chrom is None or chrom == fields[ chrom_col ]:
185	start = min( start, int( fields[ start_col ] ) )
186	end = max( end, int( fields[ end_col ] ) )
187	# Set chrom last, in case start and end are not integers
188	chrom = fields[ chrom_col ]
189	viewport_feature_count -= 1
190	except Exception, e:
191	# Most likely a non-integer field has been encountered
192	# for start / stop. Just ignore and make sure we finish
193	# reading the line and decrementing the counters.
194	pass
195	# Make sure we are at the next new line
196	readline_count = VIEWPORT_MAX_READS_PER_LINE
197	while line.rstrip( '\n\r' ) == line:
198	assert readline_count > 0, Exception( 'Viewport readline count exceeded for dataset %s.' % dataset.id )
199	line = fh.readline( VIEWPORT_READLINE_BUFFER_SIZE )
200	if not line: break #EOF
201	readline_count -= 1
202	max_line_count -= 1
203	if not viewport_feature_count or not max_line_count:
204	#exceeded viewport or total line count to check
205	break
206	if chrom is not None:
207	return ( chrom, str( start ), str( end ) ) # Necessary to return strings?
208	except Exception, e:
209	# Unexpected error, possibly missing metadata
210	log.exception( "Exception caught attempting to generate viewport for dataset '%d'", dataset.id )
211	return ( None, None, None )
212
213	def as_ucsc_display_file( self, dataset, **kwd ):
214	"""Returns file contents with only the bed data"""
215	fd, temp_name = tempfile.mkstemp()
216	c, s, e, t, n = dataset.metadata.chromCol, dataset.metadata.startCol, dataset.metadata.endCol, dataset.metadata.strandCol or 0, dataset.metadata.nameCol or 0
217	c, s, e, t, n = int(c)-1, int(s)-1, int(e)-1, int(t)-1, int(n)-1
218	if t >= 0: # strand column (should) exists
219	for i, elems in enumerate( util.file_iter(dataset.file_name) ):
220	strand = "+"
221	name = "region_%i" % i
222	if n >= 0 and n < len( elems ): name = elems[n]
223	if t<len(elems): strand = elems[t]
224	tmp = [ elems[c], elems[s], elems[e], name, '0', strand ]
225	os.write(fd, '%s\n' % '\t'.join(tmp) )
226	elif n >= 0: # name column (should) exists
227	for i, elems in enumerate( util.file_iter(dataset.file_name) ):
228	name = "region_%i" % i
229	if n >= 0 and n < len( elems ): name = elems[n]
230	tmp = [ elems[c], elems[s], elems[e], name ]
231	os.write(fd, '%s\n' % '\t'.join(tmp) )
232	else:
233	for elems in util.file_iter(dataset.file_name):
234	tmp = [ elems[c], elems[s], elems[e] ]
235	os.write(fd, '%s\n' % '\t'.join(tmp) )
236	os.close(fd)
237	return open(temp_name)
238	def make_html_table( self, dataset, skipchars=[] ):
239	"""Create HTML table, used for displaying peek"""
240	out = ['<table cellspacing="0" cellpadding="3">']
241	comments = []
242	try:
243	# Generate column header
244	out.append('<tr>')
245	for i in range( 1, dataset.metadata.columns+1 ):
246	if i == dataset.metadata.chromCol:
247	out.append( '<th>%s.Chrom</th>' % i )
248	elif i == dataset.metadata.startCol:
249	out.append( '<th>%s.Start</th>' % i )
250	elif i == dataset.metadata.endCol:
251	out.append( '<th>%s.End</th>' % i )
252	elif dataset.metadata.strandCol and i == dataset.metadata.strandCol:
253	out.append( '<th>%s.Strand</th>' % i )
254	elif dataset.metadata.nameCol and i == dataset.metadata.nameCol:
255	out.append( '<th>%s.Name</th>' % i )
256	else:
257	out.append( '<th>%s</th>' % i )
258	out.append('</tr>')
259	out.append( self.make_html_peek_rows( dataset, skipchars=skipchars ) )
260	out.append( '</table>' )
261	out = "".join( out )
262	except Exception, exc:
263	out = "Can't create peek %s" % str( exc )
264	return out
265	def ucsc_links( self, dataset, type, app, base_url ):
266	"""
267	Generate links to UCSC genome browser sites based on the dbkey
268	and content of dataset.
269	"""
270	# Filter UCSC sites to only those that are supported by this build and
271	# enabled.
272	valid_sites = [ ( name, url )
273	for name, url in util.get_ucsc_by_build( dataset.dbkey )
274	if name in app.config.ucsc_display_sites ]
275	if not valid_sites:
276	return []
277	# If there are any valid sites, we need to generate the estimated
278	# viewport
279	chrom, start, stop = self.get_estimated_display_viewport( dataset )
280	if chrom is None:
281	return []
282	# Accumulate links for valid sites
283	ret_val = []
284	for site_name, site_url in valid_sites:
285	internal_url = url_for( controller='/dataset', dataset_id=dataset.id,
286	action='display_at', filename='ucsc_' + site_name )
287	# HACK: UCSC doesn't support https, so force http even if our URL
288	# scheme is https. Making this work requires additional
289	# hackery in your upstream proxy. If UCSC ever supports
290	# https, remove this hack.
291	if base_url.startswith( 'https://' ):
292	base_url = base_url.replace( 'https', 'http', 1 )
293	display_url = urllib.quote_plus( "%s%s/display_as?id=%i&display_app=%s&authz_method=display_at"
294	% (base_url, url_for( controller='root' ), dataset.id, type) )
295	redirect_url = urllib.quote_plus( "%sdb=%s&position=%s:%s-%s&hgt.customText=%%s"
296	% (site_url, dataset.dbkey, chrom, start, stop ) )
297	link = '%s?redirect_url=%s&display_url=%s' % ( internal_url, redirect_url, display_url )
298	ret_val.append( ( site_name, link ) )
299	return ret_val
300	def validate( self, dataset ):
301	"""Validate an interval file using the bx GenomicIntervalReader"""
302	errors = list()
303	c, s, e, t = dataset.metadata.chromCol, dataset.metadata.startCol, dataset.metadata.endCol, dataset.metadata.strandCol
304	c, s, e, t = int(c)-1, int(s)-1, int(e)-1, int(t)-1
305	infile = open(dataset.file_name, "r")
306	reader = GenomicIntervalReader(
307	infile,
308	chrom_col = c,
309	start_col = s,
310	end_col = e,
311	strand_col = t)
312
313	while True:
314	try:
315	reader.next()
316	except ParseError, e:
317	errors.append(e)
318	except StopIteration:
319	infile.close()
320	return errors
321
322	def repair_methods( self, dataset ):
323	"""Return options for removing errors along with a description"""
324	return [("lines","Remove erroneous lines")]
325
326	def sniff( self, filename ):
327	"""
328	Checks for 'intervalness'
329
330	This format is mostly used by galaxy itself. Valid interval files should include
331	a valid header comment, but this seems to be loosely regulated.
332
333	>>> fname = get_test_fname( 'test_space.txt' )
334	>>> Interval().sniff( fname )
335	False
336	>>> fname = get_test_fname( 'interval.interval' )
337	>>> Interval().sniff( fname )
338	True
339	"""
340	headers = get_headers( filename, '\t' )
341	try:
342	"""
343	If we got here, we already know the file is_column_based and is not bed,
344	so we'll just look for some valid data.
345	"""
346	for hdr in headers:
347	if hdr and not hdr[0].startswith( '#' ):
348	if len(hdr) < 3:
349	return False
350	try:
351	# Assume chrom start and end are in column positions 1 and 2
352	# respectively ( for 0 based columns )
353	check = int( hdr[1] )
354	check = int( hdr[2] )
355	except:
356	return False
357	return True
358	except:
359	return False
360
361	def get_track_window(self, dataset, data, start, end):
362	"""
363	Assumes the incoming track data is sorted already.
364	"""
365	window = list()
366	for record in data:
367	fields = record.rstrip("\n\r").split("\t")
368	record_chrom = fields[dataset.metadata.chromCol-1]
369	record_start = int(fields[dataset.metadata.startCol-1])
370	record_end = int(fields[dataset.metadata.endCol-1])
371	if record_start < end and record_end > start:
372	window.append( (record_chrom, record_start, record_end) ) #Yes I did want to use a generator here, but it doesn't work downstream
373	return window
374
375	def get_track_resolution( self, dataset, start, end):
376	return None
377
378	class BedGraph( Interval ):
379	"""Tab delimited chrom/start/end/datavalue dataset"""
380
381	file_ext = "bedgraph"
382
383	def get_track_type( self ):
384	return "LineTrack", {"data": "array_tree"}
385
386	def as_ucsc_display_file( self, dataset, **kwd ):
387	"""
388	Returns file contents as is with no modifications.
389	TODO: this is a functional stub and will need to be enhanced moving forward to provide additional support for bedgraph.
390	"""
391	return open( dataset.file_name )
392
393	def get_estimated_display_viewport( self, dataset, chrom_col = 0, start_col = 1, end_col = 2 ):
394	"""
395	Set viewport based on dataset's first 100 lines.
396	"""
397	return Interval.get_estimated_display_viewport( self, dataset, chrom_col = chrom_col, start_col = start_col, end_col = end_col )
398
399	class Bed( Interval ):
400	"""Tab delimited data in BED format"""
401	file_ext = "bed"
402
403	"""Add metadata elements"""
404	MetadataElement( name="chromCol", default=1, desc="Chrom column", param=metadata.ColumnParameter )
405	MetadataElement( name="startCol", default=2, desc="Start column", param=metadata.ColumnParameter )
406	MetadataElement( name="endCol", default=3, desc="End column", param=metadata.ColumnParameter )
407	MetadataElement( name="strandCol", desc="Strand column (click box & select)", param=metadata.ColumnParameter, optional=True, no_value=0 )
408	MetadataElement( name="columns", default=3, desc="Number of columns", readonly=True, visible=False )
409	MetadataElement( name="viz_filter_cols", default=[4], param=metadata.ColumnParameter, multiple=True )
410	###do we need to repeat these? they are the same as should be inherited from interval type
411
412	def set_meta( self, dataset, overwrite = True, **kwd ):
413	"""Sets the metadata information for datasets previously determined to be in bed format."""
414	i = 0
415	if dataset.has_data():
416	for i, line in enumerate( file(dataset.file_name) ):
417	metadata_set = False
418	line = line.rstrip('\r\n')
419	if line and not line.startswith('#'):
420	elems = line.split('\t')
421	if len(elems) > 2:
422	for startswith in data.col1_startswith:
423	if line.lower().startswith( startswith ):
424	if len( elems ) > 3:
425	if overwrite or not dataset.metadata.element_is_set( 'nameCol' ):
426	dataset.metadata.nameCol = 4
427	if len(elems) < 6:
428	if overwrite or not dataset.metadata.element_is_set( 'strandCol' ):
429	dataset.metadata.strandCol = 0
430	else:
431	if overwrite or not dataset.metadata.element_is_set( 'strandCol' ):
432	dataset.metadata.strandCol = 6
433	metadata_set = True
434	break
435	if metadata_set: break
436	Tabular.set_meta( self, dataset, overwrite = overwrite, skip = i )
437
438	def as_ucsc_display_file( self, dataset, **kwd ):
439	"""Returns file contents with only the bed data. If bed 6+, treat as interval."""
440	for line in open(dataset.file_name):
441	line = line.strip()
442	if line == "" or line.startswith("#"):
443	continue
444	fields = line.split('\t')
445	"""check to see if this file doesn't conform to strict genome browser accepted bed"""
446	try:
447	if len(fields) > 12:
448	return Interval.as_ucsc_display_file(self, dataset) #too many fields
449	if len(fields) > 6:
450	int(fields[6])
451	if len(fields) > 7:
452	int(fields[7])
453	if len(fields) > 8:
454	if int(fields[8]) != 0:
455	return Interval.as_ucsc_display_file(self, dataset)
456	if len(fields) > 9:
457	int(fields[9])
458	if len(fields) > 10:
459	fields2 = fields[10].rstrip(",").split(",") #remove trailing comma and split on comma
460	for field in fields2:
461	int(field)
462	if len(fields) > 11:
463	fields2 = fields[11].rstrip(",").split(",") #remove trailing comma and split on comma
464	for field in fields2:
465	int(field)
466	except: return Interval.as_ucsc_display_file(self, dataset)
467	#only check first line for proper form
468	break
469
470	try: return open(dataset.file_name)
471	except: return "This item contains no content"
472
473	def sniff( self, filename ):
474	"""
475	Checks for 'bedness'
476
477	BED lines have three required fields and nine additional optional fields.
478	The number of fields per line must be consistent throughout any single set of data in
479	an annotation track. The order of the optional fields is binding: lower-numbered
480	fields must always be populated if higher-numbered fields are used. The data type of
481	all 12 columns is:
482	1-str, 2-int, 3-int, 4-str, 5-int, 6-str, 7-int, 8-int, 9-int or list, 10-int, 11-list, 12-list
483
484	For complete details see http://genome.ucsc.edu/FAQ/FAQformat#format1
485
486	>>> fname = get_test_fname( 'test_tab.bed' )
487	>>> Bed().sniff( fname )
488	True
489	>>> fname = get_test_fname( 'interval1.bed' )
490	>>> Bed().sniff( fname )
491	True
492	>>> fname = get_test_fname( 'complete.bed' )
493	>>> Bed().sniff( fname )
494	True
495	"""
496	headers = get_headers( filename, '\t' )
497	try:
498	if not headers: return False
499	for hdr in headers:
500	if (hdr[0] == '' or hdr[0].startswith( '#' )):
501	continue
502	valid_col1 = False
503	if len(hdr) < 3 or len(hdr) > 12:
504	return False
505	for str in data.col1_startswith:
506	if hdr[0].lower().startswith(str):
507	valid_col1 = True
508	break
509	if valid_col1:
510	try:
511	int( hdr[1] )
512	int( hdr[2] )
513	except:
514	return False
515	if len( hdr ) > 4:
516	#hdr[3] is a string, 'name', which defines the name of the BED line - difficult to test for this.
517	#hdr[4] is an int, 'score', a score between 0 and 1000.
518	try:
519	if int( hdr[4] ) < 0 or int( hdr[4] ) > 1000: return False
520	except:
521	return False
522	if len( hdr ) > 5:
523	#hdr[5] is strand
524	if hdr[5] not in data.valid_strand: return False
525	if len( hdr ) > 6:
526	#hdr[6] is thickStart, the starting position at which the feature is drawn thickly.
527	try: int( hdr[6] )
528	except: return False
529	if len( hdr ) > 7:
530	#hdr[7] is thickEnd, the ending position at which the feature is drawn thickly
531	try: int( hdr[7] )
532	except: return False
533	if len( hdr ) > 8:
534	#hdr[8] is itemRgb, an RGB value of the form R,G,B (e.g. 255,0,0). However, this could also be an int (e.g., 0)
535	try: int( hdr[8] )
536	except:
537	try: hdr[8].split(',')
538	except: return False
539	if len( hdr ) > 9:
540	#hdr[9] is blockCount, the number of blocks (exons) in the BED line.
541	try: block_count = int( hdr[9] )
542	except: return False
543	if len( hdr ) > 10:
544	#hdr[10] is blockSizes - A comma-separated list of the block sizes.
545	#Sometimes the blosck_sizes and block_starts lists end in extra commas
546	try: block_sizes = hdr[10].rstrip(',').split(',')
547	except: return False
548	if len( hdr ) > 11:
549	#hdr[11] is blockStarts - A comma-separated list of block starts.
550	try: block_starts = hdr[11].rstrip(',').split(',')
551	except: return False
552	if len(block_sizes) != block_count or len(block_starts) != block_count: return False
553	else: return False
554	return True
555	except: return False
556
557	def get_track_type( self ):
558	return "FeatureTrack", {"data": "interval_index", "index": "summary_tree"}
559
560	class BedStrict( Bed ):
561	"""Tab delimited data in strict BED format - no non-standard columns allowed"""
562
563	file_ext = "bedstrict"
564
565	#no user change of datatype allowed
566	allow_datatype_change = False
567
568	#Read only metadata elements
569	MetadataElement( name="chromCol", default=1, desc="Chrom column", readonly=True, param=metadata.MetadataParameter )
570	MetadataElement( name="startCol", default=2, desc="Start column", readonly=True, param=metadata.MetadataParameter ) #TODO: start and end should be able to be set to these or the proper thick[start/end]?
571	MetadataElement( name="endCol", default=3, desc="End column", readonly=True, param=metadata.MetadataParameter )
572	MetadataElement( name="strandCol", desc="Strand column (click box & select)", readonly=True, param=metadata.MetadataParameter, no_value=0, optional=True )
573	MetadataElement( name="nameCol", desc="Name/Identifier column (click box & select)", readonly=True, param=metadata.MetadataParameter, no_value=0, optional=True )
574	MetadataElement( name="columns", default=3, desc="Number of columns", readonly=True, visible=False )
575
576	def __init__( self, **kwd ):
577	Tabular.__init__( self, **kwd )
578	self.clear_display_apps() #only new style display applications for this datatype
579
580	def set_meta( self, dataset, overwrite = True, **kwd ):
581	Tabular.set_meta( self, dataset, overwrite = overwrite, **kwd) #need column count first
582	if dataset.metadata.columns >= 4:
583	dataset.metadata.nameCol = 4
584	if dataset.metadata.columns >= 6:
585	dataset.metadata.strandCol = 6
586
587	def sniff( self, filename ):
588	return False #NOTE: This would require aggressively validating the entire file
589
590	class Bed6( BedStrict ):
591	"""Tab delimited data in strict BED format - no non-standard columns allowed; column count forced to 6"""
592
593	file_ext = "bed6"
594
595	class Bed12( BedStrict ):
596	"""Tab delimited data in strict BED format - no non-standard columns allowed; column count forced to 12"""
597
598	file_ext = "bed12"
599
600	class _RemoteCallMixin:
601	def _get_remote_call_url( self, redirect_url, site_name, dataset, type, app, base_url ):
602	"""Retrieve the URL to call out to an external site and retrieve data.
603	This routes our external URL through a local galaxy instance which makes
604	the data available, followed by redirecting to the remote site with a
605	link back to the available information.
606	"""
607	internal_url = "%s" % url_for( controller='dataset', dataset_id=dataset.id, action='display_at', filename='%s_%s' % ( type, site_name ) )
608	base_url = app.config.get( "display_at_callback", base_url )
609	if base_url.startswith( 'https://' ):
610	base_url = base_url.replace( 'https', 'http', 1 )
611	display_url = urllib.quote_plus( "%s%s/display_as?id=%i&display_app=%s&authz_method=display_at" % \
612	( base_url, url_for( controller='root' ), dataset.id, type ) )
613	link = '%s?redirect_url=%s&display_url=%s' % ( internal_url, redirect_url, display_url )
614	return link
615
616	class Gff( Tabular, _RemoteCallMixin ):
617	"""Tab delimited data in Gff format"""
618	file_ext = "gff"
619	column_names = [ 'Seqname', 'Source', 'Feature', 'Start', 'End', 'Score', 'Strand', 'Frame', 'Group' ]
620
621	"""Add metadata elements"""
622	MetadataElement( name="columns", default=9, desc="Number of columns", readonly=True, visible=False )
623	MetadataElement( name="column_types", default=['str','str','str','int','int','int','str','str','str'], param=metadata.ColumnTypesParameter, desc="Column types", readonly=True, visible=False )
624
625	def __init__( self, **kwd ):
626	"""Initialize datatype, by adding GBrowse display app"""
627	Tabular.__init__(self, **kwd)
628	self.add_display_app( 'ucsc', 'display at UCSC', 'as_ucsc_display_file', 'ucsc_links' )
629	self.add_display_app( 'gbrowse', 'display in Gbrowse', 'as_gbrowse_display_file', 'gbrowse_links' )
630	def set_meta( self, dataset, overwrite = True, **kwd ):
631	i = 0
632	for i, line in enumerate( file ( dataset.file_name ) ):
633	line = line.rstrip('\r\n')
634	if line and not line.startswith( '#' ):
635	elems = line.split( '\t' )
636	if len(elems) == 9:
637	try:
638	int( elems[3] )
639	int( elems[4] )
640	break
641	except:
642	pass
643	Tabular.set_meta( self, dataset, overwrite = overwrite, skip = i )
644	def make_html_table( self, dataset, skipchars=[] ):
645	"""Create HTML table, used for displaying peek"""
646	out = ['<table cellspacing="0" cellpadding="3">']
647	comments = []
648	try:
649	# Generate column header
650	out.append( '<tr>' )
651	for i, name in enumerate( self.column_names ):
652	out.append( '<th>%s.%s</th>' % ( str( i+1 ), name ) )
653	out.append( self.make_html_peek_rows( dataset, skipchars=skipchars ) )
654	out.append( '</table>' )
655	out = "".join( out )
656	except Exception, exc:
657	out = "Can't create peek %s" % exc
658	return out
659	def get_estimated_display_viewport( self, dataset ):
660	"""
661	Return a chrom, start, stop tuple for viewing a file. There are slight differences between gff 2 and gff 3
662	formats. This function should correctly handle both...
663	"""
664	viewport_feature_count = 100 # viewport should check at least 100 features; excludes comment lines
665	max_line_count = max( viewport_feature_count, 500 ) # maximum number of lines to check; includes comment lines
666	if self.displayable( dataset ):
667	try:
668	seqid = None
669	start = sys.maxint
670	stop = 0
671	fh = open( dataset.file_name )
672	while True:
673	line = fh.readline( VIEWPORT_READLINE_BUFFER_SIZE )
674	if not line: break #EOF
675	try:
676	if line.startswith( '##sequence-region' ): # ##sequence-region IV 6000000 6030000
677	elems = line.rstrip( '\n\r' ).split()
678	if len( elems ) > 3:
679	# line looks like:
680	# ##sequence-region ctg123 1 1497228
681	seqid = elems[1] # IV
682	start = int( elems[2] )# 6000000
683	stop = int( elems[3] ) # 6030000
684	break #use location declared in file
685	elif len( elems ) == 2 and elems[1].find( '..' ) > 0:
686	# line looks like this:
687	# ##sequence-region X:120000..140000
688	elems = elems[1].split( ':' )
689	seqid = elems[0]
690	start = int( elems[1].split( '..' )[0] )
691	stop = int( elems[1].split( '..' )[1] )
692	break #use location declared in file
693	else:
694	log.exception( "line (%s) uses an unsupported ##sequence-region definition." % str( line ) )
695	#break #no break, if bad definition, we try another method
696	elif line.startswith("browser position"):
697	# Allow UCSC style browser and track info in the GFF file
698	pos_info = line.split()[-1]
699	seqid, startend = pos_info.split(":")
700	start, stop = map( int, startend.split("-") )
701	break #use location declared in file
702	elif True not in map( line.startswith, ( '#', 'track', 'browser' ) ):# line.startswith() does not accept iterator in python2.4
703	viewport_feature_count -= 1
704	elems = line.rstrip( '\n\r' ).split( '\t' )
705	if len( elems ) > 3:
706	if not seqid:
707	# We can only set the viewport for a single chromosome
708	seqid = elems[0]
709	if seqid == elems[0]:
710	# Make sure we have not spanned chromosomes
711	start = min( start, int( elems[3] ) )
712	stop = max( stop, int( elems[4] ) )
713	except:
714	#most likely start/stop is not an int or not enough fields
715	pass
716	#make sure we are at the next new line
717	readline_count = VIEWPORT_MAX_READS_PER_LINE
718	while line.rstrip( '\n\r' ) == line:
719	assert readline_count > 0, Exception( 'Viewport readline count exceeded for dataset %s.' % dataset.id )
720	line = fh.readline( VIEWPORT_READLINE_BUFFER_SIZE )
721	if not line: break #EOF
722	readline_count -= 1
723	max_line_count -= 1
724	if not viewport_feature_count or not max_line_count:
725	#exceeded viewport or total line count to check
726	break
727	if seqid is not None:
728	return ( seqid, str( start ), str( stop ) ) #Necessary to return strings?
729	except Exception, e:
730	#unexpected error
731	log.exception( str( e ) )
732	return ( None, None, None ) #could not determine viewport
733	def ucsc_links( self, dataset, type, app, base_url ):
734	ret_val = []
735	seqid, start, stop = self.get_estimated_display_viewport( dataset )
736	if seqid is not None:
737	for site_name, site_url in util.get_ucsc_by_build( dataset.dbkey ):
738	if site_name in app.config.ucsc_display_sites:
739	redirect_url = urllib.quote_plus(
740	"%sdb=%s&position=%s:%s-%s&hgt.customText=%%s" %
741	( site_url, dataset.dbkey, seqid, start, stop ) )
742	link = self._get_remote_call_url( redirect_url, site_name, dataset, type, app, base_url )
743	ret_val.append( ( site_name, link ) )
744	return ret_val
745	def gbrowse_links( self, dataset, type, app, base_url ):
746	ret_val = []
747	seqid, start, stop = self.get_estimated_display_viewport( dataset )
748	if seqid is not None:
749	for site_name, site_url in util.get_gbrowse_sites_by_build( dataset.dbkey ):
750	if site_name in app.config.gbrowse_display_sites:
751	if seqid.startswith( 'chr' ) and len ( seqid ) > 3:
752	seqid = seqid[3:]
753	redirect_url = urllib.quote_plus( "%s/?q=%s:%s..%s&eurl=%%s" % ( site_url, seqid, start, stop ) )
754	link = self._get_remote_call_url( redirect_url, site_name, dataset, type, app, base_url )
755	ret_val.append( ( site_name, link ) )
756	return ret_val
757	def sniff( self, filename ):
758	"""
759	Determines whether the file is in gff format
760
761	GFF lines have nine required fields that must be tab-separated.
762
763	For complete details see http://genome.ucsc.edu/FAQ/FAQformat#format3
764
765	>>> fname = get_test_fname( 'gff_version_3.gff' )
766	>>> Gff().sniff( fname )
767	False
768	>>> fname = get_test_fname( 'test.gff' )
769	>>> Gff().sniff( fname )
770	True
771	"""
772	headers = get_headers( filename, '\t' )
773	try:
774	if len(headers) < 2:
775	return False
776	for hdr in headers:
777	if hdr and hdr[0].startswith( '##gff-version' ) and hdr[0].find( '2' ) < 0:
778	return False
779	if hdr and hdr[0] and not hdr[0].startswith( '#' ):
780	if len(hdr) != 9:
781	return False
782	try:
783	int( hdr[3] )
784	int( hdr[4] )
785	except:
786	return False
787	if hdr[5] != '.':
788	try:
789	score = float( hdr[5] )
790	except:
791	return False
792	if hdr[6] not in data.valid_strand:
793	return False
794	return True
795	except:
796	return False
797
798	def get_track_type( self ):
799	return "FeatureTrack", {"data": "interval_index", "index": "summary_tree"}
800
801
802	class Gff3( Gff ):
803	"""Tab delimited data in Gff3 format"""
804	file_ext = "gff3"
805	valid_gff3_strand = ['+', '-', '.', '?']
806	valid_gff3_phase = ['.', '0', '1', '2']
807	column_names = [ 'Seqid', 'Source', 'Type', 'Start', 'End', 'Score', 'Strand', 'Phase', 'Attributes' ]
808
809	"""Add metadata elements"""
810	MetadataElement( name="column_types", default=['str','str','str','int','int','float','str','int','list'], param=metadata.ColumnTypesParameter, desc="Column types", readonly=True, visible=False )
811
812	def __init__(self, **kwd):
813	"""Initialize datatype, by adding GBrowse display app"""
814	Gff.__init__(self, **kwd)
815	def set_meta( self, dataset, overwrite = True, **kwd ):
816	i = 0
817	for i, line in enumerate( file ( dataset.file_name ) ):
818	line = line.rstrip('\r\n')
819	if line and not line.startswith( '#' ):
820	elems = line.split( '\t' )
821	valid_start = False
822	valid_end = False
823	if len( elems ) == 9:
824	try:
825	start = int( elems[3] )
826	valid_start = True
827	except:
828	if elems[3] == '.':
829	valid_start = True
830	try:
831	end = int( elems[4] )
832	valid_end = True
833	except:
834	if elems[4] == '.':
835	valid_end = True
836	strand = elems[6]
837	phase = elems[7]
838	if valid_start and valid_end and start < end and strand in self.valid_gff3_strand and phase in self.valid_gff3_phase:
839	break
840	Tabular.set_meta( self, dataset, overwrite = overwrite, skip = i )
841	def sniff( self, filename ):
842	"""
843	Determines whether the file is in gff version 3 format
844
845	GFF 3 format:
846
847	1) adds a mechanism for representing more than one level
848	of hierarchical grouping of features and subfeatures.
849	2) separates the ideas of group membership and feature name/id
850	3) constrains the feature type field to be taken from a controlled
851	vocabulary.
852	4) allows a single feature, such as an exon, to belong to more than
853	one group at a time.
854	5) provides an explicit convention for pairwise alignments
855	6) provides an explicit convention for features that occupy disjunct regions
856
857	The format consists of 9 columns, separated by tabs (NOT spaces).
858
859	Undefined fields are replaced with the "." character, as described in the original GFF spec.
860
861	For complete details see http://song.sourceforge.net/gff3.shtml
862
863	>>> fname = get_test_fname( 'test.gff' )
864	>>> Gff3().sniff( fname )
865	False
866	>>> fname = get_test_fname('gff_version_3.gff')
867	>>> Gff3().sniff( fname )
868	True
869	"""
870	headers = get_headers( filename, '\t' )
871	try:
872	if len(headers) < 2:
873	return False
874	for hdr in headers:
875	if hdr and hdr[0].startswith( '##gff-version' ) and hdr[0].find( '3' ) >= 0:
876	return True
877	elif hdr and hdr[0].startswith( '##gff-version' ) and hdr[0].find( '3' ) < 0:
878	return False
879	# Header comments may have been stripped, so inspect the data
880	if hdr and hdr[0] and not hdr[0].startswith( '#' ):
881	if len(hdr) != 9:
882	return False
883	try:
884	int( hdr[3] )
885	except:
886	if hdr[3] != '.':
887	return False
888	try:
889	int( hdr[4] )
890	except:
891	if hdr[4] != '.':
892	return False
893	if hdr[5] != '.':
894	try:
895	score = float( hdr[5] )
896	except:
897	return False
898	if hdr[6] not in self.valid_gff3_strand:
899	return False
900	if hdr[7] not in self.valid_gff3_phase:
901	return False
902	return True
903	except:
904	return False
905
906	class Gtf( Gff ):
907	"""Tab delimited data in Gtf format"""
908	file_ext = "gtf"
909	column_names = [ 'Seqname', 'Source', 'Feature', 'Start', 'End', 'Score', 'Strand', 'Frame', 'Attributes' ]
910
911	"""Add metadata elements"""
912	MetadataElement( name="columns", default=9, desc="Number of columns", readonly=True, visible=False )
913	MetadataElement( name="column_types", default=['str','str','str','int','int','float','str','int','list'], param=metadata.ColumnTypesParameter, desc="Column types", readonly=True, visible=False )
914
915
916	def sniff( self, filename ):
917	"""
918	Determines whether the file is in gtf format
919
920	GTF lines have nine required fields that must be tab-separated. The first eight GTF fields are the same as GFF.
921	The group field has been expanded into a list of attributes. Each attribute consists of a type/value pair.
922	Attributes must end in a semi-colon, and be separated from any following attribute by exactly one space.
923	The attribute list must begin with the two mandatory attributes:
924
925	gene_id value - A globally unique identifier for the genomic source of the sequence.
926	transcript_id value - A globally unique identifier for the predicted transcript.
927
928	For complete details see http://genome.ucsc.edu/FAQ/FAQformat#format4
929
930	>>> fname = get_test_fname( '1.bed' )
931	>>> Gtf().sniff( fname )
932	False
933	>>> fname = get_test_fname( 'test.gff' )
934	>>> Gtf().sniff( fname )
935	False
936	>>> fname = get_test_fname( 'test.gtf' )
937	>>> Gtf().sniff( fname )
938	True
939	"""
940	headers = get_headers( filename, '\t' )
941	try:
942	if len(headers) < 2:
943	return False
944	for hdr in headers:
945	if hdr and hdr[0].startswith( '##gff-version' ) and hdr[0].find( '2' ) < 0:
946	return False
947	if hdr and hdr[0] and not hdr[0].startswith( '#' ):
948	if len(hdr) != 9:
949	return False
950	try:
951	int( hdr[3] )
952	int( hdr[4] )
953	except:
954	return False
955	if hdr[5] != '.':
956	try:
957	score = float( hdr[5] )
958	except:
959	return False
960	if hdr[6] not in data.valid_strand:
961	return False
962
963	# Check attributes for gene_id, transcript_id
964	attributes = hdr[8].split(";")
965	if len( attributes ) >= 2:
966	try:
967	# Imprecise: should check for a single space per the spec.
968	attr_name, attr_value = attributes[0].split(" ")
969	if attr_name != 'gene_id':
970	return False
971	except:
972	return False
973	try:
974	# Imprecise: should check for a single space per the spec.
975	attr_name, attr_value = attributes[1][1:].split(" ")
976	if attr_name != 'transcript_id':
977	return False
978	except:
979	return False
980	else:
981	return False
982	return True
983	except:
984	return False
985
986
987	class Wiggle( Tabular, _RemoteCallMixin ):
988	"""Tab delimited data in wiggle format"""
989	file_ext = "wig"
990
991	MetadataElement( name="columns", default=3, desc="Number of columns", readonly=True, visible=False )
992
993	def __init__( self, **kwd ):
994	Tabular.__init__( self, **kwd )
995	self.add_display_app( 'ucsc', 'display at UCSC', 'as_ucsc_display_file', 'ucsc_links' )
996	self.add_display_app( 'gbrowse', 'display in Gbrowse', 'as_gbrowse_display_file', 'gbrowse_links' )
997	def get_estimated_display_viewport( self, dataset ):
998	"""Return a chrom, start, stop tuple for viewing a file."""
999	viewport_feature_count = 100 # viewport should check at least 100 features; excludes comment lines
1000	max_line_count = max( viewport_feature_count, 500 ) # maximum number of lines to check; includes comment lines
1001	if self.displayable( dataset ):
1002	try:
1003	chrom = None
1004	start = sys.maxint
1005	end = 0
1006	span = 1
1007	step = None
1008	fh = open( dataset.file_name )
1009	while True:
1010	line = fh.readline( VIEWPORT_READLINE_BUFFER_SIZE )
1011	if not line: break #EOF
1012	try:
1013	if line.startswith( "browser" ):
1014	chr_info = line.rstrip( '\n\r' ).split()[-1]
1015	chrom, coords = chr_info.split( ":" )
1016	start, end = map( int, coords.split( "-" ) )
1017	break # use the browser line
1018	# variableStep chrom=chr20
1019	if line and ( line.lower().startswith( "variablestep" ) or line.lower().startswith( "fixedstep" ) ):
1020	if chrom is not None: break #different chrom or different section of the chrom
1021	chrom = line.rstrip( '\n\r' ).split("chrom=")[1].split()[0]
1022	if 'span=' in line:
1023	span = int( line.rstrip( '\n\r' ).split("span=")[1].split()[0] )
1024	if 'step=' in line:
1025	step = int( line.rstrip( '\n\r' ).split("step=")[1].split()[0] )
1026	start = int( line.rstrip( '\n\r' ).split("start=")[1].split()[0] )
1027	else:
1028	fields = line.rstrip( '\n\r' ).split()
1029	if fields:
1030	if step is not None:
1031	if not end:
1032	end = start + span
1033	else:
1034	end += step
1035	else:
1036	start = min( int( fields[0] ), start )
1037	end = max( end, int( fields[0] ) + span )
1038	viewport_feature_count -= 1
1039	except:
1040	pass
1041	#make sure we are at the next new line
1042	readline_count = VIEWPORT_MAX_READS_PER_LINE
1043	while line.rstrip( '\n\r' ) == line:
1044	assert readline_count > 0, Exception( 'Viewport readline count exceeded for dataset %s.' % dataset.id )
1045	line = fh.readline( VIEWPORT_READLINE_BUFFER_SIZE )
1046	if not line: break #EOF
1047	readline_count -= 1
1048	max_line_count -= 1
1049	if not viewport_feature_count or not max_line_count:
1050	#exceeded viewport or total line count to check
1051	break
1052	if chrom is not None:
1053	return ( chrom, str( start ), str( end ) ) #Necessary to return strings?
1054	except Exception, e:
1055	#unexpected error
1056	log.exception( str( e ) )
1057	return ( None, None, None ) #could not determine viewport
1058	def gbrowse_links( self, dataset, type, app, base_url ):
1059	ret_val = []
1060	chrom, start, stop = self.get_estimated_display_viewport( dataset )
1061	if chrom is not None:
1062	for site_name, site_url in util.get_gbrowse_sites_by_build( dataset.dbkey ):
1063	if site_name in app.config.gbrowse_display_sites:
1064	if chrom.startswith( 'chr' ) and len ( chrom ) > 3:
1065	chrom = chrom[3:]
1066	redirect_url = urllib.quote_plus( "%s/?q=%s:%s..%s&eurl=%%s" % ( site_url, chrom, start, stop ) )
1067	link = self._get_remote_call_url( redirect_url, site_name, dataset, type, app, base_url )
1068	ret_val.append( ( site_name, link ) )
1069	return ret_val
1070	def ucsc_links( self, dataset, type, app, base_url ):
1071	ret_val = []
1072	chrom, start, stop = self.get_estimated_display_viewport( dataset )
1073	if chrom is not None:
1074	for site_name, site_url in util.get_ucsc_by_build( dataset.dbkey ):
1075	if site_name in app.config.ucsc_display_sites:
1076	redirect_url = urllib.quote_plus( "%sdb=%s&position=%s:%s-%s&hgt.customText=%%s" % ( site_url, dataset.dbkey, chrom, start, stop ) )
1077	link = self._get_remote_call_url( redirect_url, site_name, dataset, type, app, base_url )
1078	ret_val.append( ( site_name, link ) )
1079	return ret_val
1080	def make_html_table( self, dataset ):
1081	return Tabular.make_html_table( self, dataset, skipchars=['track', '#'] )
1082	def set_meta( self, dataset, overwrite = True, **kwd ):
1083	max_data_lines = None
1084	i = 0
1085	for i, line in enumerate( file ( dataset.file_name ) ):
1086	line = line.rstrip('\r\n')
1087	if line and not line.startswith( '#' ):
1088	elems = line.split( '\t' )
1089	try:
1090	float( elems[0] ) #"Wiggle track data values can be integer or real, positive or negative values"
1091	break
1092	except:
1093	do_break = False
1094	for col_startswith in data.col1_startswith:
1095	if elems[0].lower().startswith( col_startswith ):
1096	do_break = True
1097	break
1098	if do_break:
1099	break
1100	if self.max_optional_metadata_filesize >= 0 and dataset.get_size() > self.max_optional_metadata_filesize:
1101	#we'll arbitrarily only use the first 100 data lines in this wig file to calculate tabular attributes (column types)
1102	#this should be sufficient, except when we have mixed wig track types (bed, variable, fixed),
1103	# but those cases are not a single table that would have consistant column definitions
1104	#optional metadata values set in Tabular class will be 'None'
1105	max_data_lines = 100
1106	Tabular.set_meta( self, dataset, overwrite = overwrite, skip = i, max_data_lines = max_data_lines )
1107	def sniff( self, filename ):
1108	"""
1109	Determines wether the file is in wiggle format
1110
1111	The .wig format is line-oriented. Wiggle data is preceeded by a track definition line,
1112	which adds a number of options for controlling the default display of this track.
1113	Following the track definition line is the track data, which can be entered in several
1114	different formats.
1115
1116	The track definition line begins with the word 'track' followed by the track type.
1117	The track type with version is REQUIRED, and it currently must be wiggle_0. For example,
1118	track type=wiggle_0...
1119
1120	For complete details see http://genome.ucsc.edu/goldenPath/help/wiggle.html
1121
1122	>>> fname = get_test_fname( 'interval1.bed' )
1123	>>> Wiggle().sniff( fname )
1124	False
1125	>>> fname = get_test_fname( 'wiggle.wig' )
1126	>>> Wiggle().sniff( fname )
1127	True
1128	"""
1129	headers = get_headers( filename, None )
1130	try:
1131	for hdr in headers:
1132	if len(hdr) > 1 and hdr[0] == 'track' and hdr[1].startswith('type=wiggle'):
1133	return True
1134	return False
1135	except:
1136	return False
1137	def get_track_window(self, dataset, data, start, end):
1138	"""
1139	Assumes we have a numpy file.
1140	"""
1141	# Maybe if we import here people will still be able to use Galaxy when numpy kills it
1142	pkg_resources.require("numpy>=1.2.1")
1143	#from numpy.lib import format
1144	import numpy
1145
1146	range = end - start
1147	# Determine appropriate resolution to plot ~1000 points
1148	resolution = ( 10 ** math.ceil( math.log10( range / 1000 ) ) )
1149	# Restrict to valid range
1150	resolution = min( resolution, 100000 )
1151	resolution = max( resolution, 1 )
1152	# Memory map the array (don't load all the data)
1153	data = numpy.load( data )
1154	# Grab just what we need
1155	t_start = math.floor( start / resolution )
1156	t_end = math.ceil( end / resolution )
1157	x = numpy.arange( t_start, t_end ) * resolution
1158	y = data[ t_start : t_end ]
1159
1160	return zip(x.tolist(), y.tolist())
1161	def get_track_resolution( self, dataset, start, end):
1162	range = end - start
1163	# Determine appropriate resolution to plot ~1000 points
1164	resolution = math.ceil( 10 ** math.ceil( math.log10( range / 1000 ) ) )
1165	# Restrict to valid range
1166	resolution = min( resolution, 100000 )
1167	resolution = max( resolution, 1 )
1168	return resolution
1169	def get_track_type( self ):
1170	return "LineTrack", {"data": "array_tree"}
1171
1172	class CustomTrack ( Tabular ):
1173	"""UCSC CustomTrack"""
1174	file_ext = "customtrack"
1175
1176	def __init__(self, **kwd):
1177	"""Initialize interval datatype, by adding UCSC display app"""
1178	Tabular.__init__(self, **kwd)
1179	self.add_display_app ( 'ucsc', 'display at UCSC', 'as_ucsc_display_file', 'ucsc_links' )
1180	def set_meta( self, dataset, overwrite = True, **kwd ):
1181	Tabular.set_meta( self, dataset, overwrite = overwrite, skip = 1 )
1182	def display_peek( self, dataset ):
1183	"""Returns formated html of peek"""
1184	return Tabular.make_html_table( self, dataset, skipchars=['track', '#'] )
1185	def get_estimated_display_viewport( self, dataset, chrom_col = None, start_col = None, end_col = None ):
1186	"""Return a chrom, start, stop tuple for viewing a file."""
1187	#FIXME: only BED and WIG custom tracks are currently supported
1188	#As per previously existing behavior, viewport will only be over the first intervals
1189	max_line_count = 100 # maximum number of lines to check; includes comment lines
1190	variable_step_wig = False
1191	chrom = None
1192	span = 1
1193	if self.displayable( dataset ):
1194	try:
1195	fh = open( dataset.file_name )
1196	while True:
1197	line = fh.readline( VIEWPORT_READLINE_BUFFER_SIZE )
1198	if not line: break #EOF
1199	if not line.startswith( '#' ):
1200	try:
1201	if variable_step_wig:
1202	fields = line.rstrip().split()
1203	if len( fields ) == 2:
1204	start = int( fields[ 0 ] )
1205	return ( chrom, str( start ), str( start + span ) )
1206	elif line and ( line.lower().startswith( "variablestep" ) or line.lower().startswith( "fixedstep" ) ):
1207	chrom = line.rstrip( '\n\r' ).split("chrom=")[1].split()[0]
1208	if 'span=' in line:
1209	span = int( line.rstrip( '\n\r' ).split("span=")[1].split()[0] )
1210	if 'start=' in line:
1211	start = int( line.rstrip( '\n\r' ).split("start=")[1].split()[0] )
1212	return ( chrom, str( start ), str( start + span ) )
1213	else:
1214	variable_step_wig = True
1215	else:
1216	fields = line.rstrip().split( '\t' )
1217	if len( fields ) >= 3:
1218	chrom = fields[ 0 ]
1219	start = int( fields[ 1 ] )
1220	end = int( fields[ 2 ] )
1221	return ( chrom, str( start ), str( end ) )
1222	except Exception:
1223	#most likely a non-integer field has been encountered for start / stop
1224	continue
1225	#make sure we are at the next new line
1226	readline_count = VIEWPORT_MAX_READS_PER_LINE
1227	while line.rstrip( '\n\r' ) == line:
1228	assert readline_count > 0, Exception( 'Viewport readline count exceeded for dataset %s.' % dataset.id )
1229	line = fh.readline( VIEWPORT_READLINE_BUFFER_SIZE )
1230	if not line: break #EOF
1231	readline_count -= 1
1232	max_line_count -= 1
1233	if not max_line_count:
1234	#exceeded viewport or total line count to check
1235	break
1236	except Exception, e:
1237	#unexpected error
1238	log.exception( str( e ) )
1239	return ( None, None, None ) #could not determine viewport
1240	def ucsc_links( self, dataset, type, app, base_url ):
1241	ret_val = []
1242	chrom, start, stop = self.get_estimated_display_viewport(dataset)
1243	if chrom is not None:
1244	for site_name, site_url in util.get_ucsc_by_build(dataset.dbkey):
1245	if site_name in app.config.ucsc_display_sites:
1246	internal_url = "%s" % url_for( controller='dataset', dataset_id=dataset.id, action='display_at', filename='ucsc_' + site_name )
1247	if base_url.startswith( 'https://' ):
1248	base_url = base_url.replace( 'https', 'http', 1 )
1249	display_url = urllib.quote_plus( "%s%s/display_as?id=%i&display_app=%s&authz_method=display_at" % (base_url, url_for( controller='root' ), dataset.id, type) )
1250	redirect_url = urllib.quote_plus( "%sdb=%s&position=%s:%s-%s&hgt.customText=%%s" % (site_url, dataset.dbkey, chrom, start, stop ) )
1251	link = '%s?redirect_url=%s&display_url=%s' % ( internal_url, redirect_url, display_url )
1252	ret_val.append( (site_name, link) )
1253	return ret_val
1254	def sniff( self, filename ):
1255	"""
1256	Determines whether the file is in customtrack format.
1257
1258	CustomTrack files are built within Galaxy and are basically bed or interval files with the first line looking
1259	something like this.
1260
1261	track name="User Track" description="User Supplied Track (from Galaxy)" color=0,0,0 visibility=1
1262
1263	>>> fname = get_test_fname( 'complete.bed' )
1264	>>> CustomTrack().sniff( fname )
1265	False
1266	>>> fname = get_test_fname( 'ucsc.customtrack' )
1267	>>> CustomTrack().sniff( fname )
1268	True
1269	"""
1270	headers = get_headers( filename, None )
1271	first_line = True
1272	for hdr in headers:
1273	if first_line:
1274	first_line = False
1275	try:
1276	if hdr[0].startswith('track'):
1277	color_found = False
1278	visibility_found = False
1279	for elem in hdr[1:]:
1280	if elem.startswith('color'): color_found = True
1281	if elem.startswith('visibility'): visibility_found = True
1282	if color_found and visibility_found: break
1283	if not color_found or not visibility_found: return False
1284	else: return False
1285	except: return False
1286	else:
1287	try:
1288	if hdr[0] and not hdr[0].startswith( '#' ):
1289	if len( hdr ) < 3:
1290	return False
1291	try:
1292	int( hdr[1] )
1293	int( hdr[2] )
1294	except:
1295	return False
1296	except:
1297	return False
1298	return True
1299
1300	if __name__ == '__main__':
1301	import doctest, sys
1302	doctest.testmod(sys.modules[__name__])

Note: リポジトリブラウザについてのヘルプは TracBrowser を参照してください。

Context Navigation

root/galaxy-central/lib/galaxy/datatypes/interval.py

異なるフォーマットでダウンロード: