Context Navigation

sniff.py @ 2

リビジョン 2, 10.2 KB (コミッタ: hatakeyama, 14 年前)
import galaxy-central

Rev	行番号
[2]	1	"""
	2	File format detector
	3	"""
	4	import logging, sys, os, csv, tempfile, shutil, re, zipfile
	5	import registry
	6	from galaxy import util
	7
	8	log = logging.getLogger(__name__)
	9
	10	def get_test_fname(fname):
	11	"""Returns test data filename"""
	12	path, name = os.path.split(__file__)
	13	full_path = os.path.join(path, 'test', fname)
	14	return full_path
	15
	16	def stream_to_file( stream, suffix='', prefix='', dir=None, text=False ):
	17	"""Writes a stream to a temporary file, returns the temporary file's name"""
	18	fd, temp_name = tempfile.mkstemp( suffix=suffix, prefix=prefix, dir=dir, text=text )
	19	CHUNK_SIZE = 1048576
	20	data_checked = False
	21	is_compressed = False
	22	is_binary = False
	23	is_multi_byte = False
	24	while 1:
	25	chunk = stream.read( CHUNK_SIZE )
	26	if not chunk:
	27	break
	28	if not data_checked:
	29	# See if we're uploading a compressed file
	30	if zipfile.is_zipfile( temp_name ):
	31	is_compressed = True
	32	else:
	33	try:
	34	if unicode( chunk[:2] ) == unicode( util.gzip_magic ):
	35	is_compressed = True
	36	except:
	37	pass
	38	if not is_compressed:
	39	# See if we have a multi-byte character file
	40	chars = chunk[:100]
	41	is_multi_byte = util.is_multi_byte( chars )
	42	if not is_multi_byte:
	43	for char in chars:
	44	if ord( char ) > 128:
	45	is_binary = True
	46	break
	47	data_checked = True
	48	if not is_compressed and not is_binary:
	49	os.write( fd, chunk.encode( "utf-8" ) )
	50	else:
	51	# Compressed files must be encoded after they are uncompressed in the upload utility,
	52	# while binary files should not be encoded at all.
	53	os.write( fd, chunk )
	54	os.close( fd )
	55	return temp_name, is_multi_byte
	56
	57	def check_newlines( fname, bytes_to_read=52428800 ):
	58	"""
	59	Determines if there are any non-POSIX newlines in the first
	60	number_of_bytes (by default, 50MB) of the file.
	61	"""
	62	CHUNK_SIZE = 2 ** 20
	63	f = open( fname, 'r' )
	64	for chunk in f.read( CHUNK_SIZE ):
	65	if f.tell() > bytes_to_read:
	66	break
	67	if chunk.count( '\r' ):
	68	f.close()
	69	return True
	70	f.close()
	71	return False
	72
	73	def convert_newlines( fname, in_place=True ):
	74	"""
	75	Converts in place a file from universal line endings
	76	to Posix line endings.
	77
	78	>>> fname = get_test_fname('temp.txt')
	79	>>> file(fname, 'wt').write("1 2\\r3 4")
	80	>>> convert_newlines(fname)
	81	(2, None)
	82	>>> file(fname).read()
	83	'1 2\\n3 4\\n'
	84	"""
	85	fd, temp_name = tempfile.mkstemp()
	86	fp = os.fdopen( fd, "wt" )
	87	for i, line in enumerate( file( fname, "U" ) ):
	88	fp.write( "%s\n" % line.rstrip( "\r\n" ) )
	89	fp.close()
	90	if in_place:
	91	shutil.move( temp_name, fname )
	92	# Return number of lines in file.
	93	return ( i + 1, None )
	94	else:
	95	return ( i + 1, temp_name )
	96
	97	def sep2tabs( fname, in_place=True, patt="\\s+" ):
	98	"""
	99	Transforms in place a 'sep' separated file to a tab separated one
	100
	101	>>> fname = get_test_fname('temp.txt')
	102	>>> file(fname, 'wt').write("1 2\\n3 4\\n")
	103	>>> sep2tabs(fname)
	104	(2, None)
	105	>>> file(fname).read()
	106	'1\\t2\\n3\\t4\\n'
	107	"""
	108	regexp = re.compile( patt )
	109	fd, temp_name = tempfile.mkstemp()
	110	fp = os.fdopen( fd, "wt" )
	111	for i, line in enumerate( file( fname ) ):
	112	line = line.rstrip( '\r\n' )
	113	elems = regexp.split( line )
	114	fp.write( "%s\n" % '\t'.join( elems ) )
	115	fp.close()
	116	if in_place:
	117	shutil.move( temp_name, fname )
	118	# Return number of lines in file.
	119	return ( i + 1, None )
	120	else:
	121	return ( i + 1, temp_name )
	122
	123	def convert_newlines_sep2tabs( fname, in_place=True, patt="\\s+" ):
	124	"""
	125	Combines above methods: convert_newlines() and sep2tabs()
	126	so that files do not need to be read twice
	127
	128	>>> fname = get_test_fname('temp.txt')
	129	>>> file(fname, 'wt').write("1 2\\r3 4")
	130	>>> convert_newlines_sep2tabs(fname)
	131	(2, None)
	132	>>> file(fname).read()
	133	'1\\t2\\n3\\t4\\n'
	134	"""
	135	regexp = re.compile( patt )
	136	fd, temp_name = tempfile.mkstemp()
	137	fp = os.fdopen( fd, "wt" )
	138	for i, line in enumerate( file( fname, "U" ) ):
	139	line = line.rstrip( '\r\n' )
	140	elems = regexp.split( line )
	141	fp.write( "%s\n" % '\t'.join( elems ) )
	142	fp.close()
	143	if in_place:
	144	shutil.move( temp_name, fname )
	145	# Return number of lines in file.
	146	return ( i + 1, None )
	147	else:
	148	return ( i + 1, temp_name )
	149
	150	def get_headers( fname, sep, count=60, is_multi_byte=False ):
	151	"""
	152	Returns a list with the first 'count' lines split by 'sep'
	153
	154	>>> fname = get_test_fname('complete.bed')
	155	>>> get_headers(fname,'\\t')
	156	[['chr7', '127475281', '127491632', 'NM_000230', '0', '+', '127486022', '127488767', '0', '3', '29,172,3225,', '0,10713,13126,'], ['chr7', '127486011', '127488900', 'D49487', '0', '+', '127486022', '127488767', '0', '2', '155,490,', '0,2399']]
	157	"""
	158	headers = []
	159	for idx, line in enumerate(file(fname)):
	160	line = line.rstrip('\n\r')
	161	if is_multi_byte:
	162	# TODO: fix this - sep is never found in line
	163	line = unicode( line, 'utf-8' )
	164	sep = sep.encode( 'utf-8' )
	165	headers.append( line.split(sep) )
	166	if idx == count:
	167	break
	168	return headers
	169
	170	def is_column_based( fname, sep='\t', skip=0, is_multi_byte=False ):
	171	"""
	172	Checks whether the file is column based with respect to a separator
	173	(defaults to tab separator).
	174
	175	>>> fname = get_test_fname('test.gff')
	176	>>> is_column_based(fname)
	177	True
	178	>>> fname = get_test_fname('test_tab.bed')
	179	>>> is_column_based(fname)
	180	True
	181	>>> is_column_based(fname, sep=' ')
	182	False
	183	>>> fname = get_test_fname('test_space.txt')
	184	>>> is_column_based(fname)
	185	False
	186	>>> is_column_based(fname, sep=' ')
	187	True
	188	>>> fname = get_test_fname('test_ensembl.tab')
	189	>>> is_column_based(fname)
	190	True
	191	>>> fname = get_test_fname('test_tab1.tabular')
	192	>>> is_column_based(fname, sep=' ', skip=0)
	193	False
	194	>>> fname = get_test_fname('test_tab1.tabular')
	195	>>> is_column_based(fname)
	196	True
	197	"""
	198	headers = get_headers( fname, sep, is_multi_byte=is_multi_byte )
	199	count = 0
	200	if not headers:
	201	return False
	202	for hdr in headers[skip:]:
	203	if hdr and hdr[0] and not hdr[0].startswith('#'):
	204	if len(hdr) > 1:
	205	count = len(hdr)
	206	break
	207	if count < 2:
	208	return False
	209	for hdr in headers[skip:]:
	210	if hdr and hdr[0] and not hdr[0].startswith('#'):
	211	if len(hdr) != count:
	212	return False
	213	return True
	214
	215	def guess_ext( fname, sniff_order=None, is_multi_byte=False ):
	216	"""
	217	Returns an extension that can be used in the datatype factory to
	218	generate a data for the 'fname' file
	219
	220	>>> fname = get_test_fname('megablast_xml_parser_test1.blastxml')
	221	>>> guess_ext(fname)
	222	'blastxml'
	223	>>> fname = get_test_fname('interval.interval')
	224	>>> guess_ext(fname)
	225	'interval'
	226	>>> fname = get_test_fname('interval1.bed')
	227	>>> guess_ext(fname)
	228	'bed'
	229	>>> fname = get_test_fname('test_tab.bed')
	230	>>> guess_ext(fname)
	231	'bed'
	232	>>> fname = get_test_fname('sequence.maf')
	233	>>> guess_ext(fname)
	234	'maf'
	235	>>> fname = get_test_fname('sequence.fasta')
	236	>>> guess_ext(fname)
	237	'fasta'
	238	>>> fname = get_test_fname('file.html')
	239	>>> guess_ext(fname)
	240	'html'
	241	>>> fname = get_test_fname('test.gtf')
	242	>>> guess_ext(fname)
	243	'gtf'
	244	>>> fname = get_test_fname('test.gff')
	245	>>> guess_ext(fname)
	246	'gff'
	247	>>> fname = get_test_fname('gff_version_3.gff')
	248	>>> guess_ext(fname)
	249	'gff3'
	250	>>> fname = get_test_fname('temp.txt')
	251	>>> file(fname, 'wt').write("a\\t2\\nc\\t1\\nd\\t0")
	252	>>> guess_ext(fname)
	253	'tabular'
	254	>>> fname = get_test_fname('temp.txt')
	255	>>> file(fname, 'wt').write("a 1 2 x\\nb 3 4 y\\nc 5 6 z")
	256	>>> guess_ext(fname)
	257	'txt'
	258	>>> fname = get_test_fname('test_tab1.tabular')
	259	>>> guess_ext(fname)
	260	'tabular'
	261	>>> fname = get_test_fname('alignment.lav')
	262	>>> guess_ext(fname)
	263	'lav'
	264	>>> fname = get_test_fname('1.sff')
	265	>>> guess_ext(fname)
	266	'sff'
	267	>>> fname = get_test_fname('1.bam')
	268	>>> guess_ext(fname)
	269	'bam'
	270	>>> fname = get_test_fname('3.bam')
	271	>>> guess_ext(fname)
	272	'bam'
	273	"""
	274	if sniff_order is None:
	275	datatypes_registry = registry.Registry()
	276	sniff_order = datatypes_registry.sniff_order
	277	for datatype in sniff_order:
	278	"""
	279	Some classes may not have a sniff function, which is ok. In fact, the
	280	Tabular and Text classes are 2 examples of classes that should never have
	281	a sniff function. Since these classes are default classes, they contain
	282	few rules to filter out data of other formats, so they should be called
	283	from this function after all other datatypes in sniff_order have not been
	284	successfully discovered.
	285	"""
	286	try:
	287	if datatype.sniff( fname ):
	288	return datatype.file_ext
	289	except:
	290	pass
	291	headers = get_headers( fname, None )
	292	is_binary = False
	293	if is_multi_byte:
	294	is_binary = False
	295	else:
	296	for hdr in headers:
	297	for char in hdr:
	298	if len( char ) > 1:
	299	for c in char:
	300	if ord( c ) > 128:
	301	is_binary = True
	302	break
	303	elif ord( char ) > 128:
	304	is_binary = True
	305	break
	306	if is_binary:
	307	break
	308	if is_binary:
	309	break
	310	if is_binary:
	311	return 'data' #default binary data type file extension
	312	if is_column_based( fname, '\t', 1, is_multi_byte=is_multi_byte ):
	313	return 'tabular' #default tabular data type file extension
	314	return 'txt' #default text data type file extension
	315
	316	if __name__ == '__main__':
	317	import doctest, sys
	318	doctest.testmod(sys.modules[__name__])
	319

Note: リポジトリブラウザについてのヘルプは TracBrowser を参照してください。

Context Navigation

root/galaxy-central/lib/galaxy/datatypes/sniff.py @ 2

異なるフォーマットでダウンロード: