On Optimizing Distance-Based Similarity Search for Biological Databases

16 years 7 days ago

Download userweb.cs.utexas.edu

Similarity search leveraging distance-based index structures is increasingly being used for both multimedia and biological database applications. We consider distance-based indexing for three important biological data types, protein k-mers with the metric PAM model, DNA k-mers with Hamming distance and peptide fragmentation spectra with a pseudo-metric derived from cosine distance. To date, the primary driver of this research has been multimedia applications, where similarity functions are often Euclidean norms on high dimensional feature vectors. We develop results showing that the character of these biological workloads is different from multimedia workloads. In particular, they are not intrinsically very high dimensional, and deserving different optimization heuristics. Based on MVP-trees, we develop a pivot selection heuristic seeking centers and show it outperforms the most widely used corner seeking heuristic. Similarly, we develop a data partitioning approach sensitive to the a...

Rui Mao, Weijia Xu, Smriti R. Ramakrishnan, Glen N

Real-time Traffic

Bioinformatics | CSB 2005 | Distance-based Index Structures | Distance-based Indexing | Important Biological Data |

claim paper

» QualityBased Similarity Search for Biological Sequence Databases

» Processing Complex Similarity Queries with DistanceBased Access Methods

» Distance Based Indexing for String Proximity Search

» SSWrapper a package of wrapper applications for similarity searches on Linux clusters

» Optimal neighborhood indexing for protein similarity search

» Designing multiple simultaneous seeds for DNA similarity search

» Piers An Efficient Model for Similarity Search in DNA Sequence Databases

» Visualization of Biological Sequence Similarity Search Results

Post Info
More Details (n/a)

Added	24 Jun 2010
Updated	24 Jun 2010
Type	Conference
Year	2005
Where	CSB
Authors	Rui Mao, Weijia Xu, Smriti R. Ramakrishnan, Glen Nuckolls, Daniel P. Miranker

Comments (0)

Sciweavers

On Optimizing Distance-Based Similarity Search for Biological Databases

Bioinformatics | CSB 2005 | Distance-based Index Structures | Distance-based Indexing | Important Biological Data |

Explore & Download

Productivity Tools

Sciweavers