Improving Text Classification by Web Corpora

16 years 24 days ago

Download ccc.inaoep.mx

A major difficulty of supervised approaches for text classification is that they require a great number of training instances in order to construct an accurate classifier. This paper proposes a semi-supervised method that is specially suited to work with very few training examples. It considers the automatic extraction of unlabeled examples from the Web as well as an iterative integration of unlabeled examples into the training process. Preliminary results indicate that our proposal can significantly improve the classification accuracy in scenarios where there are less than ten training examples available per class.

Rafael Guzmán-Cabrera, Manuel Montes-y-G&oa

Real-time Traffic

AWIC 2007 | Internet Technology | Training Examples | Training Instances | Unlabeled Examples |

claim paper

» Liveclassifier creating hierarchical text classifiers through web corpora

» Hierarchical Dirichlet model for document classification

» Feature Engineering for Text Classification

» Using Web Searches on Important Words to Create Background Sets for LSI Classification

» Language Models for Searching in Web Corpora

» Generating Concept Hierarchies from Text for Intelligence Analysis

» Effectiveness of web page classification on finding list answers

» Acquiring Selectional Preferences from Untagged Text for Prepositional Phrase Attachment D...

Post Info
More Details (n/a)

Added	07 Jun 2010
Updated	07 Jun 2010
Type	Conference
Year	2007
Where	AWIC
Authors	Rafael Guzmán-Cabrera, Manuel Montes-y-Gómez, Paolo Rosso, Luis Villaseñor Pineda

Comments (0)

Sciweavers

Improving Text Classification by Web Corpora

AWIC 2007 | Internet Technology | Training Examples | Training Instances | Unlabeled Examples |

Explore & Download

Productivity Tools

Sciweavers