Automatic Stopwords Identification from Very Small Corpora

495

Abstract

Natural Language Processing tools use language-specific linguistic resources, that might be unavailable for many languages. Since manually building them is complex, it would be desirable to learn these resources automatically from sample texts. In this paper we focus on stopwords, i.e., terms which are not relevant to understand the topic and content of a document. Specifically, we compare the performance of different techniques proposed in the literature when applied to very small corpora (even single documents), as may be the case for very local languages lacking a wide literature. Experiments show that simple term-frequency is an extremely reliable indicator, that outperforms other more complex approaches. While the study is conducted on Italian, the approach is generic and applicable to other languages.

PAYMENT 5000

Automatic Stopwords Identification from Very Small Corpora

Abstract

Related

PLACE YOUR ADVERT HERE

DEPARTMENTS

LATEST PROJECTS

STUDIES ON SOME ASPECTS OF ANTHRACNOSE-BLIGHT-DIEBACK COMPLEX OF CULTIVARS OF GRAPEVINES (VITIS SPP.) IN...

GENETIC VARIABILITY STUDIES OF TWENTY POTATO GENOTYPES

RELATIONSHIP OF HAEMOGLOBIN AND POTASSIUM POLYMORPHISM WITH CONFORMATION, MILK PRODUCTION AND BLOOD BIOCHEMICAL PROFILES...

ADOPTION OF AGRICULTURAL INNOVATIONS AMONG MEMBERS AND NON-MEMBERS OF WOMEN CO-OPERATIVE SOCIETIES IN OJU...

SMALL FARMER CREDIT WITH PARTICULAR REFERENCE TO NIGERIA

DISCLAIMER

EDITOR PICKS

STUDIES ON SOME ASPECTS OF ANTHRACNOSE-BLIGHT-DIEBACK COMPLEX OF CULTIVARS OF GRAPEVINES...

GENETIC VARIABILITY STUDIES OF TWENTY POTATO GENOTYPES

RELATIONSHIP OF HAEMOGLOBIN AND POTASSIUM POLYMORPHISM WITH CONFORMATION, MILK PRODUCTION AND...

POPULAR POSTS

Accounting project topics

CIVIL SERVICE IN NIGERIA

TOP 5 BEST TRUSTED RESEARCH PROJECT TOPICS AND MATERIALS WEBSITE IN...

POPULAR CATEGORY

AN INVESTIGATION INTO THE STUDENT HOSTEL ACCOMMODATION PROBLEM IN THE INSTITUTE OF MANAGEMENT AND...

MANAGEMENT PRACTICES OF ACUTE DIARRHOEA BY CAREGIVERS OF CHILDREN UNDER FIVE YEARS IN MATHARE...

EFFECTS OF GUIDED DISCOVERY APPROACH ON STUDENTS’ ACADEMIC PERFORMANCE IN ECOLOGY IN SENIOR SECONDARY...

Abstract

Share this:

Related

PLACE YOUR ADVERT HERE

LATEST PROJECTS

DISCLAIMER

EDITOR PICKS

POPULAR POSTS

POPULAR CATEGORY