- Inici
- Recursos i consells
- Crea el teu corpus textual
Crea el teu corpus textual
Per a Anglès
1 hora o més
Un corpus textual és un conjunt de textos recopilats i organitzats amb la finalitat de ser analitzats principalment per estudiar una llengua o bé per entrenar models de processament de llenguatge natural. També en pot utilitzar qualsevol persona per millorar la redacció de textos, sobretot en llengua estrangera.
Si els corpus en línia no ofereixen textos del teu camp d’estudi o si vols afinar en una subdisciplina molt especialitzada, et convindria crear-te un corpus ad hoc. Per fer-ho, comença recollint els documents que formaran el teu corpus en una carpeta. Ara necessites una aplicació per poder fer consultes al corpus. Aquí te n’expliquem dues.
Un cop instal·lat a l’ordinador, TextSTAT permet crear un corpus, afegir-hi fitxers i consultar les concordances en el seu context.
TextSTAT admet fitxers en format PDF, MS Word, LibreOffice, TXT i HTML. Això és molt útil, per exemple, per fer un corpus ràpid de pocs documents en format PDF; però, si vols fer un corpus gran, val més que converteixis els documents a TXT per estalviar espai al disc dur.
AntConc és una aplicació per fer consultes en corpus de textos. Només admet textos en format TXT, però té més opcions de cerca.
El creador d’AntConc, Laurence Anthony, també ofereix una aplicació, AntFileConverter, per convertir per lots els documents a format TXT.
També pots utilitzar els corpus consultables en línia que ja existeixen i que han recopilat institucions que són referents per a cadascuna de les llengües. T’ho expliquem aquí.
Tipus