A minha pátria é a língua portuguesa – O Corpus do Português

O Corpus do Português, site aberto no início de novembro, oferece um meio inédito de esquadrinhar a língua portuguesa. Ele funciona como um “quem é quem” do idioma. Mostra a popularidade de palavras ou de frases buscadas entre milhares de textos. Esse grande arquivo forma o corpus da língua, que representa as diversas variedades lingüísticas do português. O corpus reúne mais de 50 mil textos, de diversas fontes, somando 45 milhões de palavras em português dos anos Trezentos (1300s) aos Novecentos (1900s). Há quatro registros principais: jornalístico, acadêmico, falado e de ficção.

A interface permite pesquisar palavras exatas ou frases, curingas, lemas, classes gramaticais, ou qualquer outra combinação. Proporciona também a pesquisa de palavras vizinhas com um máximo de dez palavras de cada lado (ex: todos os substantivos perto de cadeia, todos os adjetivos perto de mulher, ou todos os substantivos perto de girar).
O corpus também facilita, de pelo menos três maneiras diferentes, a comparação da freqüência e distribuição de palavras, frases e construções gramaticais através de textos:

Registro: comparações entre o falado, a ficção, o jornalístico, e o acadêmico
Dialeto: Portugal versus Brasil no século XX
Período histórico: comparação de séculos diferentes dos anos Trezentos [1300s] aos Novecentos [1900s]

Realizam-se com facilidade consultas de semântica no corpus. Por exemplo, a diferença de significado entre duas palavras relacionadas, pode ser determinada através da comparação e contraste das palavras vizinhas. Pode-se encontrar a freqüência e a distribuição de sinônimos de mais de 20.000 palavras e comparar esta freqüência em registros ou países diferentes, ou inclusive ao longo dos séculos. Estas listas de palavras podem ser armazenadas e usadas em futuras consultas. Pode-se, além disso, criar suas próprias listas de palavras com um parentesco semântico, e usá-las como parte da consulta.

Faça uma pequena excursão de três minutos que apresentará os aspectos principais do corpus. Um simples clique para cada consulta preencherá automaticamente o formulário de pesquisa, pesquisará 45 milhões de palavras em textos diversos, e exibirá os resultados. O Corpus é rápido, grátis, fácil de usar, e oferece características importantes não encontradas em nenhuma outra interface existente.

Via Inconsciente e-Coletivo // Sites relacionados: Projeto Linguateca e Banco de Português.

Add Comment