83 Shares 6001 views

¿Qué es la lingüística de corpus?

Sólo hace unas décadas para automatizar la investigación lingüística, los científicos sólo podían soñar. El trabajo fue hecho a mano, que atrae a un gran número de estudiantes, existe una probabilidad sustancial de errores "por descuido", y lo más importante – todo esto llevó mucho, mucho tiempo.

Con el desarrollo de la tecnología informática ha hecho posible llevar a cabo investigaciones en el orden de magnitud más rápido, y hoy en día una de las direcciones más prometedoras en el estudio del lenguaje es un lingüística de corpus. Su principal característica es el uso de grandes cantidades de información de texto, información en una sola base de datos, de una manera especial y llama el cuerpo marcado.

Hasta la fecha, hay muchos edificios creados con diferentes propósitos sobre la base de diversos materiales lingüística que abarca de millones a decenas de miles de unidades léxicas. Esta dirección es reconocido como un prometedor y demuestra un progreso significativo hacia los fines de aplicación y de investigación. Los expertos, de un modo u otro trato con lenguaje natural, se recomienda familiarizarse con el conjunto de textos, al menos en un nivel básico.

Historia de la lingüística de corpus

La formación de esta tendencia se debe a la creación de los Estados Unidos en el cuerpo de Brown a principios de los 60-s del siglo pasado. La colección incluye los textos de todas las formas de 1 millón de palabras, y hoy en día el cuerpo de este tamaño sería totalmente competitivos. Esto se debe en gran parte a que el ritmo de desarrollo de la tecnología informática, así como la creciente demanda de nuevos recursos para la investigación.

En los años 90 la lingüística de corpus surgieron en una disciplina completa e independiente, una colección de textos se han elaborado y marcado para docenas de idiomas. En este período se creó, por ejemplo, los British National Corpus 100 millones de fichas.

Con el desarrollo de esta área de la lingüística, los volúmenes de texto se están volviendo más y más (y llegan a mil millones de unidades de diccionario), y el diseño es cada vez más diversa. Hasta la fecha, el espacio de Internet se puede encontrar cadáveres escrito y el lenguaje, multilingüe, y la literatura artística o académica orientada al aprendizaje, al igual que muchas otras especies hablado.

¿Cuáles son la carcasa

Los tipos de cuerpo en la lingüística del cuerpo pueden ser proporcionados por varias razones. Intuitivamente, la base para la clasificación puede ser un lenguaje de texto (en ruso, alemán), el modo de acceso (código abierto, cerrado, comercial), el género del material de origen (ficción, documental, académica, periodística).

Interesante forma genera materiales del lenguaje hablado. Desde la grabación deliberada de tales discurso para crear un ambiente artificial de los encuestados, y el material resultante no podía ser llamado "espontánea", la lingüística de corpus moderna ha sido al revés. Un voluntario está equipado con un micrófono, y durante el día produjo un registro de todas las conversaciones, en las que participa. La gente alrededor, por supuesto, pueden no saber que en el transcurso de la conversación diaria contribuye al desarrollo de la ciencia.

Más tarde recibió registro almacenado en la base de datos y se acompañan de impresos tipo de texto transcrito. De este modo, se hace posible el marcado necesario para crear una carcasa discurso oral diaria.

solicitud

Siempre que sea posible el uso del lenguaje, y tal vez el uso de textos edificios. Métodos para aplicar el casco en la lingüística puede ser:

  • La creación de un programa que determine la clave, se utiliza ampliamente en la política y los negocios para realizar un seguimiento de las respuestas positivas y negativas de los votantes y los clientes, respectivamente.
  • sistema de información de conexión de diccionarios y traductores para mejorar su rendimiento.
  • Una variedad de tareas de investigación que contribuyan a la comprensión de la unidad de la lengua, la historia de su desarrollo y la predicción de los cambios en el futuro cercano.
  • Desarrollo de sistemas de recuperación de información basado en las características morfológicas, sintácticas, semánticas y otros.
  • La optimización de los diferentes sistemas lingüísticos y otros.

El uso de edificios

Interfaz de recursos similar con un motor de búsqueda típica, y pide al usuario que introduzca una palabra o combinación de palabras para buscar la base de información. Además forman la consulta exacta puede utilizar la versión mejorada, que permite encontrar la información textual en prácticamente cualquier criterio lingüístico.

base de búsqueda puede ser:

  • de miembros de un grupo particular de partes del discurso;
  • características gramaticales;
  • la semántica;
  • colorear estilística y emocional.

También se pueden combinar criterios de búsqueda para una secuencia de palabras, por ejemplo, para encontrar todas las ocurrencias del verbo en el tiempo presente en primera persona, singular, que se produce después de la preposición "en" y el sustantivo en el caso acusativo. La solución a una tarea tan sencilla lleva al usuario unos pocos segundos y requiere sólo unos pocos clics del ratón en los campos especificados.

El proceso de creación

La búsqueda en sí misma puede llevarse a cabo en todos los subcorpus y uno elegido específicamente, en función de las necesidades para lograr un objetivo particular:

  1. El primer paso es definir qué textos constituyen la base para el caso. A efectos prácticos, se utiliza con frecuencia, las noticias periodísticas, comentarios en línea. El proyecto de investigación es el uso de una amplia variedad de tipos de paquetes, pero el texto debe ser seleccionado de acuerdo con algunos puntos en común.
  2. La colección resultante de los textos sometidos a tratamiento previo, no hay corrección de errores, si los hay, preparado por la descripción bibliográfica y extra-lingüística del texto.
  3. Se elimina toda la información no textual: Borra los gráficos, imágenes, tablas.
  4. Es una asignación de fichas, que son normalmente el habla, para su posterior procesamiento.
  5. Finalmente, se llevó pluralidad morfológica, sintáctica y otras marcas obtenido de elementos.

El resultado de todas las transacciones realizadas por una estructura sintáctica con distribuida en ella una pluralidad de elementos, cada uno de los cuales se identifica parte de la oración, gramatical y, en algunos casos, los atributos semánticos.

Las dificultades en la creación de edificios

Es importante entender que no es suficiente para armar un conjunto de palabras o frases para el cuerpo. Por un lado, una colección de textos debe ser equilibrada, es decir, representar diferentes tipos de textos en ciertas proporciones. Por otro lado – el contenido de la caja deben tener una separación de una manera especial.

El primer problema se resuelve mediante un acuerdo: por ejemplo, en la colección incluye 60% de los textos literarios, el 20% de los documentales, un cierto porcentaje se da una representación escrita de la lengua hablada, la legislación, las obras científicas, etc. no existe receta cuerpo perfecto equilibrado de hoy …

La segunda cuestión, relativa a la distribución de contenidos, a resolver un reto. Hay programas y algoritmos utilizados para el marcado automático de textos especiales, pero no dan un resultado perfecto, puede causar interrupciones y requieren retrabajo manual. Oportunidades y desafíos en la solución de este problema se describen en detalle en un documento V. P. Zaharova de la lingüística de corpus.

marcado de texto se implementa a varios niveles, que enumeramos a continuación.

etiquetado morfológico

De la escuela, tenemos que recordar que en la lengua rusa, hay diferentes partes de la oración, y cada uno de ellos tiene sus propias características. Por ejemplo, el verbo tiene categorías de inclinación y el tiempo en el que no sustantivo. un hablante nativo sin dudar declina nombres y verbos conjugados, pero para marcar el cuerpo de 100 millones. fichas de trabajo manual no funcionará. Todas las operaciones necesarias pueden ejecutar el equipo, sin embargo, para ello necesita ser enseñado.

etiquetado morfológico, el equipo debe "comprender" cada palabra como una cierta parte de la oración que tiene ciertas características gramaticales. Desde el ruso (y cualquier otro idioma) opera una serie de reglas regulares, es posible construir un procedimiento automático para el análisis morfológico, la inversión en el coche para una serie de algoritmos. Sin embargo, hay excepciones a la regla, así como diversos factores de complicación. Como resultado de ello, el análisis de la red informática de hoy está lejos de ser ideal, y hasta 4% de error se obtiene un valor de 4 millones. Las palabras en el cuerpo de 100 millones de dólares. Las unidades, que requieren retrabajo manual.

detallado libro describe el problema Zaharova V. P. "La lingüística de corpus".

anotación sintáctica

El análisis o análisis – un procedimiento que determina la relación de las palabras en una frase. El uso de un conjunto de algoritmos, es posible determinar el texto de sujeto, predicado, adiciones, múltiples vueltas de discurso. Para saber qué palabras son la secuencia principal, y el que – dependiente, podemos extraer eficazmente la información de texto y para enseñar a la máquina para emitir en respuesta a una solicitud de búsqueda sólo la información que nos interesante.

Por cierto, modernos motores de búsqueda utilizan esto para dar a conocer los números específicos en lugar de los textos largos en respuesta a las consultas pertinentes, tales como "la cantidad de calorías en una manzana" o "la distancia de Moscú a San Petersburgo." Sin embargo, para entender incluso los fundamentos del proceso descrito por la necesidad de consultar la "Introducción a la lingüística de corpus" u otro tutorial básico.

el marcado semántico

La semántica de la palabra – es, en términos simples, el significado. enfoque ampliamente aplicable al análisis semántico de una palabra etiquetas atribución, lo que refleja su pertenencia a un conjunto de categorías y subcategorías semánticas. Esta información es valiosa para la optimización de algoritmos analizan tono de texto, el resumen automático y otros métodos tareas de la lingüística de corpus.

Hay una serie de "raíz" del árbol, lo que representa una palabra abstracta con una muy amplia semántica. Como se forma una rama de los nodos del árbol, que contiene más y más específicas elementos léxicos. Por ejemplo, la palabra "criatura" puede estar asociada con conceptos tales como "humano" y "animal". La primera palabra continuará su actividad a diferentes profesiones, los términos de parentesco, nacionalidad, y el segundo – en las clases y tipos de animales.

El uso de sistemas de recuperación de información

Las áreas de uso de la lingüística de corpus cubren diversos campos de actividad. Carcasas se utilizan para la preparación y corrección de los diccionarios, crear sistemas de traducción automática, anotar, la recuperación de hechos, que determinan el tono y procesamiento adicional.

Además, estos recursos se utilizan de forma activa en el estudio de las lenguas y los mecanismos de funcionamiento del lenguaje en general mundo. El acceso a grandes volúmenes de información pre-preparado facilita el estudio rápida y completa de las tendencias de los lenguajes de desarrollo, y el cambio neologismos formación estable de velocidad del habla valores de las unidades léxicas y otros.

Dado que el trabajo con este tipo de grandes cantidades de datos requiere la automatización, hoy en día existe una estrecha interacción entre el ordenador y la lingüística de corpus.

Rusia Corpus Nacional

Este caso (abreviado NKRYA) incluye una serie de subcorpus, permitiendo el uso de un recurso para una amplia variedad de tareas.

Los materiales incluidos en la base de datos se dividen NKRYA:

  • a las publicaciones en los años 90 y los años 2000 los medios de comunicación ', tanto nacionales como extranjeros;
  • grabación de voz;
  • aktsentologicheski marcado textos (es decir, las marcas de estrés);
  • discurso dialecto;
  • poesía;
  • Los materiales con marcas sintácticas y otros.

El sistema de información también incluye subcorpus con traducciones paralelas de las obras del ruso al Inglés, alemán, francés y muchos otros idiomas (y viceversa).

También en la base de datos hay una sección de textos históricos, que representan el discurso escrito en ruso en diferentes períodos de su desarrollo. También hay un organismo de formación, lo que puede ser útil para los ciudadanos extranjeros en el dominio de la lengua rusa.

Rusia Corpus Nacional total de 400 millones de unidades léxicas, y de muchas maneras por delante de una parte significativa de los idiomas de los órganos Europa.

perspectivas

Hecho en favor del reconocimiento de esta tendencia es la disponibilidad de la promesa de la lingüística de corpus de laboratorio en las universidades rusas, así como extranjera. Con el uso de la investigación y en el marco de esta información y de búsqueda de recursos implica el desarrollo de ciertas áreas en el campo de las altas tecnologías, sistemas de pregunta-respuesta, pero se discutió anteriormente.

Un mayor desarrollo de la lingüística de corpus se prevé en todos los niveles, que van desde lo técnico y en términos de implementación de nuevos algoritmos que optimizan los procesos de búsqueda y procesamiento de la información, potenciando las computadoras, más RAM, y para los consumidores, ya que los usuarios son cada vez más formas de usar este tipo de recursos en su diario la vida y el trabajo.

en conclusión

A mediados del siglo pasado, en 2017 parecía un futuro lejano, donde las naves espaciales viajan a través del universo y robots hacen todo el trabajo para las personas. De hecho, la ciencia está llena de "manchas blancas" y haciendo intentos desesperados para contestar las preguntas de la humanidad durante siglos perturbador. Preguntas funcionamiento del lenguaje que aquí ocupan un lugar de honor, y el gabinete y la lingüística computacional nos puede ayudar a responder a ellos.

Procesamiento de grandes conjuntos de datos puede detectar patrones, que antes eran inaccesibles, predecir el desarrollo de las características del lenguaje específicos de seguimiento de la formación de palabras casi en tiempo real.

En un nivel práctico, los recintos globales se pueden ver, por ejemplo, como una herramienta potencial para evaluar el estado de ánimo del público – el Internet es una constante actualización de base varios textos diarios creados por usuarios reales: esta comentarios y opiniones, y artículos, y muchas otras formas de expresión.

Además, se trabaja con organismos contribuye al desarrollo del mismo hardware, que están involucrados en la recuperación de información, estamos familiarizados con el servicio de "Google" o "Yandex", la traducción automática, diccionarios electrónicos.

Podemos afirmar con seguridad que la lingüística de corpus hace que sólo los primeros pasos, y en un futuro próximo a florecer.