Relaciones de inclusión en algunos modelos léxicos computacionales

Rosa Martín Gascueña

Estudios de Lingüística Aplicada

RELACIONES DE INCLUSIÓN EN ALGUNOS MODELOS LÉXICOS COMPUTACIONALES

Rosa Martín Gascueña

Departamento de Filología Románica, Eslava y Lingüística General

Universidad Complutense de Madrid

Departamento de Humanidades, Filosofía, Lenguaje y Literatura

Universidad Carlos III de Madrid

Resumen

Las relaciones de inclusión (ri), hiponimia y meronimia, se analizan en dos modelos computacionales; la base de datos WordNet y el proyecto SIMPLE, una aplicación computacional para el tratamiento del léxico multilingüe. Hemos elegido estas dos aplicaciones porque presentan enfoques diferentes en la concepción de estas relaciones, aunque también se puede destacar algún punto en común. WordNet representa un modelo lexicográfico de organización léxica, donde los sustantivos se agrupan en jerarquías en torno a un grupo de veinticinco primitivos semánticos que funcionan como categorías cerradas, mientras que la propuesta lexicográfica del proyecto SIMPLE se basa en relaciones conceptuales jerárquicas y no jerárquicas, donde las ri están condicionadas por la naturaleza formal del léxico: tipos semánticos y la estructura de qualia extendida (Pustejovsky, 1995, 2005). Las relaciones de inclusión se explican desde los fenómenos de la categorización y composición del significado, asociados a la definición lógica de extensión e intensión. Estas relaciones organizan el léxico de una lengua mediante sistemas de herencia establecidos por jerarquías de significado. Las relaciones de sentido fundamentan el modelo conceptual de los sistemas léxicos computacionales, de tal forma que, para algunos estudiosos como Pustejovsky (1995), no hay distinción entre el planteamiento conceptual de la semántica y el computacional, ambos son sinónimos. Por otro lado, los modelos de memoria léxica basados en redes semánticas de la psicolingüística son el fundamento de Miller y su equipo (1993) para la creación de WordNet, base de datos léxica para el inglés que ha sido el pilar del actual diccionario multilingüe online WordReference.com. Para finalizar, en este trabajo proponemos un modelo de organización léxica para las ri y lo aplicamos a un grupo de palabras del ámbito de la seguridad informática utilizadas en el español peninsular, que se han desprendido de su especificidad y forman parte de la lengua común.

Palabras clave: léxico, relaciones semánticas, meronimia, hiponimia, modelos computacionales, rasgos semánticoso

Abstract

The relationships of inclusion (ri), hyponymy and meronymy, are analysed in two computer models; the SIMPLE project, a computer application for the treatment of the multilingual lexicon and the WordNet database. We have chosen these two applications because they have different approaches in the design of these relationships, but also can be noted to have something in common. On the one hand, WordNet represents a lexicographic model of lexical organization, where nouns are grouped into nets around a group of twenty-five semantic primitives that function as closed categories. On the other hand, the lexicographic proposal of the SIMPLE project is based on hierarchical and non-hierarchical conceptual relations where the ri are conditioned by the formal nature of the lexicon: semantic types and extended qualia structure (Pustejovsky, 1995, 2005). Inclusion relations are explained taking into account the phenomena of categorization and composition of the meaning, which are associated with the logical definition of extension and intension. These relations organize the lexicon of a language through systems of inheritance hierarchies of meaning. Relations of sense are the basis for the conceptual model of computational lexical systems, so that for some scholars like Pustejovsky (1995) there is no distinction between the semantic and the computational conceptual approaches: both are synonymous. On the other hand, WordNet (Miller et al., 1993), a lexical database for English that has been the mainstay of online WordReference.com, the current multilingual dictionary, is based on the lexical memory models, which in turn are based on the semantic networks of Psycholinguistics. Finally, in this work, we propose a model of lexical organization for the ri and we apply it to a group of words used in Spain, that belong to the field of computer security, which have been shed from its specificity and form part of the common language.

Keywords: lexicon, semantic relations, meronymy, hyponymy, computational models, semantic features

Fecha de recepción del artículo: 8 de abril de 2013

Fecha de recepción de la versión revisada: 2 de agosto de 2013

Fecha de aceptación: 1 de octubre de 2013

Dirección de la autora:

Rosa Martín Gascueña

C/Castillo de Arévalo 1, portal 17, 1º A

28232 (Las Rozas) Madrid

España

rosamartingascuena@filol.ucm.es / rmgascue@inf.uc3m.es

Introducción

Las relaciones semánticas entre elementos de la misma categoría gramatical se denominan paradigmáticas; se distinguen varios tipos: las relaciones de inclusión (ri) –hiponimia y meronimia–, las relaciones de identidad –sinonimia y las relaciones de exclusión –antonimia, oposición y contraste. Este trabajo se centra en las ri, hiponimia y meronimia en la categoría de los nombres. En primer lugar, definimos cada una de ellas analizando sus puntos en común y sus diferencias. En segundo lugar, estudiamos cómo han sido tratadas en la base de datos léxica del inglés WordNet y en la ontología, multilingüe SIMPLE. Y, posteriormente, presentamos un modelo propio a fin de formalizar las ri transportable a cualquier entorno para, finalmente, aplicarlo al léxico cotidiano del área de la seguridad informática.

La hiponimia y la meronimia

Las relaciones de inclusión organizan el léxico de una lengua, su estudio se aborda desde la categorización y la composición del significado, que se consideran fenómenos de cognición complementarios asociados con los planteamientos lógicos del punto de vista extensional e intensional, respectivamente. La categorización organiza el léxico mediante relaciones de inclusión, por ejemplo, ordenador: pc, portátil…, código malicioso: bomba lógica, virus, hoax… Y la descomposición identifica los componentes que intervienen en la construcción del significado, por ejemplo ordenador: [– animado], [– estructura interna], [+ delimitado], etcétera.

La hiponimia y la meronimia presentan similitudes desde el punto de vista lógico; las dos son relaciones implicativas, transitivas y asimétricas. La hiponimia se identifica con ‘es un / es un tipo de’, por ejemplo, un antivirus es una aplicación informática, y la meronimia con ‘es parte de / tiene un’, por ejemplo, un control de acceso es parte de medidas de seguridad. Sin embargo, también presentan diferencias notables; la hiponimia es una relación de inclusión jerárquica en la cual se destaca la herencia de significado, mientras que la meronimia puede ser una relación jerárquica, lineal o secuencial, donde no hay herencia y se destaca la importancia de la funcionalidad y distribución de las partes para entablar la relación (véase el apartado Tipología y características de las perspectivas).

Una vez presentadas, en líneas generales, las características más destacadas de estas relaciones, a continuación analizamos cómo han sido tratadas en los modelos computacionales WordNet y SIMPLE.

Las relaciones de inclusión en WordNet

WordNet es una base de datos léxica del inglés creada en 1985 por el psicolingüista Miller y su equipo de trabajo en la Universidad de Princeton. En esta base de datos, la información léxica se organiza por el significado, las palabras tienen un doble valor: significante, forma física, y significado, referido a un concepto que puede estar representado por una o varias palabras.1 De este modo, el significado de una palabra se representa por un grupo de sinónimos denominados synsets que simbolizan conceptos, son nodos en la red léxica unidos por relaciones semánticas, que se organizan por categorías gramaticales: sustantivos, adjetivos, verbos… Los sustantivos forman jerarquías, los verbos se disponen por una variedad de relaciones de vinculación, los adjetivos y adverbios se estructuran como hiperespacios de n-dimensional. La Tabla 1 muestra una matriz léxica del significado de una palabra M y las formas con las que puede ser expresado, las palabras {F1, F2…}, son conjuntos de sinónimos destacados entre llaves {…} que sirven para identificar las definiciones de conceptos lexicalizados. Además, se representa la polisemia, como se puede observar en esta misma tabla, F2 representa dos sentidos: E1,2 y E2,2.

En su concepción inicial WordNet sólo se pensó para relaciones entre conceptos —implicando una teoría del significado de la palabra— pero se observó que las relaciones léxicas (identidad y contraste) debían tenerse en cuenta porque también organizan el léxico mental. En consecuencia, se planteó la distinción entre las relaciones semánticas de significado: hiponimia y meronimia, y las relaciones léxicas entre formas de significado: la sinonimia y la antonimia.

Los nombres, en esta base de datos, se disponen de forma jerárquica estableciendo relaciones de inclusión denominadas hiponimia/hiperonimia, subordinación/superordinación, subconjunto/superconjunto y también relación isa (del inglés is a ‘es un’); es el principio organizador de los sustantivos que implica sistemas de herencia de significados. Así pues, se establecen varios niveles de categorización; en el nivel más alto de la jerarquía está el significado más abstracto, la {entidad}, en el nivel inmediatamente inferior se incluye la categoría {objeto, cosa} e {idea}, a continuación, la clasificación entre animados e inanimados (véase Tabla 2), posteriormente, se identifica con alguno de los veinticinco primitivos semánticos propuestos (Miller, 1993), que se muestran en la Tabla 3, y en los niveles descendentes los significados más específicos.

Tabla 2. Representación esquemática de tipos de cosas tangibles

{thing, entity}

{living thing, organism}

{plant, flora}

{animal, fauna}

{person, human being}

{non-living thing, object}

{natural object}

{artifact}

{substance}

{food}

Fuente: Miller et al., 1993: 4.

Tabla 3. Los primitivos semánticos

{act, action, activity}

{animal, fauna}

{artifact}

{attribute, property}

{body, corpus}

{cognition, knowledge}

{communication}

{event, happening}

{feeling, emotion}

{food}

{group, collection}

{location, place}

{motive}

{natural object}

{natural phenomenon}

{person, human being}

{plant, flora}

{possession}

{process}

{quantity, amount}

{relation}

{shape}

{state, condition}

{substance}

{time}

Fuente: Miller, 1993: 16.

La base de datos léxica WordNet se amplió a otras lenguas en EuroWordNet y actualmente se puede consultar online en el diccionario multilingüe WordReference, del cual mostramos la palabra hacker en la Figura 1; en esta se puede observar la disposición jerárquica de los significados y los synsets, que funcionan como nodos descriptivos del significado conceptual, con sus diferentes acepciones.

Figura 1. Muestra de la palabra hacker, tomada de WordReference

hacker

A noun

1 hack, drudge,

hacker

one who works hard at boring tasks

Category Tree:

entity

object: physical object

living thing: animate thing

organism: being

person: individual; someone; somebody; mortal; human; soul

unskilled person

hack, drudge,

hacker

plodder: slogger

2 hacker

a programmer for whom computing is its own reward; may enjoy the challenge of breaking into other computers but does no harm; “true hackers subscribe to a code of ethics and look down upon crackers”

Category Tree:

entity

object: physical object

living thing: animate thing

organism: being

person; individual; someone; somebody; mortal; human; soul

engineer; applied scientist; technologist

programmer; computer programmer; coder; software engineer

hacker

Fuente: WordReference.com (Consulta: 11 de diciembre de 2009).

La meronimia/holonimia o parte/todo es la otra relación de inclusión, también denominada relación hasa (del inglés has a ‘tiene un’), donde el significado de los merónimos completa al holónimo. En WordNet se codifican tres tipos de relaciones parte/todo: X es una parte de Y; X es miembro de Y; X está hecha de la materia de Y, aunque cuando se concibió se diferenciaron más. Las relaciones de meronimia sirven para especificar el significado de ciertas unidades léxicas que están en un mismo nivel jerárquico, por ejemplo, dentro de la categoría animales están las aves, que se diferencian de los peces porque tienen alas, etc. Otro aspecto destacado de las relaciones parte/todo es que un mismo merónimo se relaciona con más de un holónimo, por ejemplo, pantalla, que puede formar parte de pc, de portátil, de table… En la Figura 2 mostramos un ejemplo de la palabra screen ‘pantalla’ de WordReference, en la que se destaca la acepción 7, donde se presenta el valor de esta palabra como merónimo.

Figura 2. Muestra de la palabra screen, tomada de WordReference

Fuente: WordReference.com (Consulta: 5 de enero de 2012).

Las relaciones de inclusión en la ontología SIMPLE

La ontología simple (iniciada en 2006) o base de conocimiento multilingüe es una base de datos, influida por WordNet y basada en el lexicón generativo de Pustejovsky (1995, 2005). En esta aplicación se intenta formalizar el conocimiento como hechos, aplicándolo mediante reglas de inferencia. El significado se fundamenta en la creatividad y la variedad contextual, y esto es lo que intentan representar, además del conocimiento lingüístico constituido por los rasgos estructurales semánticos o sintácticos de las unidades léxicas. Las palabras se conciben como estructuras conceptuales constituidas por rasgos sintácticos, semánticos y de conocimiento del mundo, las cuales forman redes semánticas de distribución jerárquica que utilizan la herencia como método de inferencia, donde los nodos inferiores heredan las características de los nodos superiores, permitiendo así una economía de codificación. El léxico se organiza mediante pequeñas redes semánticas que incluyen la estructura argumental y las preferencias de selección de cada una de las palabras que las componen. Por tanto, el léxico es un sistema multidimensional con diferentes capas de análisis y niveles estructurales de representación que se corresponden con la estructura argumental, la estructura eventiva, la estructura de qualia y la estructura léxica heredada2 (Pustejovsky, 1995).

En lo que respecta al tema de nuestro trabajo, las ri en los nombres, simple parte de la estructura jerárquica de WordNet más la estructura de qualia, compuesta de los qualia: formal, télico, constitutivo, agentivo,3 que relaciona entidades y las conecta a eventos relacionados con su significado contextual. La información léxica se identifica con tipos semánticos y con marcos o dominios semánticos que permite relacionar una unidad semántica con el área de conocimiento donde se usa. Los tipos semánticos representan la información de la palabra estructurada por los qualia más las unidades semánticas (SemU), que son los sentidos de la palabra. Los tipos semánticos simples, unidimensionales o naturales se caracterizan por los qualia constitutivo y formal, por ejemplo, árbol, y puede entablar relaciones de categorización hiponímica. Los tipos unificados, multidimensionales o funcionales presentan los cuatro qualia, además de incluir la relación de hiponimia, que indica el tipo simple al que pertenecen; también incorporan más dimensiones, porque poseen más características con el quale agentivo, referente a su creación, y el quale télico, que indica su función. Por ejemplo, cuchillo es un objeto físico, representado por el quale formal y el quale agentivo que indica su funcionalidad. Esta organización a lo largo de múltiples dimensiones del significado contribuye a evitar una sobrecarga de las relaciones de hiperonimia, que constituye uno de los principales inconvenientes de los sistemas tradicionales. La información de qualia, codificada en términos de características y relaciones semánticas, permite señalar distinciones de sentido bastante detalladas, basadas en relaciones conceptuales jerárquicas y no jerárquicas. La información semántica se representa asociando a cada palabra un clúster de información que lo define, como se muestra en la Figura 3. Las relaciones de qualia permiten organizar y relacionar entre sí las entidades a través de uniones semánticas taxonómicas
y partonómicas.

Figura 3. Plantilla asociada a un tipo semántico

Usem:	1
Template_Type:	[Instrument]
nification_path:	[Concrete_entity \| ArtifactAgentive \| Telic]
Domain:	General
Semantic Class:	<Nil>
Gloss:	//free//
Pred_Rep.:	<Nil>
Selectional Restr.:	<Nil>
Derivation:	<Nil>
Formal:	isa (1,<instrument>)
Agentive:	created_by(1,<Usem>: [Creation])
Constitutive:	made_of (1,<Usem>) //optional// has_as_part (1, <Usem>) //optional//
Telic:	used_for (1,<Usem>: [Event])
Synonymy:	<Nil>
Collocates:	Collocates(<Usem1>,…,<Usemn>)
Complex:	<Nil> //for regular polysemy//

Fuente: Lenci et al., 2000.

Los tipos semánticos en SIMPLE forman una ontología general más tarde subdivida en dos capas: el núcleo de la ontología, que está formado por aquellos tipos que han sido identificados como los comunes y centrales para la construcción de los diferentes léxicos y que representan los nodos más altos en la jerarquía de tipos, y la ontología recomendada, que está formada por tipos más específicos, es decir, nodos inferiores de la jerarquía, los cuales proporcionan una organización más detallada de los sentidos de la palabra. La hiponimia relaciona tipos semánticos mediante la fórmula isa, lo cual permite generalizar sobre las propiedades compartidas por las entradas léxicas y formar subtipos semánticos a partir del hiperónimo, mientras que la meronimia forma parte de todos los tipos semánticos mediante el quale constitutivo.

Comparación entre WordNet y SIMPLE

En WordNet, los nombres se organizan por su significado mediante relaciones de sinonimia e hiponimia en una distribución jerarquizada por elementos ontológicos; los veinticinco primitivos semánticos y los conceptos {entidad}, {cosa}… consiguen la estructura jerárquica que es el armazón de esta base de datos, donde la herencia es clave en la transmisión del significado. El problema que se plantea en WordNet es que diferentes tipos de información se fijan, a veces, en una ubicación determinada dentro de la jerarquía isa, no obstante que podrían situarse en otros niveles, lo cual es un problema para las aplicaciones que necesitan seleccionar información específica; además, supone una falta de dinamismo en la concepción del significado que dificulta la inclusión del componente pragmático y, por último, todas las relaciones parte/todo se conciben como jerárquicas, y no siempre son así. En SIMPLE, por otro lado, los nombres forman un clúster de significado y en las ri se distribuyen también de forma jerárquica dentro de dominios de significado, aunque la estructura de qualia propone mayor dinamismo y multidimensionalidad. No obstante, para la organización semántica se da más importancia a la estructura argumental, es decir, al componente sintáctico que condiciona el significado de la palabra, y sigue sin quedar claro cómo se incluye el componente pragmático. La Tabla 4 muestra una comparación de los aspectos tratados en estos dos modelos.

Tabla 4. Comparación de las ri en los modelos WordNet y SIMPLE

WordNet	Simple
Los nombres se agrupan en synsets Estructura jerárquica herencia Niveles: Entidad Cosa, objeto, Animado/inanimado Primitivos semánticos	Los nombres forman clústers Estructura jerárquica, herencia y otras Niveles: Tipos naturales – Tipos complejos + Qualia

Modelo para las ri

En este trabajo se propone un modelo de análisis para las relaciones de inclusión que formaliza el significado de las palabras, transportable a cualquier área del léxico. En primer lugar, se especifican los conceptos básicos en los que se sustenta dicho modelo, la tipología de las perspectivas y sus características para taxonomizar las ri, posteriormente, se ofrece una aplicación práctica centrada en el léxico del área de la seguridad informática que ha perdido su especificidad y ahora forma parte del vocabulario cotidiano en el español peninsular.

Conviene iniciar por unidad léxica,4 definida como una unidad de conocimiento dentro de un área conceptual (ac) que delimita su significado en las relaciones semánticas; además, es una estructura que tiene componentes formales y su significado se asocia a un cuerpo de contenido conceptual. El ac es el espacio de conocimiento donde se restringe el significado de las palabras, está formada por subáreas conceptuales (sac) que se relacionan por medio de dos tipos de reglas de relación (rr): condicional (rrc) y consecutiva (rrcon). Las rrc relacionan entidades mediante condiciones que activan ciertas zonas de significado y así establecen una relación dentro de una u otra subárea, según sea el foco de selección de los rasgos. Por ejemplo, dentro del área de la seguridad informática, se diferenciará entre la subárea amenaza y la subárea ataque (véase el apartado Aplicación del modelo ri al área de la seguridad informática); las unidades léxicas que las integran son las mismas; el hecho de pertenecer a una u otra dependerá de que se cumpla una condición, así, una bomba lógica es una amenaza, pero si se ejecuta la amenaza entonces una bomba lógica es un ataque. Asimismo, las reglas de relación consecutiva, rrcon, asocian subáreas de conocimiento y unidades léxicas mediante las relaciones causa-efecto y origen-consecuencia, por ejemplo, la protección se activa como consecuencia de las amenazas y la defensa es la consecuencia del ataque. Entonces, la subárea protección es consecuencia de la subárea ataque y así virus es el origen de antivirus.

Una subárea conceptual es parte del área conceptual e incluye conceptos, categorías naturales y artefactos, modelos cognitivos ideales,5 restricciones convencionales y reglas de relación. Cada uno de estos integrantes se especifican a continuación: concepto es una construcción teórica abstracta que se corresponde con una base experimental real y es necesario para organizar el conocimiento. Existen conceptos relacionales –como ‘es un / es un tipo de’, para la hiponimia, y ‘tiene un / es parte de’, para la meronimia– que forman parte de nuestro sistema cognitivo y están integrados en el significado de las unidades léxicas, transmitiendo el significado de una unidad a otra mediante reglas de implicación. Las categorías son agrupaciones de unidades léxicas que comparten rasgos entre sí, tienen un modelo o varios de referencia sociocultural, que puede ser real o ideal y que corresponde a un modelo cognitivo ideal; este último es una estructura abstracta que interviene en los procesos de conceptualización del significado y en ocasiones se identifica con el hiperónimo. Además, la naturaleza del significado de las unidades léxicas es importante, por este motivo se hace la distinción entre categoría natural (representa seres vivos o sustancias no hechas por el hombre que pueden funcionar como significados esenciales, por ejemplo: oro, plata...) y categoría artificial o artefacto (se identifica con objetos manufacturados por el hombre que se definen por su utilidad, por ejemplo: mesa, coche…).

Tipología y características de las perspectivas

Las relaciones de inclusión se entablan a partir de perspectivas que centran el foco de atención en unas determinadas propiedades de significado o en otras; así, establecemos una tipología de cuatro perspectivas basadas en la estructura de qualia de Pustejovsky (1995): origen, forma y función para la hiponimia (Tabla 5) y constitutiva para la meronimia (Tabla 6).

Tabla 5. Perspectivas para la hiponimia

Perspectivas para la hiponimia	Ejemplos
Origen: describe la génesis del objeto, su procedencia.	Programación: virus, antivirus, active X
Forma: señala las características físicas del objeto, tamaño, etc.	Conexión: blutooth, wireless
Función: indica la finalidad y uso del objeto.	Defensa: antivirus, cortafuegos

Tabla 6. Clasificación de las relaciones de meronimia y sus merónimos

Perspectiva constitutiva
Tipos de meronimia	Componentes	Ejemplos
Individuo-colectividad: un concepto que incluye muchas unidades del mismo tipo.	Partes integrantes, continuidad con el significado.	Red: ordenador
Entidad-sustancia: entre el significado de la unidad léxica y la materia que la compone.	Partes integrantes, continuidad con el significado.	Mapa de bits
Entidad-componentes: una unidad está formada por partes.	Partes integrantes o asociadas, que pueden presentar continuidad o no con el significado.	Ordenador: procesador

Las perspectivas tienen dos características destacadas; una es su identificación con los conceptos relacionales ‘es un / es un tipo de’, que forman parte de nuestro sistema cognitivo, están integrados en el significado de las unidades léxicas y transmiten la herencia de significado en consonancia con la perspectiva utilizada al establecer las ri. Y la otra característica está determinada por el valor de dos grupos de rasgos que denominamos idiosincrásicos y taxonómicos.

Los rasgos idiosincrásicos están relacionados con la perspectiva constitutiva, indican las propiedades formales intrínsecas de los nombres que condicionan los diferentes tipos de relaciones meronímicas. Estos tienen dos valores [+ / –]:
[± delimitado] o [±d], [± estructura interna] o [±i] (Jackendoff, 1991), además añadimos el rasgo [± animado] o [±a], porque se considera definitorio en la caracterización de los merónimos. El rasgo [± delimitado] o [±d] indica que el significado se puede o no computar, es decir, indica si el nombre es contable o incontable, por ejemplo: ordenador [+d], hardware [–d]. El rasgo [± estructura interna] o [±i] se refiere a la individualidad o a la pluralidad del concepto, o sea, si el nombre es individual o colectivo, por ejemplo: equipo [+i], ordenador [–i]. Y el rasgo [± animado] o [±a], si son seres vivos o no, por ejemplo: programador [+a], chip [–a]. Las relaciones de meronimia están determinadas por los rasgos idiosincrásicos, así pues se establecen diferentes tipos de relaciones parte/todo que se pueden clasificar en individualidad-colectividad, entidad-sustancia, entidad-componentes, según Jackendoff (1991). En consecuencia, la palabra hardware se puede descomponer en [–d, +i, –a], estableciendo una relación de meronimia: entidad-componentes (Tabla 6).

Los rasgos taxonómicos: funcionales, formales, genéticos y constitutivos están íntimamente ligados con las perspectivas propuestas en las ri. Los rasgos funcionales indican la actividad y el uso que tiene la unidad léxica, por ejemplo, un antivirus mantiene la seguridad informática. Los rasgos formales se perciben física o psíquicamente mediante el conocimiento experimental que proporcionan los sentidos, así un antivirus, su forma, es un programa informático. Los rasgos genéticos señalan la procedencia de la unidad léxica y un antivirus surge a consecuencia de los virus. Los rasgos constitutivos indican las propiedades de los merónimos que conforman al holónimo, considerado este como un espacio constituido por partes distribuidas de acuerdo con las propiedades de cohesión y continuidad de significado (Cruse, 2002a, 2002b), las cuales nos llevan a distinguir entre partes integrantes y partes asociadas.6 Las partes integrantes indican que hay continuidad de significado y cohesión, por ejemplo, un ordenador tiene una placa base, un procesador…, y las partes asociadas se caracterizan por presentar discontinuidad y autonomía de los componentes, por ejemplo, un ordenador puede tener una webcam, un escáner… En la Tabla 6 se muestran los diferentes tipos de relaciones de meronimia y la clasificación de sus correspondientes merónimos ilustrados con ejemplos del área informática.

Plantilla de análisis

Las características de las unidades léxicas quedan reflejadas en la plantilla de análisis para la especificación formal de todos sus ingredientes de significado, a saber, el área conceptual y la subárea a la que se adscribe, si es una categoría natural o un artefacto, los rasgos taxonómicos e idiosincrásicos, las relaciones de hiponimia-hiperonimia y de holonimia-meronimia que mantiene y, por último, una muestra de su actualización en el discurso. En la Figura 4 se muestra la plantilla de la unidad léxica antivirus.

Figura 4. Plantilla para la especificación formal de antivirus

UNIDAD LÉXICA: Antivirus

Naturaleza del significado: artefacto

Subárea: PROTECCIÓN / DEFENSA

RRC: Si la protección se activa entonces surge la defensa.

RRCON: La defensa es la consecuencia de aplicar la protección.

Perspectivas para la taxonomía:

• Origen:

• Forma: programación.

• Función: defender la seguridad de la red informática.

• Relación parte/todo: entidad-componentes

• Partes implicadas: partes integrantes y adicionales

Hiperónimo: aplicaciones informáticas

Cohipónimos: filtros antispam, sniffer…

Holónimo de vacuna, escáner, antiespía…

Es el más popular de su categoría.

Funciones

Un antivirus ES UNA aplicación informática. / Un antivirus ES UN TIPO DE aplicación informática.

Un antivirus TIENE, escáner, vacunas, programas antiespías…

Rasgos idiosincrásicos: [+d] [–i]

Rasgos de perspectiva

• Genéticos:

• Formales: programa.

• Funcionales: identificación, prevención y eliminación de infecciones.

• Constitutivos: integrantes: rutina, subprograma, funciones

En el discurso

Este tipo de errores se producen habitualmente cuando se ejecuta el proceso de actualización de Service Pack mientras en memoria se ejecutan otros programas (residentes, antivirus, tareas programadas…). REAL ACADEMIA ESPAÑOLA: CREA <http://www.rae.es> [21/07/2010].

Representación estructural de las ri

La hiponimia se considera una relación jerárquica con distintos niveles de inclusión, se puede representar como un esquema arbóreo donde las ramas heredan el significado de los nodos raíz o hiperónimos. Hay varios niveles en las jerarquías que coinciden con distintos grados de abstracción del significado. El nivel superior es el más abstracto y coincide con la sac, después el hiperónimo, seguido del nivel general o básico más determinado; aquí se categorizan las unidades del léxico común y, con frecuencia, hay alguna unidad que funciona como prototipo. El nivel más subordinado presenta unidades especializadas, y cuanto más se descienda de nivel, mayor será el tecnicismo de las mismas y menos tendrá en común con el hiperónimo. La Figura 5 muestra los niveles jerárquicos mencionados.

La meronimia puede considerarse una relación jerárquica con una representación arbórea, aunque también empleamos una representación radial, núcleo-periferia (Figura 6), si las partes implicadas son asociadas (ver apartado Tipología y características de las perspectivas).

Figura 5. ri en una estructura arbórea Figura 6. Representación de la meronimia

En resumen, el modelo de análisis que presentamos consta de varios pasos: el primero es delimitar y contextualizar el área conceptual o área de conocimiento donde se establecen las relaciones semánticas, la cual está formada por subáreas conceptuales interrelacionadas por rr y que representan al elemento más abstracto, que incluye a otras unidades léxicas. El segundo consiste en seleccionar las unidades léxicas; en el tercero se definen las subáreas y se agrupan en ellas; el cuarto es establecer la perspectiva desde la que se entablarán las ri. Posteriormente se caracterizan las unidades léxicas por una serie de rasgos taxonómicos e idiosincrásicos. Todos los ingredientes de significado quedarán reflejados en la plantilla de análisis, donde se formalizan las propiedades de las unidades léxicas. Y, para finalizar, empleamos esta metodología de análisis en algunas ri dentro de un área conceptual. Este modelo de análisis es transportable a cualquier área de conocimiento; en el apartado siguiente se aplica al área de la seguridad informática.

Aplicación del modelo ri al área de la seguridad informática

Inicialmente, se contextualiza y delimita el área conceptual a partir de los principios básicos de seguridad de la informática: confidencialidad, irrefutabilidad, disponibilidad e integridad, que se muestran en los manuales de informática. Posteriormente, se seleccionan las unidades léxicas,7 que ahora forman parte del vocabulario cotidiano, y se agrupan en diferentes subáreas:8 configuración de la red, amenaza-ataque y protección-defensa; se destaca su naturaleza de artefactos, lo cual implica que se caracterizan por el valor de sus rasgos funcionales, por lo que se establece la perspectiva funcional para entablar la relación de hiponimia, y desde la perspectiva constitutiva se establecen las relaciones de meronimia. Se analizan los ingredientes de significado de cada una de estas unidades léxicas mediante nuestra plantilla de análisis (Figura 4) y se ejemplifican las distintas ri, sólo en la sac protección/defensa.

Esta sac está integrada por unidades léxicas artefactos con un valor mixto en el rasgo funcional: la protección y/o defensa de la red informática, según las rrc, hacen variar los valores de los rasgos funcionales, así por ejemplo, si la protección se activa entonces surge la defensa o un antivirus pertenece a la subárea protección, pero si hay un ataque entonces un antivirus pertenece a la defensa. La taxonomía representada en la Figura 7 establece medidas de seguridad como hiperónimo y holónimo a la vez. Las relaciones de hiponimia parten de este nodo superordinado caracterizado por el rasgo genético: programación; el formal: software o aplicaciones informáticas, y el funcional: proteger y defender los sistemas informáticos ante las amenazas. Estos rasgos son heredados por los hipónimos: control de acceso, copia de seguridad, certificado digital, aplicaciones informáticas, norma ISO 17799, criptografía, cortafuegos (aparece unido a aplicaciones informáticas porque puede ser un elemento de hardware y software). Entre todos estos cohipónimos, antivirus es el término más popular para identificar medidas de seguridad, tambien se destacan cortafuegos y copia de seguridad, mientras que criptografía es el más desconocido, según nuestras encuestas.9

Medidas de seguridad, como holónimo, se caracteriza por los rasgos idiosincrásicos [–d, +i, –a], los cuales indican que hay más de una unidad léxica implicada en su significado y se da una relación entidad-componentes; su rasgo constitutivo implica que los merónimos se definen como partes adicionales o asociadas que funcionan de forma autónoma e independiente. En consecuencia, se pueden representar como una estructura radial de partes complementarias, como se muestra en la Figura 8. Y también como una estructura jerárquica, como en la Figura 7, donde el nivel inmediatamente subordinado a medidas de seguridad está formado por integrantes con autonomía y discontinuidad de significado, es decir, por las partes asociadas: control de acceso, copia de seguridad, certificado digital, criptografía, aplicaciones informáticas, cortafuegos y dongle. En un segundo nivel de subordinación se establece una relación entidad-componentes, cuyo holónimo control de acceso se identifica por los rasgos [+d, –i, –a], y tiene como merónimos a autenticación, autorización y rastreo, que son partes integrantes cohesionadas que consiguen la continuidad del significado del holónimo, por tanto su representación estructural es lineal para reflejar la secuencialidad de su interpretación, según puede observarse en la Figura 9.

Figura 7. Representación estructural de las ri en la subárea protección/defensa

Conclusiones

En este trabajo presentamos en primer lugar los puntos en común y las diferencias de dos propuestas computacionales, WordNet y SIMPLE, al tratar las relaciones semánticas de inclusión, sin perder de vista que cada una de estas propuestas responde a objetivos y concepciones diferentes. Mientras WordNet (1987) es una base de datos multilingüe con una concepción relacional del significado léxico, donde se destacan las características semánticas del léxico desde una perspectiva estructuralista (Lyons, [1975] 1989; Cruse, 1986), SIMPLE es una base de conocimiento multilingüe, cuya propuesta lexicográfica se basa en la concepción generativa del léxico de Pustejovsky (1995) con diferentes niveles de análisis en los que los aspectos semánticos y sintácticos se encuentran integrados dentro de marcos semánticos.

En segundo lugar presentamos nuestro modelo de análisis para las ri, que combina el planteamiento jerárquico de WordNet y el tratamiento multidimensional del significado de las unidades léxicas propuesto por SIMPLE. Mostramos así un modelo de análisis donde el área y la subárea formalizan el conocimiento pragmático de las unidades léxicas, incorporándolas como propiedades definitorias del significado. Destacamos cómo las ri, hiponimia y meronimia, se entablan siempre desde perspectivas aliadas a los rasgos taxonómicos que actúan como punteros entre áreas y subáreas de conocimiento diferentes. Creemos que la formalización de las ri planteada aquí puede contribuir a mejorar el tratamiento computacional por niveles del léxico en las bases de datos léxicas, en ontologías y en los sistemas de recuperación de la información.

Bibliografía

Aguado de Cea, G. (1994). Diccionario comentado de terminología informática. Madrid: Paraninfo.

Bárcena, E. & T. Read (1999). Hacia un modelo de formalización del conocimiento léxico con fines informáticos. Epos, XV: 425-434.

Beekman, G. (2005). Introducción a la informática. Madrid: Pearson.

Bosque, I. (1999). El nombre común. En I. Bosque & V. Demonte (dirs.). Nueva gramática descriptiva de la lengua española (pp. 4-75). Madrid: Espasa-Calpe.

Brown, C. (2002a). Paradigmatic relations of inclusion and identity, I: Hyponymy. En D. A. Cruse, F. Hundsnurscher, M. Job & P. R. Lutzeier (eds.). Lexikologie: Ein internazionales Handbuch zur Natur und Struktur von Wörtern und Wortschätzen. 1. Halbband. Lexicology: an international handbook on the nature and structure of words and vocabularies (pp. 472-479). Berlín/Nueva York: Walter de Gruyter.

——— (2002b). Paradigmatic relations of inclusion and identity, I: Meronymy. En D. A. Cruse, F. Hundsnurscher, M. Job & P. R. Lutzeier (eds.). Lexikologie: Ein internazionales Handbuch zur Natur und Struktur von Wörtern und Wortschätzen. 1. Halbband. Lexicology: an international handbook on the nature and structure of words and vocabularies (pp. 480-485). Berlín/Nueva York: Walter de Gruyter.

Chaffin, R. & D. Herrmann (1984). The similarity and diversity of semantic relations. Memory and Cognition, 12 (2): 134-141.

——— (1988). The nature of semantic relations: a comparison of two approaches. En M. Evens (ed.). Relational models of the lexicon (pp. 289-334). Cambridge: Cambridge University Press.

Clausner, T. & W. Croft (1999). Domains and image schemas. Cognitive Linguistics, 10: 1-31.

Croft, W. & D. A. Cruse (2004). Cognitive Linguistics. Cambridge: University Press.

Cruse, D. A. (1986). Lexical Semantics. Cambridge: Cambridge University Press.

——— (2002a). Descriptive models for sense relations, II: Cognitive Semantics. En D. A. Cruse, F. Hundsnurscher, M. Job & P. R. Lutzeier (eds.). Lexikologie: Ein internazionales Handbuch zur Natur und Struktur von Wörtern und Wortschätzen 1. Halbband. Lexicology: an international handbook on the nature and structure of words and vocabularies (pp. 542-549). Berlín/Nueva York: Walter de Gruyter.

——— (2002b). Dimension of meaning, II: Descriptive meaning. En D. A. Cruse, F. Hundsnurscher, M. Job & P. R. Lutzeier (eds.). Lexikologie: Ein internazionales Handbuch zur Natur und Struktur von Wörtern und Wortschätzen 1. Halbband. Lexicology: an international handbook on the nature and structure of words and vocabularies (pp. 350-355). Berlín/Nueva York: Walter de Gruyter.

——— (2004a). Lexical facets and metonymy. Revista Ilha do Desterro. A journal of English language, literatures in English and cultural studies. Florianópolis: Brasil, 0 (47): 73-96.

——— (2004b). Meaning in language: an introduction to Semantics and Pragmatics. Oxford: Oxford University Press.

De Miguel, E. (ed.) (2009). Panorama de la lexicología. Barcelona: Ariel.

Evans, V. & M. Green (2006). Cognitive Linguistics. An introduction. Edimburgo: Edinburgh University Press.

Irazazábal, A. (1996). Principios metodológicos del trabajo terminológico. Barcelona: Realiter.

Jackendoff, R. (1990). Semantic structures. Cambridge, Massachusetts/Londres: The mit Press.

——— (1991). Parts and boundaries. En B. Levin & S. Pinker (eds.). Lexical and conceptual Semantics. Amsterdam: Elsevier Science Publishers.

——— (1997). Semantics and cognition. En S. Lappin (ed.). The handbook of contemporary semantic theory (pp. 539-559). Malden: Blackwell Publishers.

——— (2003). Foundations of language. Brain, meaning, grammar, evolution. Nueva York: Oxford University Press.

Katz, J. & J. Fodor (1963). The structure of a semantic theory. Language, 39 (2): 170-210.

Kleiber, G. (1995). La semántica de los prototipos. Categoría y sentido léxico. Madrid: Visor Libros.

Lakoff, G. (1987). Women, fire and dangerous things: what categories reveal about the mind. Chicago: The University of Chicago Press.

Langacker, R. (1991). Foundations of Cognitive Grammar, I. Theoretical prerequisites y II. Descriptive application. Stanford: Stanford University Press.

Lappin, S. (ed.) (1997). The handbook of contemporary semantic theory. Malden: Blackwell Publishers.

Lenci, A., N. Bel, F. Busa, N. Calzolari, E. Gola, M. Monachini, A. Ogonowski, I. Peters, W. Peters, N. Ruimy, M. Villegas & A. Zampolli (2000). SIMPLE: a general framework for the development of multilingual lexicons. International Journal of Lexicography, 13 (4): 249-263. doi:10.1093/ijl/13.4.249.

Lyons, J. ([1975] 1989). Semántica. Barcelona: Teide.

——— (2002). Sense relations: an overview. En D. A. Cruse, F. Hundsnurscher, M. Job & P. R. Lutzeier (eds.). Lexikologie: Ein internazionales Handbuch zur Natur und Struktur von Wörtern und Wortschätzen 1. Halbband. Lexicology: an international handbook on the nature and structure of words and vocabularies (pp. 466-472). Berlín/Nueva York: Walter de Gruyter.

Martín Gascueña, R. (2010). Las relaciones de inclusión en las unidades léxicas. (Tesis doctoral de la Universidad Carlos III de Madrid). [Versión electrónica. En <http://e-archivo.uc3m.es/bitstream/10016/9986/6/TESIS%20ROSA%20MARTIN%20GASCUENA.pdf>]

——— (2012). Las ri en el área de la seguridad informática. En M. Bargalló, E. Forgas & A. Nomdedeu (eds.). Avances de lexicografía hispánica. II: 531-542. Tarragona: URV.

Miller, G. ([1985] 1993). Nouns in WordNet: a lexical inheritance system. Five papers on WordNet. Princeton University. [Versión electrónica. Consulta: 13 de septiembre de 2009 en <http://pami.uwaterloo.ca/~khoury/ece457s07/Miller1993.pdf>]

———, G., R. Beckwith, C. Fellbaum, D. Gross & K. Miller (1993). Introduction to WordNet: an on-line lexical database. Five papers on WordNet. Princeton University. [Versión electrónica. Consulta: 13 de septiembre de 2009 en <http://wordnetcode.princeton.edu/5papers.pdf>]

Pustejovsky, J. (1995). The generative lexicon. Massachusetts: The mit Press Cambridge.

——— (2005). Generative lexicon. En K. Brown (ed.). Encyclopedia for Language and Linguistics, vol. 14. Oxford: Elsevier Science.

Rosch, E. (1973). Natural categories. Cognitive Psychology, 4: 328-350.

——— (1978). Principles of categorization. En B. Lloyd & E. Rosch (eds.). Cognition and categorization (pp. 27-48). Hillsdale, NJ: Lawrence Erlbaum.

———, C. B. Mervis, W. D. Gray, D. M. Johnson & P. Boyes-Braem (1976). Basic objects in natural categories. Cognitive Psychology, 7: 382-439.

Ruimy, N. (2006). Structuring a domain vocabulary in a general knowledge environment. [Versión electrónica. Consulta: 23 de septiembre de 2009 en <http://www.google.es/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1&ved=0CDAQFjAA&url=http%3A%2F%2Fwww.researchgate.net%2Fpublication%2F228953579_Structuring_a_Domain_Vocabulary_in_a_General_Knowledge_Environment%2Ffile%2F32bfe50effb68dec88.pdf&ei=KBs7U6u9PKnW0QXD4oFg&usg=AFQjCNEJcY5cOAQ_nIxeH8JO8HyOtCwo-g&sig2=HDBZvgDA6BEtdGO8O4H-gA&bvm=bv.63934634,d.d2k>]

Ruíz de Mendoza, F. (2001). Lingüística cognitiva: semántica, pragmática y construcciones. Círculo. Madrid: Universidad Complutense de Madrid.

Smith, L. & L. Samuelson (1997). Perceiving and remembering: category stability, variability and development. En K. Lamberts & D. Shanks (eds.). Knowledge, concepts and categories (pp. 161-195). Hove: Psychology Press.

Talmy, L. (2000). Toward a cognitive semantics, vol. I: Concept Structuring Systems. Cambridge, Massachusetts: mit Press.

Vossen, P. (1998). EuroWordNet: building a multilingual database with word nets for European languages. En K. Choukri, D. Fry & M. Nilsson (eds.). The ELRA Newsletter, 3 (1).

Wierzbicka, A. (1972). The main principles of NSM approach. [Versión electrónica. Consulta: 4 de febrero de 2008 en <https://researchers.anu.edu.au/researchers/wierzbicka-a>]

——— (1996). Semantic: primes and universals. Oxford: Oxford University Press.

——— (1999). Emotional universals. Language Design, 2: 23-69.

Wierzbicka, A. (2002). Lexical decomposition, II: Conceptual axiology lexicology. En D. A. Cruse, F. Hundsnurscher, M. Job & P. R. Lutzeier (eds.). Lexikologie: Ein internazionales Handbuch zur Natur und Struktur von Wörtern und Wortschätzen 1. Halbband. Lexicology: an international handbook on the nature and structure of words and vocabularies (pp. 256-268). Berlín/Nueva York: Walter de Gruyter.

Páginas web

ABC	Periódico español, <http://www.abc.es>
ATI	Asociación de Técnicos de Informática. Glosario básico inglés-español, <http://www.ati.es/novatica/glointv2.html>
CVC	Centro Virtual Cervantes. Banco de neologismos, <http://cvc.cervantes.es/obref/banco_neologismos>
CREA	Corpus de Referencia del Español Actual. Real Academia Española, <http://corpus.rae.es/creanet.html>
El Mundo	Periódico español, <http://www.elmundo.es>
El País	Periódico español, <http://www.elpais.com>
EuroWordNet	Base de datos multilingüe, <http://www.illc.uva.nl/EuroWordNet>
GTI	Glosario de Terminología Informática, <http://www.tugurium.com/gti/presentacion.asp>
WordNet 1.5	Programa de gestión e interfaz y base de datos léxica del inglés, elaborado por G. A. Miller y su equipo en la Universidad de Princeton, <http://vancouver-webpages.com/wordnet>
WordReference	Diccionario multilingüe online, <http://www.wordreference.com>

Notas

1 Esto plantea dos grandes problemas a la lexicografía: la sinonimia y la polisemia.

2 El léxico generativo se caracteriza como un sistema computacional que incluye cuatro niveles estructurales de representación:

Estructura argumental: especificación del número y el tipo de argumentos lógicos y cómo se realizan sintácticamente.
Estructura eventiva: definición del tipo de evento de un elemento léxico y una frase. Clases incluidas: estado, proceso y transición; los eventos pueden tener una estructura subeventual.
Estructura de qualia o modos de explicación: está formada por diferentes roles o qualia: formal, constitutivo, télico y agentivo.
Estructura léxica heredada: identificación de cómo una estructura léxica está relacionada con otras estructuras en el lexicón mental y su contribución a la organización global de un lexicón.

En el léxico generativo de Pustejovsky, la composición del significado de las palabras en el contexto se da cuando se relacionan inferencialmente estos cuatro niveles mediante las operaciones de transformación semánticas: coerción o recategorización, co-composición, ligamiento selectivo, las cuales indican que las combinaciones con otras unidades están bien formadas.

3 La estructura de qualia o modos de explicación está formada por diferentes roles o qualia.

Formal: representa la información que permite distinguir el contenido de una palabra de otras relacionadas con ella, dentro de su dominio correspondiente.
Constitutivo: recoge la información sobre la entidad y sus partes.
Télico: especifica la finalidad de la entidad.
Agentivo: detalla los factores que originan la existencia de la entidad (Pustejovsky 1995: 76).

4 Los términos unidad léxica y palabra se utilizan indistintamente.

5 Los modelos cognitivos idealizados (mci), propuestos por Lakoff (1987), son modelos teóricos básicos ideales que organizan nuestro conocimiento y funcionan como marcos o dominios.

6 Hemos simplificado la clasificación de las partes de Cruse (1986, 2002a, 2002b, 2004a, 2004b).

7 El material recopilado procede de manuales de informática básica e introducción a la informática, de glosarios online y diccionarios especializados. Se han descartado los términos demasiado técnicos, ya que el objetivo no es el léxico especializado, sino el que resulta más familiar a los usuarios de ordenadores españoles sin grandes conocimientos informáticos. La selección de este glosario se basa en la frecuencia de uso con la que aparecen las unidades léxicas en las secciones de tecnología de las ediciones digitales de España de El País, ABC y El Mundo, cuya hemeroteca se puede consultar en internet. También se ha utilizado el Corpus de Referencia del Español Actual (crea), de la Real Academia Española, y el banco de neologismos del Instituto Cervantes.

8 En la elección de la denominación de la subárea y de los hiperónimos hemos optado por los términos más generales o inclusivos que aparecían en las definiciones o descripciones de los conceptos específicos, de los manuales especializados de informática consultados, citados en la bibliografía.

9 Para este estudio se realizaron 75 encuestas a usuarios, hablantes de la variante peninsular del español, habituales de ordenador de entre 20 y 60 años. La finalidad de estas encuestas fue descubrir cuál era el término más conocido y que identifica mejor a las categorías propuestas, además
de descubrir los términos más desconocidos. En la encuesta se indica la edad y la profesión, consta de siete preguntas en las que se da un término hiperónimo y una serie de hipónimos. Se pide señalar los que mejor identifiquen al hiperónimo (destacado en azul en la plantilla) e indicar todas las unidades léxicas que no conozcan. Por último, deben escribir la primera palabra o palabras que asocian con la seguridad informática.

Refbacks