Habilidades de percepción fónica en español / L2 y su relación con el nivel de dominio lingüístico

Ana Blanco Canales

HABILIDADES DE PERCEPCIÓN FÓNICA EN español/L2 Y SU RELACIÓN CON EL NIVEL DE DOMINIO LINGÜÍSTICO

PHONETIC PERCEPTION SKILLS IN SPANISH AS A SECOND LANGUAGE AND THEIR RELATIONSHIP WITH LANGUAGE PROFICIENCY

Ana Blanco Canales

Universidad de Alcalá, Facultad de Filosofía y Letras, Colegio San José de Caracciolos

Resumen

La adquisición del componente fónico de una lengua extranjera implica el desarrollo tanto de nuevas habilidades de producción como de complejas estrategias de percepción. Se asume que tal desarrollo se da de forma paralela, dado que son actividades complementarias, dependientes la una de la otra. Con objeto de medir las habilidades perceptivas de un grupo amplio de estudiantes de español, analizar qué cuestiones fonéticas les suponen más dificultad y determinar el impacto del nivel de dominio lingüístico sobre la percepción, se aplicó un test a 204 alumnos de español/L2 de diez lenguas maternas diferentes, cuyos niveles de conocimiento de español se sitúan entre el A2 y el C1 (según el mcer). Las 61 200 respuestas obtenidas se han analizado estadísticamente. Los datos muestran que los comportamientos perceptivos de los participantes son notablemente homogéneos, sin que se aprecien diferencias significativas en función del dominio lingüístico del hablante, lo que nos lleva a concluir que el desarrollo de las habilidades de percepción en español/L2 sigue un patrón temporal diferente al de producción.

Palabras clave: categorización fonética; competencia lingüística; español como lengua extranjera; corpus oral

Abstract

Acquisition of the phonological component of a foreign language involves developing new production skills and complex perceptual strategies. We assume that both components evolve in parallel, as they are complementary activities that depend on each other. To evaluate the perception skills of a large group of Spanish students, identify what phonetic aspects are more challenging and determine the impact of language proficiency level on perception, 204 students of Spanish as a Second Language (ssl) participated in a perception test. The students were native speakers of ten different languages and their proficiency in Spanish ranged from level A2 to C1 (according to the cefr standard). A total of 61 200 answers were obtained and subjected to statistical analysis. Results show that the perceptive skills of participants were highly homogeneous and no statistically significant differences were found with regard to the native linguistic command of the speaker. We conclude that the development of perception skills in ssl follows a temporal pattern different from that of production skills.

Keywords: phonetic categorization; linguistic proficiency level; Spanish / L2; oral corpu

Fecha de recepción del artículo: 21 de diciembre de 2015

Fecha de recepción de la versión revisada: 11 de mayo de 2016

Fecha de aceptación: 17 de mayo de 2016

La correspondencia relacionada con este artículo debe dirigirse a:

Ana Blanco Canales ana.blanco@uah.es

1. La percepción fónica

La actividad de percibir el habla puede definirse como la sucesiva transformación de segmentos de la onda sonora del habla en representaciones mentales individuales. Se trataría, por tanto, de una tarea de reconocimiento de patrones. Sin embargo, no es algo tan simple, pues cada fonema de la lengua no se corresponde siempre con el mismo conjunto de unidades acústicas. Esta falta de correspondencia acústico-fonémica se manifiesta en dos problemas distintos, aunque relacionados: el de la invariancia y el de la segmentación. El primero tiene que ver con la falta de correspondencia biunívoca entre fragmentos de la señal acústica y fonemas discretos, ya que no existe un conjunto invariante de características acústicas que proporcionen la información necesaria y suficiente para constatar la presencia de un segmento fonológico o, incluso, de un rasgo distintivo (Chomsky & Miller, 1963; Lindblom, 1986; Miller & Jusczyck, 1989). El problema de la segmentación está relacionado con la imposibilidad de fraccionar la señal de habla en unidades autónomas que correspondan a secuencias de fonemas (o de sílabas, o de palabras) (Lindblom, 1986). Ambos problemas son consecuencia del fenómeno de la coarticulación del habla, esto es, del hecho de pronunciar una secuencia de sonidos ajustando la posición de nuestros órganos articulatorios (lengua, labios) a las configuraciones que estos han de adoptar para producir los sonidos inmediatamente anteriores y posteriores. Esto da lugar a que los movimientos articulatorios efectuados para producir sonidos sucesivos se solapen en el tiempo, lo que origina diferencias acústicas en un mismo segmento en función del contexto acústico-articulatorio en que este se localiza.

Pese a ello, somos capaces de descubrir constancias perceptivas y, de esta forma, separar e identificar eficazmente sonidos de habla. ¿Cómo lo hacemos? Según la teoría motora (Liberman, Delattre & Cooper, 1958), las propiedades invariantes residen en los procesos motores que subyacen a la emisión acústica, es decir, los patrones invariantes se hallan en las órdenes motoras que el cerebro envía a los articuladores. La percepción del habla, entonces, se lleva a cabo por referencia a los patrones articulatorios existentes en la mente del oyente, si bien no se hallan en el nivel superficial de controles neuromusculares, sino en un nivel más abstracto que involucra a los gestos fonéticos del hablante. Así, la invarianza no se da en los movimientos de los articuladores sino en las estructuras remotas que controlan los movimientos, y que se corresponderían con las intenciones del hablante (Liberman & Mattingly, 1985). Esto significa que el estímulo distal de la percepción no es la estructura del estímulo de una determinada categoría fonológica, sino el gesto fonético. De hecho, la teoría no asume la necesidad de un proceso de asociación entre la señal y una categoría fonológica concreta, dado que las categorías fonológicas se nombran a sí mismas (Studdert-Kennedy, 1976).

Las teorías auditivas, por el contrario, defienden que la cadena de habla es codificada a partir de las características acústicas distintivas sin que se requiera conocimiento articulatorio alguno. Cada fonema está constituido por un conjunto de características distintivas y cada una de ellas tiene determinados correlatos acústicos. El sistema auditivo registra estos correlatos, gracias a lo cual es capaz de establecer las correspondencias adecuadas entre señales sonoras y categorías fonológicas (Fant, 1962).

Por su parte, la teoría de la invarianza acústica (Stevens & Blumstein, 1981) afirma que las propiedades invariantes no se encuentran en componentes individuales de la señal acústica (picos espectrales o transiciones, por ejemplo), sino en propiedades acústicas integradas. Estas propiedades se corresponden con los rasgos distintivos propios de las lenguas e implican la coincidencia de varios componentes individuales en un rango de tiempo de varias decenas de milisegundos (Blumstein, 1986). Por otra parte, el sistema perceptivo puede utilizar también propiedades acústicas aisladas, de carácter secundario. Esta teoría podría alinearse con las auditivas, ya que lo que se está proponiendo es que el sistema auditivo realiza un conjunto de transformaciones sobre la señal, gracias a lo cual es posible percibir patrones acústicos invariantes y categorizar los elementos.

Por último, las teorías conexionistas —las más recientes— parten de la idea de que en la mente solo existe una capacidad general (la de establecer asociaciones) sobre la que se articulan todos los modos de actividad mental posible. Sobre esta base, McClelland y Elman (1986) proponen el modelo TRACE de reconocimiento de palabras, que consiste en una red de unidades interconectadas agrupadas en tres niveles. El primero corresponde a la detección de los rasgos fonéticos extraídos a partir de las propiedades espectrales de la señal acústica; el segundo, a la toma de decisiones fonémicas según los rasgos fonéticos detectados, y el tercero, a la detección de palabras según las unidades fonémicas. Las unidades se activan según la información que reciben de las unidades del nivel inferior y envían información a otras unidades del nivel superior. El nivel de las propiedades acústicas consta de un conjunto de detectores sensibles a ocho rangos de valores distintos para cada uno de los quince parámetros. TRACE usa información diseminada en la señal para identificar fonemas, muestra tendencia a la percepción categórica, produce relaciones de intercambio en la identificación de fonemas y presenta regularidades fonotácticas. El modelo, incluso, parece utilizar información sobre el nivel de activación de las unidades fonémicas de una parte de la red para ajustar la fuerza de las conexiones que determinarán el tipo de características que activarán cada tipo de fonemas en partes adyacentes de la red. Esto significa que la red es sensible a las influencias coarticulatorias propias de los fonemas.

A nuestro entender, la percepción fónica es el resultado de la interacción compleja de varios elementos (patrones articulatorios, gestos fónicos, información acústica, redes de conexiones), en la que influyen aspectos tan diversos como el entorno fónico o el tipo de tarea que debe resolverse.1 Como señala Marrero (2008: 240), la descodificación óptima de la señal supone poner en juego toda nuestra capacidad para utilizar de la forma más rentable posible los elementos acústicos y lingüísticos a nuestra disposición, creando estrategias específicas según el medio y la tarea y modificando su prioridad en función de nuestras necesidades comunicativas específicas. Este proceder multidimensional y estratégico es el mismo tanto para la L1 como para la L2; lo que varía son los procesos perceptivos específicos relacionados con la adquisición, cuestión que tratan de explicar diferentes modelos y que revisaremos en el próximo apartado.

2. La percepción fónica en la lengua extranjera

La percepción fónica en L2 se ha abordado desde dos perspectivas convergentes, pero diferenciadas: la fonológica y la fonética. Tanto en una como en otra, distintos modelos tratan de explicar cómo tiene lugar este proceso acústico y psicolingüístico. A la primera pertenecen el Ontogeny Phylogeny Model (opm; Major, 1987) y el Feature Competition Model (fcm; Brown, 2000). Ambos se interesan sobre todo por los procesos de formación del sistema fonológico en la L2 y por la influencia de la L1 en su adquisición. En cuanto a la perspectiva fonética, los modelos más influyentes son el Perceptual Assimilation Model (pam; Fowler, 1986; Best, 1994), el Native Language Magnet (nlm; Kuhl, 1991, 2000) y el Speech Learning Model (slm; Flege, Munro & MacKay, 1995). De una manera u otra, los tres se preocupan por cómo se pasa de un estado inicial a un estado final, es decir, del progreso o desarrollo de la función perceptiva.

El opm (Major, 1987) no ofrece propuestas explícitas sobre la representación del sonido, la correspondencia de la señal acústica con las unidades abstractas o el funcionamiento del sistema fonológico y, en consecuencia, no resulta de utilidad para entender cómo se proyecta la señal de voz sobre las representaciones fonológicas ni para describir y explicar la percepción del sonido y su adquisición (Escudero, 2005: 129). El modelo se limita a describir las etapas de la adquisición fónica y su correlación con los procesos de transferencia y desarrollo.

El fcm (Brown, 2000) se basa en la hipótesis de que las características fonológicas más frecuentes en una lengua son las más prominentes y, por lo tanto, son las que determinan la percepción y la categorización de nuevos sonidos de la L2. El modelo, que presupone un proceso de asimilación perceptiva entre L1 y L2, propone, además, un algoritmo para determinar el nivel de prominencia de una característica como base para las predicciones.

El pam (Fowler, 1986; Best, 1994) defiende que la percepción del sonido es el producto del aprendizaje perceptual, lo que significa que los oyentes solo pueden recoger de manera eficiente invariantes gestuales de su entorno de idioma nativo. Afirma que los sonidos no nativos se perciben mediante la comparación de las similitudes y diferencias entre los patrones de la L1 y la L2, especialmente, cuando el oyente tiene poca o ninguna experiencia lingüística en la L2. Best (1994, 1995) sostiene que, dependiendo de la distancia entre los segmentos de L1 y L2 en el espacio fonológico nativo, los segmentos no nativos se pueden percibir de tres maneras:

a) como segmentos incategorizables, cuando los sonidos de la L2 se perciben como gestos de habla, pero su estructura no se asimila a una categoría específica de la L1;

b) como segmentos no asimilables, lo que ocurre cuando los segmentos de la L2 no se perciben como un sonido del habla y su organización gestual ocupa un área fuera del espacio fonológico nat ivo, no siendo asimilado a ninguna categoría de la L1;

c) como segmentos categorizables, si las invariantes gestuales de ambas lenguas se perciben como similares. En este caso, el sonido de la L2 es asimilado a una categoría de la L1, lo que puede ocurrir de tres maneras diferentes: como un buen ejemplo de la categoría de la L1; como un ejemplo aceptable de la categoría de la L1, aunque no es ideal; como un ejemplo desviado de la categoría de la L1.

A nuestro entender, este es el modelo que mejor explica la complejidad de los procesos perceptivos durante la adquisición de una lengua extranjera.

El nlm (Kuhl, 1991, 2000) argumenta que existen complejos mapas perceptuales neuronales que subyacen a la percepción sonora y que las asignaciones neuronales dan como resultado un conjunto de categorías fonéticas. La percepción se ve como un factor dependiente de cada lengua particular porque es moldeada por la experiencia lingüística anterior (Kuhl, 2000). Según Iverson y Kuhl (1995, 1996), es lo que explicaría que las asignaciones perceptuales difieran sustancialmente entre hablantes de diferentes idiomas, dado que las estrategias de percepción adecuadas en la lengua nativa son completamente diferentes de las que se requieren en otras lenguas. Basándose en una idea no muy distinta a la del pam, el nlm concibe un espacio perceptivo en el cual los prototipos de sonidos nativos actúan como un imán que atrae hacia sí los sonidos de la le perceptivamente parecidos. El modelo predice, así, que los casos de dos sonidos no nativos similares a un sonido de la L1 resultarán problemáticos para hablantes no nativos, ya que no conseguirán discriminarlos.

En el slm (Flege, Munro & MacKay, 1995), la percepción del sonido se define como la discriminación de las características o propiedades fonéticas de la señal con el fin de identificar la adecuada posición de los alófonos o categorías fonémicas que se almacenan en la memoria a largo plazo. Las representaciones perceptivas y las asignaciones categoriales del sonido parecen estar fusionadas pues, para realizar el cartografiado de la señal de voz, se recurre a las categorías almacenadas. Al igual que en los modelos del pam (Fowler, 1986; Best, 1994) y del nlm (Kuhl, 1991, 2000), la percepción en el slm (Flege, Munro & MacKay, 1995) se entiende como un hecho específico del idioma, dado que existen diferencias entre unas lenguas y otras en el procesamiento de características o propiedades fonéticas. Es precisamente la diferente organización de los sistemas fonológicos de la L1 y la L2 la que determina el proceso perceptivo en la lengua extranjera. El slm (Flege, Munro & MacKay, 1995) propone diferenciar entre aquellos sonidos semejantes en ambas lenguas y los que sí existen en la L2 pero no en la L1. Mientras que los primeros experimentan un proceso de asimilación, los segundos son suficientemente diferentes para que el hablante no nativo perciba la diferencia y cree una nueva categoría fonológica. Si esta representación mental, es decir, la discriminación, se lleva a cabo de la manera adecuada, la producción no presentará problemas, presuponiendo, así, que la percepción es previa a la producción. Según el modelo, es paradójicamente la proximidad entre los sistemas de la L1 y la L2 la que generará transferencias y dificultades articulatorias.

Pese a la diversidad de visiones del fenómeno de la percepción en lengua extranjera, todos los modelos teóricos consideran que la adquisición del componente fónico de una lengua extranjera implica el desarrollo tanto de nuevas habilidades de producción como de complejas estrategias de percepción y asumen que tal desarrollo se da de forma paralela, dado que son actividades complementarias, dependientes una de la otra. Sabemos por numerosos estudios (especialmente, de carácter contrastivo) que la producción fónica en lengua extranjera es una destreza lingüística de avance lento, por detrás siempre del resto de las destrezas, con numerosos casos de fosilización (véase Blanco & Nogueroles, 2013). Es necesario comprobar si esto mismo sucede en el caso de la percepción, para lo que hemos emprendido un estudio que analiza el grado de aciertos y errores perceptivos en relación con el nivel de competencia lingüística.

3. Estudio perceptivo de estudiantes de español como lengua extranjera

Con objeto de comprender mejor los procesos de adquisición del componente fónico del español/L2 hemos llevado a cabo un análisis perceptivo en el que han participado 300 estudiantes internacionales de la Universidad de Alcalá. Nos planteamos los siguientes objetivos: a) medir las habilidades perceptivas del grupo de estudiantes que conforman la muestra (índices de aciertos y errores); b) analizar qué aspectos fónicos (variables lingüísticas o dependientes) suponen más dificultad; valorar las diferencias existentes entre unos aspectos y otros en cuanto al grado de dificultad, y c) determinar el impacto del nivel de dominio lingüístico2 (variable independiente) sobre la percepción y, con ello, la evolución del proceso de adquisición.

Teniendo en cuenta los modelos y paradigmas descritos sobre percepción (tanto para L1 como para L2), la hipótesis inicial del estudio ha sido que el desarrollo de la competencia fónica en L2 implica el avance paralelo de las habilidades de producción y el de las de percepción, así como que tal avance se da de forma directamente proporcional al del dominio lingüístico.

3.1. El corpus, la muestra y el test de percepción

Nuestro estudio forma parte del proyecto aacfele (Adquisición y aprendizaje del componente fónico del español como lengua extranjera),3 cuyo resultado más visible es el corpus oral, compuesto de un corpus de producción y otro de percepción (véase Blanco, 2012, 2014). Ambos forman parte del sitio Fono.ele (http://www3.uah.es/fonoele), espacio de investigación que tiene como objetivo fundamental proporcionar tanto el material (los corpus) como los instrumentos necesarios para facilitar el desarrollo de estudios sobre la adquisición y aprendizaje de la fonética del español desde diferentes perspectivas (análisis de la interlengua, impacto social de las deficiencias fónicas, influencia de variables sociolingüísticas, análisis del proceso de adquisición).

El corpus de percepción de Fono.ele se ha construido con los datos obtenidos de un total de 600 informantes, organizados en dos submuestras: submuestra 1 (intencional por cuotas), formada por 300 alumnos de seis nacionalidades que cursaban estudios de español en sus países de origen; submuestra 2 (no intencional), con otros 300 informantes procedentes de más de 20 países, todos ellos estudiantes internacionales de la Universidad de Alcalá en el momento de la recogida de datos.

El trabajo que presentamos en estas páginas se centra en los datos de percepción de la submuestra 2, si bien tiene presente, en algunas ocasiones, los obtenidos en la submuestra 1. El universo del que partimos para fijar la muestra fue el de todos los estudiantes extranjeros presentes en la Universidad de Alcalá durante el comienzo del curso académico 2013–2014. Los criterios para seleccionar a los participantes fueron los siguientes: a) el español es lengua extranjera; b) su estancia en España es inferior a 10 días, y c) su lengua materna es lengua oficial en el país en que reside.

Se consideró necesario que cada lengua materna presente en el corpus contara, al menos, con ocho representantes. Eso hizo que los 300 participantes en el test con los que comenzamos se redujeran a 204 en la muestra. Las lenguas maternas con las que se ha trabajado son: alemán (N = 27), árabe (N = 14), chino (N = 40), coreano (N = 14), francés (N = 13), inglés (N = 26), italiano (N = 23), japonés (N = 18), polaco (N = 16) y turco (N = 13). La morfología de la muestra definitiva queda reflejada en el Cuadro 1, en el que incluimos, además, el número de participantes por categoría.4

Cuadro 1. Morfología de la muestra según factores socioculturales y factores lingüísticos externos
Factores socioculturales
Sexo
• Hombre (N = 74)
• Mujer (N = 130)
Edad
• Grupo 1: 18–25 años (N = 168)
• Grupo 2: 26–35 años (N = 36)
Contacto con el español
• Alto: 19–24 puntos (N = 22)
• Medio: 13–18 puntos (N = 36)
• Bajo: 7–12 puntos (N = 56)
• Muy bajo: 0–6 puntos (N = 90)
Factores lingüísticos externos
Nivel de lengua (según el MCER)
• Nivel A2 (N = 62)
• Nivel B1 (N = 92)
• Nivel B2 (N = 31)
• Nivel C1 (N = 19)
Experiencias de aprendizaje
• Habitualmente ha trabajado / trabaja aspectos fónicos en el aula (N = 40)
• En algunas ocasiones ha trabajado / trabaja aspectos fónicos en el aula (N = 91)
• Nunca o casi nunca ha trabajado / trabaja aspectos fónicos en el aula (N = 72)

Todos los participantes se sometieron a un único test de percepción, independientemente de su nivel de español y de su L1. No obstante, se dividieron en grupos en función de su conocimiento de español con objeto de que las instrucciones y aclaraciones previas, que necesariamente hubieron de ser extensas, se ajustaran a las posibilidades de comprensión de los estudiantes y garantizar, así, que el procedimiento y las dinámicas no presentaran problemas que pudieran, posteriormente, distorsionar los resultados.

El test se estructura en cuatro grandes apartados y se compone de 10 ejercicios, algunos de los cuales se subdividen, a su vez, en secciones. Cada ejercicio se centra en un tipo de elemento y sigue una dinámica de realización diferente. En el Cuadro 2 resumimos la información.

Cuadro 2. Aspectos tratados en el test de percepción
Contraste de sonidos en pares mínimos
1. [p - b]; [t - d]; [k - g]; [i - e]; [o - u]; diptongo - vocal I Los estudiantes disponen de listas de pares de palabras (pares mínimos); marcan la palabra del par que escuchen.

Identificación de sonidos
2. [s - θ]; [ɾ - r]; [ð̞ - d]; [ae - ai]; [oe - oi]; [ao - au]; [eo - eu]; diptongo - vocal II; [ɲ / n + j / n] Los estudiantes disponen de tablas encabezadas por una pareja de elementos; marcan la casilla del sonido que corresponda a las palabras que escuchen.

Sílaba y acento
3. Diferenciación de palabras según la posición del acentoSe trata de una lista de tríos de palabras diferenciadas solo por la posición de la sílaba tónica. Los estudiantes marcan la palabra que escuchan del trío.
4. Identificación del número de sílabas Se trata de escuchar una lista de palabras y marcar, para cada una, el número de sílabas.
5. Identificación de la sílaba tónica Los alumnos escuchan una serie de palabras; cada una de ellas está representada por un esquema que refleja las sílabas que la componen. Los estudiantes marcan en el esquema la sílaba tónica.
6. Identificación del tipo de palabra según la posición del acento Es un ejercicio de tipo “intruso”: los alumnos escuchan series de cinco palabras; solo una de ellas es distinta desde el punto de vista del acento.

Entonación
7. Identificación del patrón de entonación en pares de oraciones Los alumnos disponen de una lista de pares de oraciones diferenciadas solo por la entonación. Escuchan una y marcan de cuál se trata.
8. Identificación del patrón de entonación en grupos de cuatro oraciones Los alumnos disponen de una lista de oraciones en grupos de cuatro, diferenciadas solo por la entonación. Escuchan una y marcan de cuál se trata.
9. Identificación del tonema final En una tabla encabezada por los símbolos de “ascendente” y “descendente”, marcan el tipo de tonema de cada oración que escuchen.
10. Identificación de modalidad oracional Los estudiantes escuchan una serie de oraciones y en una tabla marcan el signo de afirmación, exclamación o interrogación que corresponda.

El test recoge un conjunto muy amplio de aspectos perceptivos del español. Para cada uno de ellos, además, se cuenta con un número también alto de casos (cada estudiante hubo de hacer frente a un total de 300 respuestas). En la elaboración de los repertorios de palabras y frases se ha prestado mucha atención a que las diferentes unidades bajo estudio aparecieran en distintos contextos fónicos. Así, a modo de ejemplo, en la oposición [t] / [d], los segmentos analizados se combinan de manera muy diversa, buscando la mayor variedad de contextos: bota / boda; coto / codo; contado / condado; tomar / domar; saltar / saldar; tilo / dilo; toro / doro; soltar / soldar; tienta / tienda. Cada uno de los casos recogidos, tanto a nivel segmental como suprasegmental, pretende ser único dentro del repertorio (siguiendo el principio de rentabilidad) y, al mismo tiempo, representativo de un grupo amplio de casos que no han tenido cabida en el test (siguiendo el principio de representatividad).

3.2. Resultados y discusión

Las respuestas obtenidas se introdujeron en la base de datos de Fono.ele para su posterior análisis cuantitativo. Hemos aplicado a los datos diferentes técnicas: 1) cálculos propios de estadística descriptiva (medias, medianas y desviación típica) que nos permiten tener una visión amplia de la tipología real de errores, 2) una prueba de distribución de los datos con objeto de valorar la normalidad de la muestra (Kolmogórov-Smirnov) y 3) análisis de varianza (ANOVA) con la finalidad de estudiar tanto las dispersiones o varianzas de los grupos, como la interacción entre las variables fónicas y el nivel de lengua.

Se obtuvo un total de 61 200 respuestas, distribuidas entre aciertos, errores y sin respuesta. Siguiendo las recomendaciones de los trabajos psicométricos, hemos aplicado a los resultados un índice de corrección de los efectos debidos al azar, consistente en ponderar cada error por la expresión 1 / (n - 1) (véase Abad, Garrido, Olea & Ponsoda, 2006: 18–19). En el Cuadro 3 se muestran los datos (porcentajes y cifras absolutas) para cada uno de los elementos bajo examen.

Cuadro 3. Resultados del test de percepción fónica. Cifras absolutas y relativas tras índice de corrección (excepto en sin respuesta)
	Aciertos	Errores	Sin respuesta
Consonantes
p/b	75% (1192)	23% (362)	2% (34)
t/d	75% (1252)	23% (384)	2% (30)
k/g	78% (1319)	21% (354)	1% (23)
s/θ	92% (3172)	7% (242)	1% (34)
ɾ/r	53% (1333)	46% (1161)	1% (35)
ð/d	36% (829)	60% (1390)	4% (81)
ɲ/n + j/n	51% (1198)	47% (1099)	>2% (44)

Vocales
i/e	96% (1920)	3% (58)	1% (14)
o/u	87% (1571)	13% (236)	0% (0)
dip/vocal (I)	84% (1791)	16% (333)	0% (0)
ae/ai	87% (959)	12% (128)	1% (15)
oe/oi	87% (961)	12% (128)	1% (13)
ao/au	87% (956)	12% (134)	1% (6)
eo/eu	73% (712)	26% (254)	1% (10)
dip/vocal (II)	59% (1631)	34% (935)	7% (189)

Sílaba y acento
Número de sílabas	55% (2302)	43% (1799)	2% (50)
Sílaba tónica	63% (1965)	37% (1132)	0% (0)
Acento intensidad en tríos palabras	77% (2527)	21% (671)	2% (68)
Acento intensidad intruso	25% (274)	69% (743)	6% (65)

Entonación
Curva entonación en pares	91% (1712)	9% (162)	0% (0)
Curva entonación en lista de 4	55% (1009)	44% (807)	1% (23)
Identificación tonema final	76% (1850)	24% (600)	0% (0)
Identificación modalidad oracional	84% (4908)	15% (888)	1% (28)

Totales	37 343 (72%)	14 000 (26%)	36 (2%)

De manera general, vemos que el promedio de aciertos es notablemente superior al de errores (72% frente a 26%); estos resultados arrojan ya una primera valoración significativa: la percepción y categorización fónica del español/L2 ofrece una dificultad media–baja, pues solo se realiza de forma errónea en 26% de los casos. No obstante, hay que destacar, igualmente, que el comportamiento perceptivo no es homogéneo, dado que se observan diferencias notables en algunos casos concretos.

En el apartado de los segmentos consonánticos, vemos que el contraste [s]/[θ] no plantea demasiados problemas, pues en 92% de los casos se ha realizado correctamente la identificación. En el lado opuesto, la distinción entre la dental aproximante y la oclusiva [ð̞]/[d] resulta de gran complejidad, a juzgar por la baja cifra de aciertos (36%), muy por debajo de la media de todos los datos. Las oclusivas ofrecen resultados ligeramente más favorables que la media general, situándose entre 75% ([p/b] y [t/d]) y 78% de aciertos ([k/g]). Más problemática resulta la distinción entre la nasal palatal, la nasal alveolar y el grupo [nj], que logra solo un 51% de aciertos; asimismo, la diferencia entre las dos vibrantes arroja cifras inferiores a la media (53% de aciertos), situándose, así, entre los aspectos más difícilmente diferenciados.

Con respecto a las vocales, los resultados son mejores que los de las consonantes, pues la identificación se hizo correctamente en más de 85% de las ocasiones, quedando por debajo de esta cantidad solo la diferenciación [eo/eu] (73%) y, especialmente, diptongo/vocal II (59% de aciertos). En este último caso, la dificultad de la tarea es lo que explica la baja puntuación; a diferencia del caso de diptongo/vocal I —en el que los informantes disponían de pares de palabra (traigo/trago, veinte/vente, acuoso/acoso, etc.) y debían marcar la que escucharan—, en diptongo / vocal II, tenían que escuchar la palabra y señalar en la hoja de respuestas si contenía o no un diptongo (diptongo–vocal). Esto requiere habilidades de percepción más complejas que conllevan un proceso de categorización más consciente.

Si nos fijamos en la intensidad, se aprecia con facilidad que es el apartado con tasas más elevadas de error. Las cuestiones que mayor dificultad plantean son la identificación del número de sílabas de una palabra (55% de aciertos) y el reconocimiento de los tipos de palabras según la posición de la tónica (25% de aciertos). Relativamente fácil ha resultado señalar la palabra en la lista de tríos (77% de aciertos) y marcar en las representaciones gráficas de palabras la posición de la sílaba tónica (63% de aciertos). No nos cabe ninguna duda de que la diferencia de las puntuaciones se debe, en buena parte, a la dificultad de las dos primeras tareas frente a las dos últimas, pues, para las primeras, no solo se requiere un procesamiento acústico adecuado sino capacidad para almacenar la información y recuperarla para la categorización.

Los datos relativos a la entonación son más homogéneos y satisfactorios. No planteó casi problemas la identificación de la curva entonativa cuando se contrastan pares y los informantes disponen de las dos opciones (¡Ya se ha dormido! / ¿Ya se ha dormido?). Tampoco la identificación de la modalidad les supuso graves dificultades cuando deben seleccionar entre interrogativa, exclamativa o afirmativa, pues en 84% de los casos lo hicieron correctamente. Sin embargo, si en la selección entra en juego la opción de la suspensión tonal, la confusión es mucho mayor (solo 55% de aciertos). La percepción del tonema final —ascendente o descendente— arroja cifras sorprendentemente buenas (76% de aciertos) si tenemos en cuenta la dificultad que supone, incluso, para los hablantes nativos.

Pasemos ahora a analizar los resultados según el nivel de lengua, es decir, la competencia lingüística del estudiante. Sin lugar a dudas, se trata del factor que más incide en los resultados y logros. Sin embargo, cuando lo que analizamos es el componente fónico, tanto en producción como en percepción, hemos de ser muy cautos, dadas las características de la adquisición de este componente (es el ámbito en el que la fosilización se manifiesta con más intensidad). Así lo ponen de manifiesto los datos generales de nuestro estudio, pues, contra lo que pudiera ser esperable, revelan que su influencia es muy moderada. En el Cuadro 4 se muestran los porcentajes de aciertos de los diferentes aspectos tratados en el test de percepción según el nivel de español. En él vemos que, a medida que aumenta el dominio, asciende el porcentaje de aciertos, pero lo hace de forma escasamente relevante.

Cuadro 4. Porcentajes de aciertos según el nivel de español
	Nivel a2	Nivel b1	Nivel b2	Nivel c1
Consonantes
p/b	69%	76%	86%	92%
t/d	75%	75%	73%	85%
k/g	77%	74%	86%	88%
s/θ	93%	93%	86%	98%
ɾ/r	50%	56%	49%	54%
t/d	39%	34%	36%	36%
ɲ/n + j/n	43%	62%	59%	62%

Identificación de sonidos
i/e	95%	96%	99%	100%
o/u	83%	86%	93%	90%
dip/vocal (I)	84%	84%	85%	86%
ae/ai	82%	89%	93%	94%
oe/oi	81%	89%	91%	94%
ao/au	85%	88%	88%	90%
eo/eu	68%	73%	80%	77%
dip/vocal (II)	43%	64%	71%	78%

Sílaba y acento
Número de sílabas	58%	53%	53%	53%
Sílaba tónica	69%	75%	82%	81%
Acento en tríos de palabras	66%	69%	71%	79%
Acento intensidad intruso	22%	23%	28%	56%

Entonación
Entonación en pares	89%	92%	94%	91%
Entonación en grupos de cuatro	49%	56%	63%	66%
Tonema final	75%	79%	79%	80%
Modalidad oracional	80%	85%	90%	88%

La homogeneidad de la muestra se valoró mediante la prueba de distribución de datos Kolmogórov-Smirnov. El valor de p obtenido para cada nivel fue: para A2, 0.431; para B1, 0.632; para B2, 0.530, y para C1, 0.168. Como vemos, se sitúa en todas las ocasiones muy por encima del valor de significación (0.05), lo que nos permite confiar en la normalidad de la distribución de la muestra.

Las diferencias en los porcentajes de aciertos se aprecian solo entre los extremos (A2–C1), sin que tampoco pueda hablarse de distancia significativa. El análisis de varianza (Cuadros 5 y 6), realizado con la finalidad de contrastar las medias y comprobar si estas diferencias son significativas, descarta la existencia de una relación clara entre el nivel de competencia lingüística y el mayor éxito en la percepción fónica Como observamos en los Cuadros 5 y 6, se llevaron a cabo dos análisis de varianza de dos factores de forma que se pudiera valorar, también, la existencia de interacción entre la variable dependiente (aciertos en la percepción) y las independientes (tipo de segmento y nivel de dominio). De esta forma, analizamos, por un lado, los aciertos con relación a consonantes / vocales y niveles y, por otra, aciertos con relación a intensidad / entonación y niveles. En ambos casos, los análisis arrojan índices de probabilidad muy por encima de lo aceptado (p > 0.05) para la variable nivel de dominio: p = 0.392 en el primer caso y p = 0.672 en el segundo. Asimismo, el valor crítico para F es superior a F (para F1, 2.798 y 1.018; para F2, 3.008 y 0.519), lo que nos permite afirmar que no existen diferencias significativas entre las medias de aciertos obtenidas en cada nivel de dominio lingüístico. Sin embargo, la varianza señala que las diferencias intralingüísticas (consonantes frente a vocales; intensidad frente a entonación) sí tienen relevancia estadística (p = 0.00 en ambos casos, con valores críticos para F inferiores a F: para F1, 4.042 y 12.380; para F2, 4.559 y 9.634), por lo que se puede sugerir que la habilidad perceptiva está relacionada con el tipo de elemento lingüístico que ha de procesarse.5

Cuadro 5. Análisis de varianza, consonante / vocal y nivel de español
Origen de las variaciones	Suma de cuadrados	Grados de libertad	Promedio de los cuadrados	F	Probabilidad	Valor crítico para f
Consonan/vocal	0.347	1	0.347	12.380	0.000	4.042
Nivel español	0.085	3	0.028	1.018	0.392	2.798
Interacción	0.006	3	0.002	0.075	0.972	2.798
Dentro del grupo	1.348	48	0.028

Total	1.788	55

Cuadro 6. Análisis de varianza, intensidad / entonación y nivel de español
origen de las variaciones	Suma de cuadrados	Grados de libertad	Promedio de los cuadrados	F	Probabilidad	Valor crítico para f
Intensidad/entona	0.318	1	0.318	9.634	0.004	4.259
Nivel español	0.051	3	0.017	0.519	0.672	3.008
Interacción	0.010	3	0.003	0.106	0.955	3.008
Dentro del grupo	0.792	24	0.033

Total	1.173	31

Si nos detenemos en los resultados por aspectos concretos, solo cabe destacar que se aprecia levemente la influencia del nivel (especialmente del C1) en los casos de [s] / [θ], en el de las oclusivas sordas y sonoras, en el de identificación de diptongo frente a vocal y en el de intensidad con palabra intrusa. Así se observa claramente en las Figuras 1, 2, 3 y 4.

Los datos obtenidos en nuestro estudio muestran que las habilidades perceptivas son prácticamente las mismas a lo largo de los diferentes niveles de dominio y solo se aprecian diferencias mínimamente significativas en los casos en que los estudiantes han alcanzado el nivel superior. Las cifras generales de acierto (72%) junto con la ausencia de una diferencia relevante por niveles de dominio lingüístico nos llevan a preguntarnos cuáles son los procesos y etapas específicos en la percepción fónica de la L2 (al menos, del español/L2). Como ya vimos, los diferentes modelos que se han ocupado de la adquisición fónica señalan que, a partir de las categorías de la L1, se van generando otras nuevas o modificando las existentes hasta llegar a la construcción de un sistema diferenciado. Lo que nos interesa conocer es cómo ocurren esos procesos, el momento en que tienen lugar. A juzgar por estos datos y otros semejantes,6 en la etapa inicial, el aprendiz de español lleva a cabo buena parte de ellos, lo que le permite disponer de habilidades de percepción muy superiores a las de producción y, por supuesto, a las gramaticales (en sentido amplio). El proceso continúa a un ritmo lentísimo, imperceptible en muchos casos (se diría que permanece estacionario) y cuando el aprendiz se encuentra en un nivel muy alto (C1) se aprecia un refinamiento de ese sistema perceptual primitivo (el que elaboró al comienzo de la adquisición).

Este hecho sugiere, por tanto, que la eficacia en el procesamiento acústico, la asignación de rasgos diferenciadores y la creación de nuevas categorías no garantizan el éxito en los procesos de producción fónica. Dudamos, incluso, de que esas categorías perceptuales estén disponibles para la producción, de ahí que sea difícil imaginar una correspondencia simétrica entre procesos de percepción y de producción.

Cabría, por tanto, pensar que, en las tareas de percepción, el hablante extranjero procesa la información acústica de los elementos fónicos, extrae los patrones acústicos invariantes (lo que puede realizar gracias a las habilidades desarrolladas en la L1) y establece una suerte de representación fonética —tal vez, incluso, categorización— que será lo que, con el tiempo, le permitirá crear una nueva categoría que constituirá la base para una adecuada producción. Hasta llegar a ese estadio, el aprendiz de la L2 experimenta una situación de desfase fónico ya que, por un lado, dispone de un sistema de percepción versátil, abierto y eficaz, que hace uso y amplía las estrategias y procesos propios de la L1 y que le permite asignar una representación fónica a buena parte de la señal de habla, y, por otro lado, cuenta con un sistema de producción, que es subsidiario del de la L1 —su fiel reflejo en muchos casos—, cuya evolución es muy lenta y que requiere de la creación de nuevas categorías fonológicas para ser eficaz.

4. Conclusiones

En la adquisición de una lengua extranjera, al igual que ocurre en la lengua materna, los procesos de percepción y producción fónica se hallan fuertemente interrelacionados, lo que ha llevado a considerar que evolucionan al unísono, dado que existe entre ellos dependencia mutua. Asimismo, se afirma que, en los dos procesos, la influencia de la L1 es determinante y explica la mayor parte de las dificultades y los errores fónicos de nuestros aprendices, así como las diferencias entre ellos. A partir de estas premisas y de la hipótesis de que en las habilidades perceptivas de los aprendices influyen no solo la lengua materna sino otros factores, como es el nivel de dominio, hemos llevado a cabo un estudio sobre la percepción de español L2 en el que han participado 300 estudiantes, si bien la muestra quedó definitivamente constituida con los 204 que cumplían todos los criterios fijados. Los resultados muestran que la hipótesis de partida no se cumple, en tanto que los comportamientos perceptivos de los participantes son notablemente homogéneos, sin que se aprecien diferencias significativas entre estudiantes de los cuatro niveles de lengua con los que hemos trabajado (A2, B1, B2 y C1). En los pocos casos en los que hemos encontrado valores distintos, las diferencias no alcanzan el grado suficiente como para poder establecer relaciones de covariación entre elementos fónicos y competencia lingüística.

Los datos obtenidos en el estudio de percepción ponen de manifiesto que, en el español, existen aspectos fónicos que son, intrínsecamente, difíciles, al margen de factores formativos. Dentro de este grupo están las oposiciones [ɾ]/[r], [ð̞]/[d], [ɲ]/[n + j]/[n] y diptongo/vocal, así como el cómputo de sílabas (que requiere identificarlas acústicamente con claridad), diferenciar tipos de palabras según la posición de la sílaba tónica y, por último, identificar el esquema entonativo cuando entre las opciones aparece la suspensión tonal (en los casos de las tres opciones habituales —afirmación, interrogación y énfasis—, las dificultades disminuyen de forma considerable). Esto es lo que explica la existencia de diferencias significativas en el comportamiento perceptivo de los aprendices, lo que resta validez a nuestra hipótesis inicial según la cual tales diferencias se deberían, especialmente, al nivel de dominio de la L2.

Estos resultados sobre percepción contrastan con los obtenidos en muchos estudios sobre producción (véase Blanco & Nogueroles, 2013), lo que nos lleva a concluir que el desarrollo de ambos procesos durante el aprendizaje de una lengua extranjera no es paralelo, sino que cada uno sigue una temporalización diferente. Aunque los datos nos resultan elocuentes —dado su volumen— es necesario continuar esta línea de trabajo y llevar a cabo estudios semejantes con muestras poblacionales de otras características; sería interesante utilizar tanto un test idéntico al nuestro como otro en el que se recojan otros fenómenos fónicos. Solo así podremos comprender la verdadera naturaleza de la percepción del español/L2.

5. Referencias

Abad, Francisco J.; Garrido, Jesús; Olea, Julio, & Ponsoda, Vicente (2006). Introducción a la psicometría. Madrid: Universidad Autónoma de Madrid.

Best, Catherine T. (1994). The emergence of native-language phonological influences in infants: A perceptual assimilation model. En Judith Goodman & Howard C. Nusbaum (Eds.), The development of speech perception: The transition from speech sounds to spoken words (pp. 167–224). Cambridge: Massachusetts Institute of Technology Press.

Best, Catherine T. (1995). A direct realist view of cross-language speech perception. En Winifred Strange (Ed.), Speech perception and linguistic experience: Theoretical and methodological issues in cross-language speech research (pp. 171–203). Baltimore: York Press.

Blanco Canales, Ana (2012). Corpus oral para el estudio de la adquisición y aprendizaje del componente fónico del español como lengua extranjera. Revista de Lingüística Teórica y Aplicada, 50(2), 3–37.

Blanco Canales, Ana (2014). Adquisición y aprendizaje del componente fónico del español como lengua extranjera. En Yolanda Congosto Martín, María Luisa Montero Curiel & Antonio Salvador Plans (Eds.), Fonética experimental, educación superior e investigación (pp. 179–198). Madrid: Arco Libros.

Blanco Canales, Ana, & Nogueroles López, Marta (2013). Descripción y categorización de errores fónicos en estudiantes de español/L2. Validación de la taxonomía de errores aacfele. Logos: Revista de Lingüística, Filosofía y Literatura, 23(2), 196–225.

Blumstein, Sheila E. (1986). On acoustic invariance in speech. En Joseph S. Perkell & Dennis H. Klatt (Eds.), Invariance and variability in speech processes (pp. 178–193). Hillsdale: Lawrence Erlbaum.

Brown, Cynthia (2000). The interrelation between speech perception and phonological acquisition from infant to adult. En John Archibald (Ed.), Second language acquisition and linguistic theory (pp. 4–63). Oxford: Blackwell.

Chomsky, Noam, & Miller, George A. (1963). Introduction to formal analysis of natural languages. En R. Duncan Luce, Robert R. Bush & Eugene Galanter (Eds.), Handbook of Mathematical Psychology (Vol. 2, pp. 269–321). Nueva York: Wiley.

Cortés Moreno, Maximiano (2001). Percepción y adquisición de la entonación española en enunciados de habla espontánea: el caso de los estudiantes taiwaneses. Estudios de Fonética Experimental, XI, 89–119.

Escudero Neyra, Paola Rocío (2005). Linguistic perception and second language acquisition. Explaining the attainment of optimal phonological categorization. Utrecht: lot Publications.

Espinoza-Varas, Blas (1987). Involvement of the critical band in the identification, perceived distance and discrimination of vowels. En M. E. H. Schouten (Ed.), The Psychophysics of speech perception (pp. 306–313). Dordrecht: Martinus Nijhoff.

Fant, Gunnar M. (1962). Descriptive analysis of the acoustic aspects of speech. Logos, 5, 3–17.

Flege, James Emil; Munro, Murray J., & MacKay, Ian R. A. (1995). Factors affecting the strength of perceived foreign accent in a second language. Journal of the Acoustical Society of America, 97, 3125–3134.

Fowler, Carol A. (1986). An even approach to the study of speech perception from a direct-realist perspective. Journal of Phonetics, 14, 1–38.

Iverson, Paul, & Kuhl, Patricia K. (1995). Mapping the perceptual magnet effect for speech using signal detection theory and multidimensional scaling. Journal of the Acoustical Society of America, 97, 553–562.

Iverson, Paul, & Kuhl, Patricia K. (1996). Influences of phonetic identification and category goodness on American listeners perception of /r/ and /l/. Journal of the Acoustical Society of America, 99, 1130–1140.

Kuhl, Patricia K. (1991). Human adults and human infants show a “perceptual magnetic effect” for the prototypes of speech categories, monkeys do not. Perception & Psychophysics, 50, 93–107.

Kuhl, Patricia K. (2000). A new view of language acquisition. Proceedings of the National Academy of Science, 97, 11850–11857.

Liberman, Alvin M.; Delattre, Pierre C., & Cooper, Franklin S. (1958). Some cues for the distinction between voiced and voiceless stops in initial position. Language and Speech, 1, 153–167.

Liberman, Alvin M., & Mattingly, Ignatius G. (1985). The motor theory of speech perception revised. Cognition, 21(1), 1–36.

Lindblom, Björn (1986). On the origin and purpose of discreteness and invariance in sound patterns. En Joseph S. Perkell & Dennis H. Klatt (Ed.), Invariance and variability in speech processes (pp. 493–510). Hillsdale: Lawrence Erlbaum.

Major, Roy C. (1987). Phonological similarity, markedness and rate of L2 acquisition. Studies in Second Language Acquisition, 9, 63–82.

Marrero Aguiar, Victoria (2008). La fonética perceptiva: trascendencia lingüística de mecanismos neuropsicofisiológicos. Estudios de Fonética Experimental, XVII, 207–245.

McClelland, James L., & Elman, Jeffrey L. (1986). The TRACE model of speech perception. Cognitive Psychology, 18, 1–86.

Miller, Joanne L., & Jusczyk, Peter W. (1989). Seeking the neurobiological basis of speech perception. Cognition, 33, 117–137.

Stevens, Kenneth N., & Blumstein, Sheila E. (1981). The search for invariant acoustic correlates of phonetic features. En Peter D. Eimas & Joanne L. Miller (Eds.), Perspectives on the study of speech (pp. 1–39). Hillsdale: Lawrence Erlbaum.

Studdert-Kennedy, Michael (1976). Speech perception. En Norman J. Lass (Ed.), Contemporary issues in experimental phonetics (pp. 243–293). Nueva York: Academic Press.

Notas

1 Por ejemplo, para el etiquetado fonético sería suficiente con una representación más genérica, sensible solo a cambios en varias bandas críticas; sin embargo, las valoraciones sobre la cualidad vocálica requerirían una representación más detallada, en la cual las variaciones del F2 tendrían más repercusiones que para el simple etiquetado (Espinoza-Varas, 1987).

2 Entendemos por nivel de dominio lingüístico el grado de competencia comunicativa del estudiante en relación con los niveles establecidos por el Marco Común Europeo de Referencia (mcer). Para establecer el nivel de cada estudiante, los participantes realizaron la prueba de certificación de dominio lingüístico estandarizada de la Universidad de Alcalá (pruebas acles).

3 Ministerio de Ciencia e Innovación de España (Ref. FFI2010-21034).

4 Para una explicación detallada de cada uno de los factores considerados, véase Blanco (2012).

5 A la misma conclusión llega Cortés (2001) en su estudio sobre sinohablantes.

6 Los datos disponibles de la submuestra 2 de Fono.ele coinciden en líneas generales con estos.

Enlaces refback