Desde hace varios años (desde el 2002, por lo menos) que el tema de crear una organización cómoda para la filiación de las familias lingüísticas me parece interesante y algo que deseo hacer. Esta es la principal motivación para la creación: el deseo. También lo podíamos llamar intención, aunque intención estaría más relacionado con la forma deseada de continente del contenido deseado. El deseo es el germen, el leit motiv, lo primordial para comenzar algo.
Lo primero fue la curiosidad: ¿Cuál era el origen del euskera? Así como existían teorías para decir que el castellano procede, más o menos directa o indirectamente, del latín, no hay una respuesta a esa pregunta y es algo que me picaba la curiosidad. Me gusta esta expresión que, gráficamente, refleja muy bien esa sensación de desazón que implica que hay que rascarse aunque no sirva para nada.
Inicialmente, me planteé buscar una estructura filogenética de todas las lenguas que hay (y ha habido) en el mundo. Ahí es nada. Por supuesto, no se trata tanto de demostrar que esa estructura es la correcta, que tal o cual lengua deriva realmente de tal o cual otra. Eso es algo que, con mucho, me desborda, sino que se trata tan solo de organizar la información que existe distribuida en distintas fuentes (en ocasiones muy escasas) para poder presentarla de muy diversas maneras. No pretende ser un trabajo de investigación pura, sino más bien de recopilación y reordenación de información disponible (en ocasiones, en formatos ya de por sí muy interesantes).
Comencé haciendo un trabajo de recolección de información con el Investigador de Encarta de Microsoft, pero desde hace tres años era un formato que me parecía peligroso por su enorme dependencia de un programa del que no tenía, ni siquiera, una licencia válida. Los ficheros que generaba Encarta tenían una extensión ERP y un formato propietario que no podía abrir con ningún otro software, así que cuando me cambié a Ubuntu definitivamente (creo que en mayo del 2010), me encontré con que no podía seguir porque no podía usarlo en Linux. Lo tengo instalado en una máquina virtual con Windows XP para poder abrir aquellos ficheros, pero el investigador dejó de funcionar hace unos meses con una de las últimas actualizaciones de Internet Explorer. Pero ni siquiera me di cuenta. (Tuve que instalar otra máquina virtual para hacerla vivir como en el 2005, con XP, Office 2000, IE 5.5… y he logrado, pero no del todo, recuperar algo de aquellos ficheros en los que invertí un gran número de horas de trabajo).
Yo seguía buscando una aplicación opensource que hiciese algo parecido a lo que me permitía hacer el investigador de encarta, pero no encontraba ninguna. Además, quería y le pedía que fuese ligero, pudiese exportar su resultado en diversos formatos, entre otros, HTML dinámico, XML y, por supuesto, también ODT (para fabricar un subproducto libro disponible online en cuanto tenga un avance significativo).
A principios de diciembre de 2011, encontré, casualmente, un programa llamado FreeMind que hacía exactamente lo que deseo. Ya solo tengo que preocuparme por llenar el contenido del árbol filogenético que albergará información de unas 10.000 lenguas.
El primer objetivo del Proyecto, inicialmente, es el de llenar el contenido del árbol filogenético que albergará información de unas 10.000 lenguas. Organizadas de manera sistemática, almacenando el mismo tipo de información por cada una de ellas. Así como de las distintas ramas, subgrupos y otras entidades lingüísticas semejantes.
Sobre la clasificación que adopto a lo largo del proyecto, decir que es una variante de las diferentes versiones que voy encontrando y que en muchas ocasiones no son idénticas dada la dificultad para establecer, en muchos casos, una línea de filogénesis probada. Además, hago aparecer una agrupación superior a la Familia Lingüística que entronca con la idea de la dispersión geográfica y, por tanto, mantengo una subdivisión en bloques continentales que no es puramente lingüística. No obstante, en general se siguen las clasificaciones macrofamiliares de Joseph Greenberg.
De cada lengua, recopilo información estructurada según la plantilla que ha de satisfacerse para todas ellas, aun sabiendo que no siempre será posible encontrar la información de las distintas categorías que la forman (historia, datos de hablantes, mapas, gramática, escritura y patrocinio).
En Referencias podemos ver datos técnicos sobre la codificación de la lengua en otros sistemas de organización lingüística. He optado por adoptar el ISO-639-3, propuesto por SIL (Consultar Bibliografía). También hay enlaces a estos sistemas (Ethnologue y SIL) cuando estén disponibles. Información como la de si se trata de una lengua extinta, viva, o de las denominadas macrolenguas, para poder aproximarse a situaciones difíciles de clasificar.
La categoría de Historia y Mapas tienen una división en tres momentos temporales distintos para cada lengua y cuya frontera es arbitraria. En la categoría de Mapas, albergo un atributo (geodata) utilizable para guardar información geofísica que pueda ser usada en el futuro lejano para mostrar un mapa dinámico en el que se observe el desplazamiento en tres posiciones (puede que, en algún caso mejor documentado, haya más posiciones) del área de expansión de esa lengua.
Los mapas se nombran mediante un código SIL (de Referencia) acompañado de un número que indica el orden cronológico del mismo y se guardan en la carpeta correspondiente a:
BloqueContinental/FamiliaLingüística/Rama/Grupo/[Subgrupo/]mapa_SIL_T.jpg
(Familia, Rama, Grupo y, eventualmente, subgrupo no llevan una codificación estandarizada, sino verbal o coloquial)
La información sobre la gramática de la lengua ha sido dividida en tres áreas más o menos bien delimitadas (Fonología, Morfosintaxis y Léxico-Semántica)
Fonología: Rama de la lingüística que estudia los elementos fónicos, atendiendo a su valor distintivo y funcional.
Morfosintaxis. Ling. Parte de la gramática que integra la morfología y la sintaxis. La morfosintaxis se refiere al conjunto de elementos y reglas que permiten construir oraciones con sentido y carentes de ambigüedad mediante el marcaje de relaciones gramaticales, concordancias, indexaciones y estructura jerárquica de constituyentes sintácticos.
Léxico, ca. (Del gr. λεξικός, n. -κόν). m. Vocabulario, conjunto de las palabras de un idioma, o de las que pertenecen al uso de una región, a una actividad determinada, a un campo semántico dado, etc.
Semántico, ca. (Del gr. σημαντικός, significativo). 1. adj. Perteneciente o relativo a la significación de las palabras. 2. f. Estudio del significado de los signos lingüísticos y de sus combinaciones, desde un punto de vista sincrónico o diacrónico. La semántica lingüística es un subcampo de la semántica general y de la lingüística que estudia la codificación del significado dentro de las expresiones lingüísticas. Etimológicamente el término viene del griego semantikos, que quería decir 'significado relevante', derivada de sema, 'signo'.
En cuanto a material escrito de las lenguas (las que tienen escritura) se aporta información básica sobre el alfabeto que utilizan (hacer una clasificación, quizá también filogenética, de los alfabetos sería otro trabajo que no abordo en esta ocasión) o si han utilizado varios a lo largo de su historia, atestiguo o recojo textos relevantes de esa lengua y, por último, los números del 1 al 10 cuando sea posible.
Cada lengua, en el apartado Patrocinio, contendrá información de quién me ha ayudado a realizar el proyecto gracias a su mecenazgo de acuerdo a lo indicado en el modelo de financiación o, alternativamente, un botón de donación si aún no está patrocinada por nadie.
Una aspiración a largo plazo sería presentar un mapa dinámico que mostrase la evolución de las lenguas sobre el planeta a lo largo del tiempo y que albergasen toda la información de la misma de forma accesible y bien estructurada. Sé que es imposible, pero es la utopía que me hace mirar al horizonte aunque no pueda alcanzarlo para saber que tengo una dirección en la que encaminar mis pasos.
La utopía está en el horizonte. Camino dos pasos, ella se aleja dos pasos y el horizonte se corre diez pasos más allá. ¿Entonces para qué sirve la utopía? Para eso, sirve para caminar.
Eduardo Galeano
Aún no sé si el proyecto terminará algún día. Es algo que me preocupa más bien poco porque lo que verdaderamente me atrae es saber que durante el camino, aprenderé a caminar. Y si llego a algún lugar en el que quiera aposentarme, espero saber que es arbitrario y que podría haberme detenido en cualquier otro lugar. Así son todos mis proyectos, en el fondo. Y es algo que me gusta y, al mismo tiempo, me agota, haciéndome sentir, en ocasiones, que nunca termino nada y que todo se va acumulando a una vida cada vez más dedicada a trabajar por el placer de hacerlo.
Como en el caso de otros proyectos que acometo, está hecho por puro deseo: Es realizado porque quiero y de la manera que quiero. En ningún momento pensé en reducir costes o en justificar gastos. Nunca pensé en su repercusión ni en su posible utilidad pública o social. Me llevó el tiempo que quise o el que le pude ir dedicando. (Texto extraído del apartado Financiación del proyecto Lejanías)
Pero este proyecto no puede o no debe ser completamente gratuito. Hay algunos gastos que debo hacer como son donaciones (que ya han sido hechas) a Wikipedia, donaciones a los desarrolladores de las herramientas que he usado para crear este proyecto, como, por ejemplo, a FreeMind (que, de momento, no acepta donativos económicos) o a Ubuntu. Sin contar mi trabajo.
Planteando un mecenazgo personal, adopto el modelo que siguió Isidoro Valcárcel Medina en su libro 2.000 d. de J.C. Editorial Entreascuas, 2001. ISBN: 84-932139-0-X, por el cual un patrocinador o mecenas personal puede aportar una contribución de manera que cada lengua sea asignada a un patrocinador. Cada patrocinador puede contribuir financiando el número de lenguas que desee.
He estimado en más de una hora lo que me llevará la recopilación de la información de cada una de las lenguas del proyecto. Tirando a lo bajo, he cuantificado en 10 euros la cantidad justa de remuneración por lengua. De este modo, quien desee patrocinar 1 lengua, podrá hacerlo mendiante el correspondiente aporte económico utilizando la plataforma de pago paypal.com.
El dinero recogido, así como el nombre de cada uno de los patrocinadores, figurará, amén de en cada una de las lenguas en el apartado Patrocinio, en un listado que será consultable vía web. También las donaciones realizadas por mí a terceros.
Clasificación de las lenguas
Introducción
Clasificación de las lenguas, sistema utilizado en lingüística para subdividir los idiomas en grupos o familias, según sus características comunes o relaciones de parentesco y afinidad. Se estima que las lenguas habladas en la actualidad en el mundo son unas 4.500, pero el número subiría a 20.000 si se tuvieran en cuenta sus principales variedades. Esta gran cantidad de hablas se ordena siguiendo dos sistemas de clasificación: el tipológico y el genético.
Clasificación Tipológica
Propuesta por el lingüista alemán August Wilhelm von Schlegel a principios del siglo XIX, la clasificación tipológica parte de las semejanzas estructurales de varias lenguas; por ejemplo, éstas se pueden agrupar según el número de sonidos vocálicos (Fonética) que empleen, y en este paquete irían desde el árabe clásico, que usa tres, a otras que tienen veinticinco. Schlegel y otros lingüistas posteriores distinguieron las lenguas según sus mecanismos de funcionamiento.
Actualmente se distinguen cuatro grupos:
Lenguas aisladas (como la tibetana y la china clásica), en las que cada palabra, invariable, tiene una función autónoma, y las relaciones gramaticales y sintácticas vienen dadas por la disposición de la palabra en la frase. El plural en tibetano, por ejemplo, se expresa por una palabra que significa mucho y que precede inmediatamente al término que se quiere poner en plural.
Lenguas aglutinantes (como la vasca o la turca), en las que una raíz expresa el significado básico y a ella se le añaden una serie de afijos o partículas que actúan como modificadores; las partículas se unen una a otra y forman palabras bastante largas: así en turco äv significa ‘casa’; ävlar, ‘las casas’; ávda, ‘en la casa’; ävdalar, ‘en las casas’, y así sucesivamente. Cada afijo expresa una sola modificación.
Lenguas flexivas (como las indoeuropeas —entre las que se encuentra la española— o las semíticas), en las que existe una clara distinción entre raíz y desinencia (lo que se conoce como Flexión): las desinencias son las que cambian para expresar las modificaciones específicas (en español, niñ-a, niñ-o, niñ-as, niñ-os, en latín lup-us ‘el lobo’, lup-a ‘la loba’, lup-i ‘los lobos’, lup-ae ‘las lobas’). En las lenguas flexivas, las desinencias pueden, a diferencia de lo que sucede en las lenguas aglutinantes, expresar más de una modificación, por ejemplo, niñ-a expresa a la vez la idea de femenino y singular.
Lenguas polisintéticas o incorporantes (como la inuit y algunas lenguas polinesias), en las que una frase entera se puede expresar con una sola palabra, combinando marcas aglutinantes y aislantes.
Las últimas investigaciones han demostrado que cualquier lengua presenta rasgos de varias tipologías. Así pues, la asignación de una lengua a un grupo o a otro se hace en función del mayor número de características propias de un grupo que presente o, incluso, por criterios históricos. Por ejemplo, el inglés está considerado como una lengua flexiva porque es una lengua indoeuropea, aunque tiene muchísimos rasgos aislantes. En los últimos años, el concepto de clasificación tipológica ha sufrido algunas modificaciones: la división de las lenguas en grupos se hace buscando, entre las diversas lenguas, eventuales universales comunicativos, es decir, rasgos lingüísticos que sean comunes a todas las lenguas existentes. En especial se ha investigado el orden de las palabras en la frase (en español, sujeto, verbo, complemento: Gabriela consulta Internet; en otras lenguas los elementos se disponen de otra manera) y la estructura de la negación.
Clasificación Genética
La clasificación genética tiene como finalidad distinguir las grandes familias lingüísticas, que incluyen idiomas a través de los cuales se puede demostrar o suponer un origen común. Por ejemplo, el español, el francés o el italiano pertenecen a la familia de las lenguas románicas porque proceden del latín, que, a su vez, pertenece a la familia indoeuropea. Al estudiar las lenguas que forman parte de una misma familia se observa que entre ellas hay grandes afinidades fonéticas, gramaticales y léxicas, aunque su evolución histórica haya producido grandes diferencias superficiales.
El concepto de clasificación genética de las lenguas se remonta a los tiempos de la torre de Babel y de Noé, cuyos tres hijos, Sem, Cam y Jafet, dieron lugar al origen de las lenguas de Asia, de África septentrional y Europa, respectivamente. Como recuerdo y homenaje a esta leyenda, todavía hoy a la familia lingüística que comprende el hebreo, el árabe y el arameo se le llama semítica, y camita es la que agrupa al egipcio antiguo y las lenguas bereberes.
Pero hubo que esperar hasta el siglo XIX, con la aparición de una metodología lingüística rigurosa y el desarrollo de la dialectología, para que la individualiación de las familias lingüísticas pudiera hacerse de un modo científico. La primera familia que se fijó exactamente fue la indoeuropea; después llegaron la semítica, la camita, la ugrofinesa, la uraloaltaica (véase Lenguas urálicas y Lenguas altaicas), las chinotibetanas y muchas otras. Pero todavía hay grandes dudas sobre las clasificaciones genéticas de las lenguas aborígenes americanas (véase Lenguas aborígenes de Hispanoamérica y Lenguas aborígenes de Estados Unidos y Canadá), australianas y polinesias.
No obstante, sólo se puede hablar de familia lingüística de un modo genérico; las lenguas caucásicas, por ejemplo, presentan estructuras parecidas e incluso un léxico común y, sin embargo, es totalmente improbable que estén todas emparentadas entre sí o que deriven de una protolengua común; lo más probable es que sus semejanzas se deban al contacto recíproco, puesto que estas lenguas están presentes en el mismo territorio geográfico desde hace miles de años. En este mismo sentido, amplio y vago, es como se han realizado muchas clasificaciones de las lenguas amerindias. Algunos estudiosos, partiendo de rasgos comunes y de afinidades tipológicas, tratan de construir familias lingüísticas todavía más amplias que las actuales y, que a su vez, comprendan numerosos subgrupos. Una de estas tentativas es la de establecer posibles relaciones entre las lenguas indoeuropeas y las semíticas por un lado y con las ugrofinesas por otro: a esta superfamilia bien se la podría llamar grupo nóstrico.
Entre las otras familias lingüísticas también hay que recordar las lenguas dravídicas, las austroasiáticas (como la china, la indonesia o la vietnamita), las lenguas thais, las nigerocongolesas (en África centro-occidental: con la familia bantú, de la que forma parte el swahili; véase Lenguas africanas), las cusitas, las malayo-polinesias (que, naturalmente se hablan en el Pacífico, entre Madagascar, Filipinas, Nueva Guinea y Polinesia) o las lenguas indopacíficas.
Entre las lenguas cuya clasificación es bastante compleja de establecer se encuentran las lenguas orales amerindias (entre ellas la algonquina, la maya o el quechua oral que se habla en Perú y Bolivia, las lenguas caribes también habladas en la Amazonia y el guaraní, de Paraguay, Argentina y Chile) y las lenguas de los aborígenes australianos que parecen estar muy lejos de otras familias. Además existen en el mundo —o han existido— algunas lenguas aisladas, de las que, por ahora, parece imposible demostrar su pertenencia a alguna rama conocida, como la japonesa, la vasca, la etrusca y la sumeria.
Somos capaces de producir un infinito número de mensajes sobre un infinito número de temas.
Un mensaje se considera desplazado cuando ni el emisor ni el receptor tienen contacto inmediato directo sensorial con las condiciones o sucesos a los que el mensaje se refiere. [...] Desplazamiento es la característica que normalmente tenemos en la mente cuando nos referimos al lenguaje humano como poseedor de la capacidad para transmitir información abstracta.
La facultad de adquirir la universalidad semántica está determinada genéticamente. Sin embargo, los actuales componentes de los códigos del lenguaje humano están virtualmente libres de limitaciones genéticas. [...] Los elementos del código del lenguaje humano carecen de cualquier relación físicamente regular con los sucesos y las propiedades que ellos significan. Es decir, no hay ninguna razón por la que la palabra "agua" tenga que designar el agua. En definitiva, el lenguaje humano es arbitrario.
¿Cómo es posible que podamos crear tantos mensajes diferentes y sea posible entenderse? Nadie posee la respuesta exacta. Según Chomsky, toda expresión tiene una estructura superficial y una estructura profunda. Las estructuras superficiales pueden ser distintas pero las estructuras profundas ser idénticas. [...] Un rasgo esencial en esta noción sobre la gramática es que, en sus niveles más profundos, todas las lenguas humanas comparten una estructura específica de especie común innata.
Tras el eurocentrismo decimonónico, los lingüistas estaban convencidos de la superioridad de determinadas lenguas sobre otras, poniendo casi en la cima al latín. Sin embargo, diversos estudios del siglo XX han demostrado que esa suposición era insostenible. [...] Las diferencias entre lenguas son superficiales.
La productividad semántica es infinita en cualquier lengua conocida. Cuando surge la necesidad social, en cualquier lengua pueden desarrollarse los términos propios de la civilización industrial. [...] Ninguna cultura falla por falta de palabras, por lo menos no durante mucho tiempo.
Otra forma por la que se reclama una superioridad lingüística se asocia a la existencia de las variaciones dialectales características de las sociedades estratificadas. A veces se comenta que un determinado grupo étnico o clase social tiene una gramática deficiente y una pronunciación incorrecta. Tales críticas carecen de base firme desde el punto de vista de la ciencia lingüística excepto si consideramos que todas las lenguas contemporáneas están contaminadas y son versiones subestándar de lenguas anteriores.
Cuando una variante dialectal se considera "inferior" de lo que se trata es de un fenómeno político más que de un fenómeno lingüístico. Rebajar los dialectos a un estatus inferior forma parte de un proceso general mediante el cual los grupos dominantes intentan mantener su posición superior.
Una importante cuestión es hasta qué punto las diferentes gramáticas y categorías de palabras producen habitualmente formas incompatibles de pensamiento entre gente que pertenece a diferentes comunidades lingüísticas.
Según Benjamin Whorf, cuando dos sistemas de lenguaje tienen gramáticas y vocabularios radicalmente distintos, sus respectivos usuarios viven en un mundo de pensamiento completamente diferente.
Cada lengua es un enorme sistema de modelos, diferentes de otros en los que se encuentran culturalmente ordenadas las formas y categorías por las cuales la personalidad no solo comunica, sino que también analiza la naturaleza, recoge o ignora tipos de relaciones y fenómenos, canaliza su razonamiento y construye el edificio de su conciencia. (B. Whorf, 1956: 252)
Las lenguas difieren en que disponen de ciertas categorías obligatorias incluidas dentro de sus normas gramaticales. En inglés hay que especificar el número. En las lenguas romances hay que indicar el género de todos los sustantivos. En ciertas lenguas indias americanas hay que indicar si un objeto está cerca o lejos del que habla y si es visible o no. Estas categorías obligatorias con toda seguridad no son indicativos de ninguna tendencia activa psicológica que suponga una obsesión respecto a los números, el sexo o la localización de personas u objetos. Sin embargo, no deberíamos sacar la conclusión de que los convencionalismos gramaticales son siempre triviales.
La lengua, al igual que otras partes de la cultura, está sufriendo (yo diría disfrutando) cambios constantemente. Estos cambios (fonéticos, morfológicos o gramaticales) se identifican con frecuencia como diferencias de dialecto tales como la distinguen la forma de hablar de un americano del sur de la de los habitantes de Nueva Inglaterra o de la forma de hablar de los londinenses.
Si grupos procedentes de estas tres zonas se fuesen a vivir a distintas islas y perdiesen todo el contacto lingüístico unos con otros y con sus zonas de origen, sus formas de hablar dejarían de ser mutuamente inteligibles. Cuanto mayor fuese la separación, menos semejanza habría entre ellas.
El proceso de formación de un dialecto y el aislamiento geográfico son responsables, en gran parte, de la enorme diversidad de lenguas.
Muchas de las lenguas mutuamente ininteligibles de hoy día son "hijas" de una lengua "madre" común.
Las lenguas también pueden cambiar sin que exista ninguna separación geográfica de las diferentes partes de la comunidad oral. Por ejemplo, el inglés moderno pude ser considerado como una "corrupción" del inglés antiguo. En efecto: todas las lenguas modernas son "corrupciones" de lenguas más antiguas.
En definitiva: cada una de las lenguas contemporáneas habladas no es otra cosa sino la versión transformada de un dialecto perteneciente a una lengua anterior e incluso en ausencia de testimonios escritos, las lenguas se pueden agrupar basándose en su "filiación" respecto a un antepasado común.
Así, por ejemplo, en un periodo remoto, la lengua protogermánica occidental estaba indiferenciada de un gran número de lenguas incluyendo formas ancestrales del latín, hindi, persa, griego, ruso y gaélico. La lengua "madre" de la que derivan es la llamada proto-indoeuropeo.
La lengua no nos proporciona necesariamente libertad de pensamiento; por el contrario, a menudo nos atrapa en errores y mitos. Debido a que vivimos de la cultura y a que nuestras mentes están moldeadas por la cultura, tenemos más cosas de las que ser conscientes que otras criaturas. Debemos esforzarnos para entender cómo la cultura controla lo que ocurre dentro de nuestras mentes. Sin este nivel adicional de alerta, la mente humana no puede considerarse plenamente consciente.
Los lingüistas han desarrollado una técnica para fechar la separación de una lengua de otra. Esta técnica se denomina glotocronología. Está basada en el supuesto de que, debido al préstamo y a cambios internos, cerca del 14% de la mayoría de las palabras básicas del vocabulario de una lengua se renueva cada 1000 años.
La glotocronología se basa, por tanto, en la premisa de que no solamente las lenguas cambian sino que lo hacen a un ritmo constante que se puede predecir.
Capítulo 3, (pp 81-114) Lenguaje y Cultura. Antropología Cutural, de Marvin Harris.
Esta lista de bibliografía es la más básica de la existente, aquella con la que, por decirlo de alguna manera, comencé a trabajar. Cada familia lingüísica y cada lengua tiene un apartado de bibliografía específica que ha sido consultada y de la que se ha obtenido la información.
Biblioteca de Consulta Microsoft® Encarta® 2003. © 1993-2002 Microsoft Corporation.
Antropología Cultural, de Marvin Harris, 1983. Ed. Alianza Editorial S.A. ISBN 84-206-0464-X
Diccionario Enciclopédico Salvat. 1995. Ed. Salvat Editores S.A. ISBN 84-345-5874-2
Promotora Española de Lingüística (http://Proel.org) es una organización que colabora con varias entidades, especialmente con la organización internacional SIL (SUMMER INSTITUTE OF LINGUISTICS), para impulsar el desarrollo lingüístico de las lenguas minoritarias, tanto en España como en el mundo.
Wikipedia, la Enciclopedia Libre, en concreto su apartado de Portal de Lenguas, ha sido útil en todo momento, para recopilar información.
Lewis, M. Paul (ed.), 2009. Ethnologue: Languages of the World, Sixteenth edition. Dallas, Tex.: SIL International. Online version: http://www.ethnologue.com/
SIL International http://www.sil.org/iso639-3/ para la gestión del código ISO 639-3 que pretende proveer un sistema completo de enumeración de las lenguas, incluyendo lenguas vivas, extinguidas, antiguas, construidas y otras, independientemente de su tamaño o si tienen escritura asociada.
Multitree: A digital library of language relationships. Ypsilanti, MI: Institute for Language Information and Technology (LINGUIST List), Eastern Michigan University. http://multitree.org/.
Lista de idiomas por orden cronológico de extinción: http://en.wikipedia.org/wiki/List_of_languages_by_time_of_extinction
Números del 1 al 10 (cuando sea posible) en http://www.zompist.com/numbers.htm