Valeur statistique de la racine arabe

Abdelghafour Bakkali

La racine est l‘« élémentirréductible récurrent dans les formes lexicales apparentées par le sens et considéré en linguistique historique comme la forme la plus ancienne expliquant tous les dérivés ultérieurs »

Dictionnaire de didactique des langues de R. Galisson et D. Coste, 1976

Après avoir démontré dans un précédent article que l’unité lexicale arabe est la combinaison fonctionnelle d’une racine consonantique et d’un schème, nous allons développer dans le présent exposé la statistique descriptive de la racine arabe. Pour cela, nous allons nous référer à la production lexicographique ancienne, celle notamment qui a été élaborée dans les quatre premiers siècles de l’hégire, le dixième siècle de l’ère chrétienne.

Rappelons tout d’abord que les lexicographes anciens ne visaient pas, en pratiquant systématiquement le procédé des alternances consonantiques, la constitution de ce qu'on pourrait appeler un «noyau sémique», par le rattachement d’une suite de lexèmes à une même racine. Ils recouraient à ce procédé, non pas par nécessité sémantique, mais par visée statistique. Dans leur dictionnaire, ils se fixaient pour objectif la collecte de l‘intégralité du lexique de l’arabe ancien.

La racine trilitère /QDM/ /ق د م/, par exemple, qui exprime, selon cette suite consonantique, l’idée de «ancien ; révolu; archaïque» génère par conséquent, dans la langue arabe ancienne, les lexèmes suivants :

(+ a + a) : qadam « pied » قَدم.
(+ u + a) : qudma ou qadam « être le premier »قُدمة و قَدم .
(+ i + a) : qidam « ancien ; archaïque »; on a le vb. qaduma / yaqduma قِدم .
(+ u + u) : qudum « persévérance »قُدُم .
(+ u + u ) : qudum « retour du voyage »قُدوم .
(+ u + a ) : quddam « devant » ; quddam « monarque »قُدّام .
(+ a +u ) : qadum « herminettes » قَدوم .
(+ a + i) : qadima, قادمة etc.

Ce processus génératif de signes linguistiques ne tient pas compte seulement d’un sens commun éventuel, mais surtout du souci du lexicographe de regrouper sous une même racine tous les mots qui sont issus de l’ossature de base. La fonction de la racine est donc de servir de source à cette suite de lexèmes. Elle sert par ailleurs à déterminer sans équivoque les phonèmes qui appartiennent originellement à la langue ancienne, aussi bien en ce qui concerne leur nombre que leur valeur phonétique. Al-Khalil b. Ahmad, tentant en premier chef de regrouper dans une nomenclature complète tous les mots de l’arabe ancien, tout en les rattachant à des racines générateurs ne présentant, à ses yeux, aucune anomalie phonétique, consacre une grande partie de sa préface à l'étude objective des sons de la langue et aussi à l'étude statistique du lexique arabe ancien.

Il souligne que la racine arabe n’est jamais vocalique. Une racine doit nécessairement avoir de 2 à 5 consonnes dans sa structure de base. Mais c’est la racine triconsonantique qui est la plus occurrente. Cette fréquence suivrait théoriquement une courbe descendante dont le sommet est le trilitère. De ce fait, la racine triconsonantique est à la base de la morphologie arabe. Les autres types morphologiques, hormis le bilitère, seraient issus par adjonction d’un ou de deux phonèmes à la racine trilitère.

Graphique visualisant la fréquence des types morphologiques de la langue arabe, selon Al-Khalil b.Ahmad.

Une statistique des racines trilitères (R3) a été ébauchée récemment. André Roman[1], Etude de la phonologie et de la morphologie de la koïnè arabe, 1983, 2, 849 (Université de Provence), a d’abord calculé le nombre de racines vocaliques : 6³ = 216 (6 étant le nombre des voyelles = 3 brèves et 3 longues; l'exposant 3 marque le nombre des éléments radicaux). Si l'on ajoute ensuite 216 au nombre des racines triconsonantiques possibles en arabe et qu’on pourrait calculer ainsi :

28³ = 21 952 (28 nombre de phonèmes arabes et l'exposant 3 marque le nombre de phonèmes contenus dans une racine trilitère), on alors:
6³+ 28³ = 216 + 21 952 = 22 168.

Les racines vocaliques ne présentent en fait que le taux de 0,98% par rapport aux racines triconsonantiques, «appoint relativement faible», selon André Roman.

Le choix du trilitère est un choix systémique, parce que les racines arabes se ramènent généralement au nombre presque basique de 3 consonnes, bien que certains linguistes modernes aient prétendu que toutes les racines dépendent fondamentalement d’une racine bilitère primitive (voir Fleisch, Traité de philologie arabe, 1961 : § 51). Mustapha Chouémi (in Le Verbe dans le Coran, 229, Klincksieck, 1966 - 253 pages, et que cite A. Roman, 2, 849) a recensé dans le texte coranique 15 verbes quadrilitères contre 1185 verbes trilitères. Le quadrilitère, dans ce cas, ne présente que 1,26% par rapport au trilitère.

La représentativité de la trilitarité dans le système morphologique arabe sera révélée, avec autant d’intensité, par le tableau qui suit, comportant seulement la section de la lettre /kh/ /خ/ dans trois importants dictionnaires anciens :

*Dictionnaires*	*Bilitères*	*trilitères*	*Quadrilitères*	*Quinquilitères*
*K. al-^cAyn* d’Al-Khalil b. Ahmad. كتاب العين	30	342	83	6
*Gamharat al-Luga* d’Ibn Durayd. جمهرة اللغة	18	166	6	0
Mugmal al-Luga D’Ibn Faris مُجمل اللغة	17	168	21	8

Ces racines soumises au procédé des « alternances consonantiques » produisent des signes linguistiques que le système lexical arabe retient ou rejette, selon des critères phonético-morphologiques déjà signalés. Limitées à 4 catégories par les premiers grammairiens, elles pourraient être recensées et reconnues comme signes normatifs. Déjà au II^e/VIII^e siècle, Al-Khalil b. Ahmad aurait regroupé, d’après Hamza Al-Asbahani حمزة الأصبهاني dans K.al-Muwazana كتاب المُوازنة, dans son KA 12 305 412 unités potentielles et virtuelles, musta^cmal et muhmal, rapporte Al-Suyuti dans son Al-Muzhir, 1, 74.

Pour les racines triconsonantiques, Ibn Durayd, GL, 1, 104-109, n’ayant gardé de la technique lexicographique khalilienne que le procédé des alternances, ne retient dans sa nomenclature, et plus particulièrement dans la section consacré au phonème /kh/, que 18 racines biconsonantiques. Celles-ci génèrent plus de 90 lexèmes. Ce qui fait que chaque racine pourrait produire, en moyenne, 5 signes linguistiques ou « mots pleins » pourvus d’un signifiant conforme aux règles morphosémantiques de la languie arabe, et un signifié susceptible de générer, à son tour, une pluralité de sens.

Les racines triconsonantiques dans lesquelles figure le /kh/ dans toutes les positions (a, b et c) sont de 166 + 21, sachant que 21 sont des signes virtuels que l’on pourrait actualiser si la langue prend, pour une raison ou pour une autre, un élan communicatif plus extensif. Les 166 consonnes potentielles produisent environ 830 lexèmes (GL, 1, 577-623). Les quadriconsonantiques, assez controversées dans les cercles des grammairiens anciens, sont de différentes natures. Ibn Durayd, GL, 1,189-190, distingue en effet les quadrilitères dits « dédoublés », muda^caf مُضاعف, qui sont des bilitères « redondants », i e. des formes signifiantes dont le premier segment bilitère est répété deux fois, et les quadrilitères « faibles », mu^ctal مُعتلّ. Or, la première catégorie renferme 20 consonnes dont 2 sent virtuels. Dans la seconde, le lexicographe mêle quasi anarchiquement tous les phonèmes arabes sans respecter l’ordre alphabétique ou l’ordre annoncé dans la « Préface » de son lexique, mais suivant le critère des schèmes (ibid. 2, 1162-1167), des quadrilitères auxquels on adjoint un « augment » ou harf za :’id حرف زائد qui est soit l’alif, le /w/ ou le /y/ ajoutés généralement à un schème trilitère (ibid., 2, 1167-1183).

Au total, on obtient 20 x 5 = 100 termes auxquels on ajoutera 5 à 10 racines, i. e. 25 à 50 mots ayant un /kh/ dans sa composante consonantique.

Le quinquilitère, pratiquement peu productif, n’occupe que peu de place dans la nomenclature des dictionnaires anciens. Pour le phonème /kh/, Al-Khalil n’enregistre que 6 racines et Ibn Faris n’en retient que 8. Dans GL cependant, le quinquilitère n’est pas retenu suivant sa racine, mais plutôt il est soumis aux différents schèmes quinquilitères ; parfois il se présente sous forme de quadrilitère auquel on adjoint des « augments » (ibid., 2, 1184-1223), ou de quinquilitère renfermant deux « lettres faibles », lafif لفيف (ibid., 3, 1227), construit seulement sur trois schèmes fi^cci :l فِعِّيل produisant 15 signes dont 6 seulement contiennent dans leur structure basique le phonème /kh/ :

khitti:ba:, « fiancée », خِطِّيبة
khilli:fa:, « califat », خِلّيفة
khilli:sa:, « appropriation en discrétion », خِلّيصة
khibb:ta:, « d'une manière ingrate, fourbe », خِبِّيتا
khilli:ba:, « supercherie », خِلِّيبا
khissi:ma: , « particulier ». خِصِّيما

Et enfin un ensemble de signes, construits sur des schèmes quinquilitères (ibid., 3, 1227-1247) considérés comme des « écarts » ou raria de la langue, ne peuvent constituer grosso modo que 10 à 15 racines quinquiconsonantiques ; ce qui générerait 20 à 25 signes linguistiques. Rappelons que le quinquilitère, soumis à l’alternance consonantique est peu ou pas productif d’unités lexicales actuelles.

Le /kh/ figure donc dans 90 + 830 + 50 + 50 + 25 = 995 lexèmes. Ce total, pour approximatif qu’il soit, pourrait servir d’indicateur pour déterminer le nombre d’unités lexicales qui composent la nomenclature de GL - ou de tout autre dictionnaire arabe ancien si l’on applique la même technique - : soit 995 x 28 = 27 860 mots générés par environ 229 x 28 = 6 412 racines (229 étant le nombre approximatif de racines ayant un /kh/). Le nombre de racines ne représente que 23,01 % de cette masse de mots potentiels de l’arabe ancien; autrement dit, les racines représentent environ le ¼ du lexique arabe. On a donc

Formule mathématique

Les mots virtuels faussent cependant le calcul, i. e. les racines qui produisent des signifiants sans signifiés (mais que l’usage « extensif » et spécifique de la langue pourrait les reprendre) augmentent excessivement - et inutilement - le lexique arabe et mettent le lexicographe dans l’embarras. Voyons, par exemple, ce que les phonèmes arabes pourraient produire :

bilitère = 28² = 784
trilitère = 28³ = 21 952
quadrilitère = 28⁴ = 87 800
quinquilitère = 28⁵ = 2 458 624

Soit au total 2 569 160, présentant notamment à peu près le ¼ des mots potentiels et virtuels recensés par Al-Khalil. Celui-ci soutenait que l’arabe est doté de plus de 12 millions d’unités lexicales actualisées réellement ou susceptibles d’être actualisées si des conditions d’usage ou de nécessité expressive, sont remplies.

Mais si l’on reprend la section du phonème /kh/ dans KA, on a 461 racines (bi-, tri-, quadri- et quinquilitères) et si l'on multiplie ce nombre par 28, on aura 12908 racines. Ce qui conduirait à déterminer approximativement les lexèmes regroupés dans la nomenclature du KA : si l’on multiplie 12908 par 5 (5 étant le nombre éventuel de signes qu’une seule et même racine pourrait générer), on obtiendra 64 540 mots, plus du double de la nomenclature de GL parce que, comme nous le savons déjà, les objectifs de ces deux éminents lexicographes ne sont pas les mêmes : le premier cherchait, avant tout, à enregistrer, suivant une technique mathématique, dans son dictionnaire tous les mots de l’arabe ancien, alors que le second prétendait ne retenir dans son lexique que les mots les « plus actuels » de la langue, bien qu'il ne pût atteindre pleinement cet objectif : GL contient aussi bien les unités lexicales les plus authentiques, les moins contestées, que des raria, les mots d’emprunt voire des noms propres. GL semble de fait constituer une encyclopédie embryonnaire.

Et si maintenant l’on retranche du nombre de racines possibles dans le système linguistique de la langue arabe, les racines productives de mots pleins, ayant une forme de l’expression et une forme du contenu, on remarquera aisément une sorte d'inflation, plutôt de prolifération lexicale, que pourrait supporter un tel système:

2569160 - 12908 = 2 556 252

le reste étant donc 2556252 représentant les racines virtuelles. Cela montre le besoin d’ne remise en question d'une telle méthode et l’intérêt à la développer : les racines potentielles ne représentent que 0,50%.

Partant, ces racines potentielles produisent - ou plutôt charrient dans le système lexical arabe - des mots d'origine diverses : sous une même racine, le lexicographe intègre des mots issus de différents idiomes que ce soit les dialectes arabes ou les langues étrangères, parce que ces termes renferment, dans leur structure de base, les phonèmes constituant cette racine. Mais ces phonèmes, ou du moins l'un d’eux, sont soit originaux, c’est-à-dire appartenant comme tels à la langue prêteuse, soit arabisés, autrement dit, articulés selon le système phonétique de la langue emprunteuse.

[1] André Roman s’est éteint mercredi 22 février 2012, à l’âge de 84 ans.

25/04/2011