FRENCH ORAL SPEECH CORPORA: THEORETICAL AND PRACTICAL ASPECTS

←2020. – Vol. 17

Iryna V. Strashko
PhD, Postdoctoral Student
National Pedagogical Dragomanov University


DOI: https://doi.org/10.17721/StudLing2020.17.112-127


FULL TEXT PDF (UKRAINIAN)


ABSTRACT

The paper describes the issues of the origin, development, distribution and use of French oral speech corpora. The specifics of collecting, constituting and treatment of oral data were also analyzed. The choice of the French investigation tradition was caused by the fact that it is not well-known in Ukrainian corpus research. It was noted that the development of oral speech corpora by French researchers occurred with a delay, mainly due to technical reasons. The compilers of early collections of sound texts followed their own rules of recording, transcribing and saving, so today it is almost impossible to use them. Based on the analysis of the available speech corpora, it was found that they are characterized by heterogeneity, a variety of purposes for their creating, including scientific ones, and blurred chronological boundaries. Dissimilarity in researchers’ epistemological orientations, differences in knowledge and tools, corpora’s heterogeneousness involve a diversity of methodological approaches to their constitution and usage. It is worth mentioning that the insufficiency of big and multi-level oral speech corpora in terms of their quantity, quality and scientific reliability, is directly related to the conditions of their implementation and depends on a combination of scientific, technological and institutional factors. Oral data treatment involves transcription, which includes technological, theoretical and interpretation issues. In conclusion, it should be emphasized that the constitution and the use of French speech corpora are not limited to voice recordings and purely technical aspects as they acquire importance in the openness and availability of their data.

Key words: oral speech corpus, French language, sound file, transcription, annotation.


REFERENCES

  1. Krivnova, O. F., Zakharov, L. M., & Strokin, G. S. (2001). «Rechevyye korpusy (opyt razrabotki i ispol’zovaniye) [Speech corpora (development experience and use)]». Trudy mezhdunarodnogo seminara Dialog. (in Russ.).
  2. Krivnova, O. F. (2006). «Oblasti primeneniya rechevykh korpusov i opyt ikh razrabotki [Scopes of speech corpora and experience in their development]». Tr. XVIII Sessii Rossiyskogo akusticheskogo obshchestva RAO. Taganrog (in Russ.).
  3. Lofti Abouda, Oliver Baude, “Constituer et exploiter un grand corpus oral: choix et enjeux théoriques. Le cas des ESLO”, (2006).
  4. Lofti Abouda, Marie Skrovec, “Pour une micro-diachronie de l’oral: le corpus ESLO-MD”, SHS Web of Conferences. – EDP Sciences, (46), (2018): 11004.
  5. Oliver Baude, “Les corpus oraux entre science et patrimoine. L’expérience de l’Observatoire des pratiques linguistiques”, (2004).
  6. Olivier Baude, Claire Blanche-Benveniste, Marie-France Calas, Paul Cappeau, Pascal Cordereix, et al.. Corpus oraux, guide des bonnes pratiques. CNRS Editions, Presses Universitaires Orléans, 2006.
  7. Benzitoun, Christophe, “L’annotation syntaxique de corpus oraux constitue-t-elle un problème spécifique”, In Actes de la conférence RECITAL,(April 2004): 13-22.
  8. Benzitoun, Christophe, Karen, Fort, Benoît, Sagot. “TCOF-POS: un corpus libre de français parlé annoté en morphosyntaxe.” JEP-TALN 2012 – Journées d’Études sur la Parole et conférence annuelle du Traitement Automatique des Langues Naturelles, Jun 2012, Grenoble, France: 99-112.
  9. Blanche-Benveniste, Claire, and Colette Jeanjean. Le français parlé: transcription et édition. Éditions Interco, 1987.
  10. Claire Blanche-Benveniste. “Constitution et utilisation d’un grand corpus, Grands corpus: diversité des objectifs, variété des approches”. Revue Française de Linguistique Appliquée 4,1(1999): 65-74.
  11. Sandrine Caddéo, Frédéric Sabio, “Le Groupe Aixois de Recherche en Syntaxe et les recherches actuelles sur le français parlé”, Repères DoRiF n.12 – Les z’oraux – Les français parlés entre sons et discours – Coordonné par Enrica Galazzi et Marie-Christine Jamet, DoRiF Università, Roma juillet 2017, http://www.dorif.it/ezine/ezine_articles.php?id=340
  12. André, Virginie, and Emmanuelle Canut. “Mise à disposition de corpus oraux interactifs: le projet TCOF (traitement de corpus oraux en francais).” Pratiques. Linguistique, littérature, didactique 147-148 (2010): 35-51.
  13. Cappeau, Paul, Gadet, Françoise, “L’exploitation sociolinguistique des grands corpus”, Revue française de linguistique appliquée, 12(1), (2007): 99-110.
  14. Debaisieux, Jeanne-Marie, “Les corpus oraux: situation, exploitation linguistique, bilan et perspectives”, Scolia, Université des sciences humaines Strasbourg, (2005): 9-40.
  15. Jacobson, Michel, “Corpus oraux en linguistique de terrain. Traitement automatique des langues”, ATALA 45(2), (2004): 63-88.
  16. Krötsch, Monique, “Répétition et progression en français parlé”. Linx. Revue des linguistes de l’université Paris X Nanterre, (57), (2007): 37-46.
  17. Mondada, Lorenza, “Pratiques de transcription et effets de catégorisation”, Cahiers de praxématique, (39) (2002): 45-75. DOI : https://doi.org/10.4000/praxematique.1835
  18. Wissner, Inka, “Les grands corpus du français moderne: des outils pour étudier le lexique diatopiquement marqué”, SKY Journal of Linguistics, 25(2012): 233-272.
  19. CLAPI: Corpus de LAngue Parlée en Interaction. http://clapi.univ-lyon2.fr/
  20. ESLO: Enquêtes Sociolinguistiques à Orléans, Université d’Orléans. http://eslo.huma-num.fr/index.php
  21. ORTOLANG:Open Resources and TOols for LANGuage. www.ortolang.fr
  22. PFC: Corpus Phonologie du Français Contemporain. http://www.projet-pfc.net/
  23. TCOF: Traitement des Corpus Oraux en Français. http://www.cnrtl.fr/corpus/tcof/