|
Uniquement une partie du fichier : sélection au sein de textes |
Retour Précédent Suivant |
|
Couper le début de chaque ligne/paragraphe Ceci est utile car certains corpus ont une quantité de codage fixe pour les détails de lignes à chaque début de ligne. Vous pouvez les couper (c'est-à-dire après chaque <Entrée>). Déterminez le nombre de caractères à couper (max. 100), la valeur par défaut étant 0. Saisissez -1 si vous souhaitez couper l'intégralité de ce qui se trouve avant le premier caractère alphabétique en début de ligne, et -2 pour tout couper jusqu'au premier retrait.
Sections à couper Si vous utilisez des fichiers texte comportant des en-têtes en SGML, XML ou HTML (par exemple le British National Corpus), vous pouvez les supprimer de vos listes de mots, concordances, etc. comme indiqué dans l'exemple d'en-tête.
Dans le cas de sélections plus compliquées, vous pouvez spécifier ce qui doit être coupé, en indiquant le début (par exemple <HEAD>) et la fin (par exemple </HEAD>). Vous pouvez couper jusqu'à 3 sections distinctes (de <HEAD> à </HEAD> ou de <BODY> à </BODY>). Cette fonction permet de couper une section autant de fois qu'elle apparaît dans un texte.
Sections à conserver (contextes) Admettons que vous vouliez sélectionner une section de texte et couper le reste. Spécifiez la balise d'ouverture et de fermeture, par exemple <Intro> et <Body> (seules les introductions sont analysées), ou Marie: à Pierre: (vous conservez alors uniquement le discours de Marie).
Il faut que chaque section soit délimitée par un symbole unique comme < ou > . Dans le cas de Marie: et Pierre:, il faut être sûr que pour tout ce que dit Marie, son nom est immédiatement suivi de deux points et que ses paroles sont suivies de Pierre:. Attention à la casse (impossible de trouver MARIE:). Si vous utilisez <H1> et </H1> appliquez cette fonction à un texte HTML vous obtenez les en-têtes principaux, mais rien de plus.
Vous pouvez utiliser deux sections différentes, par exemple <Intro> et </Intro> pour obtenir l'introduction et <Conclusion> et </Conclusion> pour la conclusion. Le symbole de fin ne doit pas nécessairement ressembler au symbole d'ouverture de la section : vous pouvez par exemple garder <INTRO> et</BODY> et par conséquent couper la conclusion si elle apparaît après </BODY>.
Rubriques connexes : Balises utilisées comme sélecteurs, Uniquement si l' élément <x> contenu.
|