Mesadié d'enfourmacioun prouvençalo
Pajo d'acuei
Presentacioun en francés
Catalogue dis edicioun
Editouriau dóu mes
  Mescladisso d'archiéu Mescladisso d'archiéu
diciounàri en ligno
Countat
 

Editouriau dóu mes de juliet et avoust

La lengo dins l’ourdinatour

Nosto lengo, óujèt de recerco enfourmatico.
Avèn en Prouvènço lou CIEL d’Oc que despièi d’annado numeriso tóuti li libre en lengo d’Oc… Aro arribon li cercaire que van espepidouna li tèste d’un biais scientifi, bono-di li prougrès enfourmatique e l’internet


Lou projèt TELOC

De mai en mai de lengo an sa baso testualo (Cf. Frantext, The Corpus British National Corpus, El Corpus Textual Informatizat de la Llenga Catalana, Mendeko Euskararen Corpus estatistikoa, Base de Datos Sintásticos des español actual…) pèr n’en cita que quàuquis eisèmple.
Es de ressourço indispensablo à touto entre-presso leissicougrafico e à touto descripcioun scientifico de la lengo dins si dimencioun leissicalo, mourfoulougico, sintassico, sementico e discurcivo.


Lou proujèt TELOC (Textes En Langue Occitane) a pèr ambicioun de baia à la lengo nostro uno memo ressourço, valènt-à-dire qu’a pèr amiro la coustitucioun d’uno baso de dounado testualo recampant d’obro escricho, de touto meno (literaturo, tiatre, conte, tèste teini, journalisti…). Lou travai es mena pèr l’ERSS que mesclo li coumpetènci en linguistico óucitano, en linguistico de corpus e en tratamen autoumati di lengo.
La baso testualo de TELOC sara counsacrado à la lengo d’Oc mouderno e countempourano escricho. Lou corpus à recampa es inmènse. Es estima à mai d’un milié d’obro prouducho en lengo d’Oc despièi lou siècle XVI°. Pèr lis obro d’avans, l’ensèn dóu corpus es en trin d’èstre recampado dins la baso dóu projèt Concordance de l’Occitan Médiéval sous la beilié dóu Pr. Ricketts.
La proumiero estapo dóu projèt es la coustrucioun d’uno baso esperimentalo moudèsto aguènt un miloun de mot. Basto de recampa d’obro countempourano, adounc adeja souto lou fourmat numerique, e de li couda en .XML segound la formo internaciounalo (Text Encoding Iniciative P5). Aquesto partido esperimentalo es menado en partenariat emé l’ATILF à Nancy sus lou moudèle d’uno baso testualo de tipe Frantext. La baso sara acessiblo au publi dins lou CNRTL (Centre National de Ressources Textuelles et Lexicales).
Lou proujèt TELOC beneficira d’uno mutualisacioun di teinico e dis óutis d’interrougacioun de la baso testualo. Dins aquesto versioun, esperimentalo, la baso poudra èstre esplechado pèr de requisto simplo: sourtido de mot, uno partido de mot, recerco de d’oucurrènci, carcul de frequènci de mot…
Diferèntis estapo permetran uno aumentacioun prougressivo e significativo de la baso: i’a proun de matèri pèr passa à court e long terme à mai d’uno centenau de milié de mot. L’aumentacioun dóu voulume di dounado s’acoumpagnara d’uno estruturo de la baso: classamen pèr gènre, e pèr doumaine, pèr tipe de suport, pèr epoco o pèr dato, pèr dialèite e varianto, pèr tipe de grafìo… Se vihara que la baso respetèsse à terme, li règlo de coustitucioun d’un vertadié corpus: representivita equilibrado di gènre, di doumaine, di dialèite, de la presènci de tèste ourau. Uno baso de tèste ourau, que sara interfacia emé lou TELOC, es en cours de bastisoun dins lou cadre dóu THESOC (THEsorus Occitan) mena pèr l’UMR 6039 à Niço e l’ERSS.
Pamens, dins li estapo que seguiran la faso esperimetalo, saren estaca à fissa d’ùni paramètre, pèr eisèmple coumença pèr recampa e couda de tèste en lengadoucian de l’epoco countempourano. Sus la baso alargado, poudren passa à uno faso de tratamen linguisti que permetra d’endrudi la baso emé d’enfourmacioun pèr n’en faire uno baso categourisado. Lou travai d’etiquetage de la moufoulougìo sintassico dóu corpus permetra d’esplecha la baso emé de requisto mai coumpleisso: pèr eisèmple cerca tóuti li formo d’un verbe, d’un noum, d’un ajeitiéu, recerco de deriva de mot, seleiciouna de tros de fraso counjugado unicamen emé d’ùni tèms verbau. Lou moutour de recerco déura integra lou naut degrad de variacioun especifico à nosto lengo: la grafìo.
En deforo di labouratòri adeja cita, TELOC a pèr partenaàri l’IEO-IDECO e lou Cènte de ressourço óucitano e meridiounalo. De coulabouracioun soun souvetado emé li travaiaire de proujèt proche coume la Biblioutèco virtualo dóu CIEL d’OC e de l’Universita de Prouvènço, lou diciounàri enfourmatisa dóu GILIDOC e mai largamen emé tóuti li cercaire moutiva pèr aquest proujèt.
En dela de sis utilisacioun pèr la linguistico de la lengo nostro, pèr d’estùdi literàri, etnoulougico, istourico, pèr la sauvo-gardo dóu patrimòni escrich e de la meso à dispousicioun au publi dis escrich en lengo nostro.
Myriam Bras
UMR 516 dóu CNRS
Universita Toulouso II Le Mira
l
 
Un lougiciau de reviraduro automatico
 
En meme tèms, fai quàuquei mes, la Generalitat de Catalunha e lou Counsèu Generau d'Aran an demanda à chasco regioun franceso de lengo d'Oc de missiouna dous linguisto especialisa en lengo d'Oc pèr prene part au travai d'uno coumessioun linguistico que sa toco sarié la realisacioun d'un lougiciau de reviraduro automatico dóu catalan à l'óucitan.
Uno di dos persouno que soun estado missiounado pèr la Regioun Rose-Aup nous coutè qu’avien agu un proumier acamp en Vau d'Aran li 4 e 5 de mai passa.
Malurousamen i’avié ges de representant missiouna pèr la regioun Prouvènço…
À -n-aqueste proumier acamp es esta decida de mounta un corpus de tèste que servirié de baso de dounado leissicalo pèr aqueste reviraire automati. Pèr acò faire, assajon de recampa tout ço qu'eisistis deja coume tèste numerisa dins li diferènt dialèite d'oc e es pèr acò qu'ai demanda se lou CIEL d'OC poudié me manda un CD di tèste que soun esta numerisa pèr CIEL d'OC.
Dins un proumié tèms, que n'en sian pas qu'à la faso de prototipe, es esta decida de se limita i tèste numerisa en grafìo alibertino, mai es tambèn previst que sara un lougiciau dubert, coume dison lis especialisto, qu'acò vòu dire que sara poussible de modifica li dounado e faire d'asatacioun pèr lei diferènt dialèite e li diferènti grafìo.
Jan-Glaude Rixte
 
 
Mescladisso d'archiéu Mescladisso d'archiéu
 
Se voulès vous abouna escriéure à :
 
"Prouvènço d'aro", "Flora pargue", Bast.D, 64, traverso Paul, 13008 Marsiho.
 
Se voulès d'en proumié counèisse "Prouvènço d'aro", li tres darnié numerò vous saran manda à gratis, basto pèr acò de nous baia voste noum e vosto adrèisso :
Nosto adrèisso eleitrounico : lou. journau@prouvenco-aro.com
Prouvènço d'aro, 18 carriero de Beyrouth, 13009 Marseille.
 
Pajo d'acuei Presentacioun en francés Catalogue dis edicioun Editouriau dóu mes Mescladisso d'archieu diciounàri en ligno Countat