Treoirlínte chun tras-scríbhinní uathoibrithe ó Phríomhbhailiúchán Lámhscríbhinní CBÉ a cheartú agus a thras-scríobh

Uathoibriú

I samhradh na bliana 2021 bhronn an UKRI-AHRC i gcomhar le Comhairle um Thaighde Éireann maoiniú ar Gaois chun an tionscnamh Díochódú Oidhreachtaí Folaithe a thosnú ina ndéanfaí taighde ar conas próiséas na tras-scríbhneoireachta ar lámhscríbhinní Gaeilge a uathoibriú leis an dteicneolaíocht AI. Le bliain anuas tá innill aitheanta peannaireachta á dtraenáil againn a dhíríonn ar dháréag de na bailitheoirí lán-aimsire a bhíodh ag tiomsú lámhscríbhinní don Phríomhbhailiúchán Lámhscríbhinní i gCnuasach Bhéaloideas Éireann.

Feidhmíonn an t-inneall aitheanta peannaireachta trí chomhoibriú idir trí shamhail AI, samhail uathaithint na línte (‘baselines model’), samhail peannaireachta (‘handwritten text model’) agus samhail teanga (‘language model’). Díríonn samhail uathaithint na línte ar na línte ar a bhfuil an téacs a aithint agus a chur in ord loighciúil don léitheoir. Díríonn an tsamhail peannaireachta ar chruth na litreach féin, .i. nuair a bhíonn an traenálaí daonna ag tras-scríobh cruthaíonn sé bunachar mór de shamplaí cearta ar féidir leis an tsamhail tagairt do nuair a théann sé i mbun aitheanta. Is mar sin a fhoghlaimíonn an tsamhail seo conas cruth na litreach féin a aithint ceann ar cheann ar bhonn na samplaí cearta seo go léir atá aici sa bhunachar. Ar an taobh eile díríonn an tsamhail teanga ar na focail atá sa bhunachar, .i. nuair a bhíonn an traenálaí daonna ag tras-scríobh cruthaítear bunachar mór de na focail go léir atá coitianta sa lámhscríbhinn sin agus tugtar meastachán staitistiúil ar cé chomh coitianta is a bhíonn siad sa téacs. Úsáidfidh an tsamhail teanga an sainfhoclóir agus na meastacháin seo chun leid a thabhairt don tsamhail peannaireachta conas focal a thras-scríobh.

Agus an bailiúchán seo oscailte anois don phobal buailfidh baill Mheitheal Dúchais.ie le tras-scríbhinní uathoibrithe a eascraíonn as obair an dá shamhail seo. Fágtar treoracha sa mhéid seo a leanas dóibh siúd a dteastaíonn uathu na tras-scríbhinní uathoibrithe seo a cheartú agus a chur i bhfeabhas nó, i gcásanna áirithe, a ghlanadh agus a thoisiú ó bhonn. Cabhróidh an obair seo linne i nGaois ár n-innill aitheanta peannaireachta a chur i bhfeabhas an athuair rud a thabharfaidh tras-scríbhinní níos cruinne agus níos dílsí don bhunábhar dúinn sna blianta amach romhainn.

Treoir don tras-scríobh

  1. Marab ionann agus an obair a bhí ar bun ag tras-scríbhneoirí Meitheal Dúchais.ie go dtí seo ar Bhailiúchán na Scol, tá sé rí-thábhachtach go gcloífeadh tras-scríbhneoirí le faid agus briseadh gach líne go díreach mar atá siad ar leathanach na lámhscríbhinne. Nuair a thabharfar na tras-scríbhinní atá léite agus ceartaithe ag Meitheal Dúchais.ie isteach go Transkribus (an bogearra aitheanta peannaireachta atá in úsáid againn) aríst is fearr a cheanglófar an téacs ceartaithe don íomhá má chomhfhreagraíonn gach líne sa chomhad téacs do líne sa lámhscríbhinn.
  2. Iarraimid ar thras-scríbhneoirí gan aon chaighdeánú a dhéanamh ar theanga na lámhscríbhinní. Mhúnlaigh gach bailitheoir a bhí ag obair don gCoimisiún ortagrafaíocht na Gaeilge ar mhaithe leis an mionchanúint agus go minic ar mhaithe leis an gcainteoir féin a raibh siad ag bailiú uaidh. Fágann sé seo go bhfuil an Príomhbhailiúchán ar cheann de na bailiúcháin is saibhre a thugann fianaise ar chanúintí, ar mhionchanúintí agus ideóileictí féin na Gaeilge mar a bhídís le clos i lár na fichiú haoise ó cheann ceann na tíre. Is dá bhrí seo a iarraimid go ndéanfaí tras-scríobh ar an litriú go díreach mar a fhaightear sa lámhscríbhinn é agus molaimid go láidir go gcloífeadh gach tras-scríbhneoir leis an gcanúint is mó a bhfuil cur amach acu uirthe. Úsáidfear ríomhchlár uathoibríoch chun bunleagan caighdeánach dena téacsanna seo a sholáthar amach anseo.

Ceartúcháin agus earráidí coitianta

Seo a leanas roinnt de na hearráidí is coitianta a bhuailfidh libh is sibh ag léamh na dtras-scríbhinní uathoibrithe seo:

  1. Línte agus focail ón leathanach roimhe nó ina dhiaidh: is minic a aimsíonn ár n-innill rian na línte ó leathanaigh eile, idir leath-fhocail, litreacha aonair is marcanna agus déanfaidh sé iarracht ar iad a léamh nó ar iad a mheascadh leis an gcuid eile don dtéacs. Tugaimid cuireadh dár n-úsáideoirí na línte seo a ghlanadh sa tslí is nach mbeadh ar fáil ar deireadh ach an téacs ba cheart a bheith ar an leathanach áirithe sin amháin.

Íomhá ó Transkribus: Ó Cróinín CBÉ LS 283, lch. 30

  1. Línte briste nuair nár cheart dóibh a bheith: uaireanta aimseofar línte atá briste gan fáth mar a fheictear san íomhá seo thíos mar go raibh deacracht ag ár n-innill an líne áirithe sin a aithint mar aon aonad amháin. Tugaimid cuireadh dár n-úsáideoirí na línte briste seo a tháthú le chéile aríst de réir mar a fhaightear iad ar an leathanach agus má tras-scríobhadh aon litreacha ná focail nach bhfaightear ar an leathanach (mar a fheictear thíos i gcás a) iad seo a ghlanadh.

Íomhá ó Transkribus: Ó Dálaigh CBÉ LS 376, lch. 403

  1. Tras-scríobh uathoibrithe na lipéad eolais a ghlanadh: toisc gur ar an bpeannaireacht amháin a traenáladh ár n-innill ní bhíonn sé de chumas orthu téacs clóbhuailte na lipéad eolais a aithint. Ba ghnách ceann acu seo a chur i dtosach gach scéil i lámhscríbhinní an Phríomhbhailiúcháin agus buailfidh iarracht na n-inneall iad seo a thras-scríobh go minic libh. Tá an t-eolas a faightear iontu seo á dhigitiú de láimh ag foireann Gaois i láthair na huaire agus dá bhrí sin tugtar cuireadh dár n-úsáideoirí an míthras-scríobh uathoibríoch seo a ghlanadh go hiomlán nuair a bhuailfidh sé leo.

Íomhá ó Transkribus: Ó Cróinín CBÉ LS 283, lch. 5

  1. Béarla tras-scríte le samhail teanga Gaeilge: cé gur deineadh iarracht téacsanna Béarla a sheachaint nuair a ritheadh na hinnill ar imleabhra an Phríomhbhailiúcháin, buailfidh roinnt cásanna libh ina bhfuil téacs Béarla tras-scríte go dona toisc é a bheith déanta trí dhearmad le samhail teanga a traenáladh ar an nGaeilge. Is fuirist na cásanna seo a aithint mar 1) níor tras-scríobhadh aon téacs Béarla go huathoibríoch d’aon ghnó agus 2) beidh teip ghlan déanta ag an inneall formhór na bhfocal a aithint (mar a fheictear san íomhá thíos). Tugtar cuireadh dár n-úsáideoirí an téacs uathoibrithe seo a ghlanadh agus é a thras-scríobh ó bhonn.

Íomhá ó Transkribus: Liam Mac Coisdealbha CBÉ LS 312, lch. 207

Mioneagarthóireacht

I gcásanna áirithe moltar mioneagarthóireacht a dhéanamh ar an tras-scríobh uathoibrithe, go háirithe más léir go bhfuil earráidí a eascraíonn as na pointí séimhithe nó na sínte fada. Níor chás don tras-scríbhneoir saineolas a bheith acu ar an gcanúint atá siad a thras-scríobh sula ndéanfaidh siad cinneadh ar cheart dóibh an téacs a athrú agus is fearr gan aon rud a athrú muna bhfuiltear deimhnitheach de.

1. An Séimhiú

Bhí dhá nós ag scríbhneoirí an Phríomhbhailiúcháin chun consain a shéimhiú: 1) h a chur tar éis an chonsain (‘ch’, ‘dh’, ‘fh’), agus 2) pointe a chur os cionn an chonsain (‘ċ’, ‘ḋ’, ‘ḟ’). Is é an chéad nós acu seo ba cheart a leanúint sa tras-scríobh, is é sin le rá gur cheart ‘ċ’, ‘ḋ’, ‘ḟ’ a thras-scríobh mar ‘ch’, ‘dh’ agus ‘fh’.

Mar is eol do Mheitheal Dúchais.ie cheana is minic a bhíonn an pointe séimhithe doiléir ar leathanach na lámhscríbhinne agus ní nach ionadh bíonn deacrachtaí ag na samhlacha leo seo chomh maith. I gcásanna áirithe is léir go ndearna an scríobhaí féin dearmad air mar ní bheadh ann don bhfocal muna dtabharfaí an séimhiú thar n-ais air, mar a fheictear sa tsampla seo thíos ‘dubairt’ in áit ‘dubhairt’. Tugtar cuireadh do Mheitheal Dúchais.ie an séimhiú a thabhairt thar n-ais sa tras-scríobh sna cásanna seo agus an leagan stairiúil a mbeifí ag súil leis i gcanúint an fhaisnéiseora a sholáthar, .i. ‘dubhairt’ sa chás seo.

dubairt > dubhairt (Proinsias de Búrca CBÉ LS 161, lch. 2)

Ar an gcuma chéanna uaireanta chuir an scríobhaí séimhiú in áit nár cheart dó a bheith trí dhearmad, mar a fheictear sa tsampla seo thíos ‘(an) bhéich (a chur sé as)’ in áit ‘(an) bhéic (a chur sé as)’. Má táthar deimhnitheach nach leagan canúnach den bhfocal atá i gceist agus má braitear go láidir gur dearmad de chuid an scríobhaí is cúis leis an litriú neamhghnáthach, tugtar cuireadh do Mheitheal Dúchais.ie an séimhiú a bhaint agus agus an leagan stairiúil a mbeifí ag súil leis i gcanúint an fhaisnéiseora a sholáthar, .i. ‘(an) bhéic’.

bhéich > bhéic (Proinsias de Búrca CBÉ LS 161, lch. 27)

Ar an dtaobh eile dhen scéal, is minic a bhíonn marc nó smál éigin ar an bpáipéar féin agus tuigeann an tsamhail peannaireachta gur pointe séimhithe é sin, mar a fheictear sa tsampla seo thíos ‘ní phósfaidh mhise’ in áit ‘ní phósfaidh mise’. Tugtar cuireadh do Mheitheal Dúchais.ie an séimhiú a bhaint sna cásanna seo agus agus an leagan stairiúil a mbeifí ag súil leis i gcanúint an fhaisnéiseora a sholáthar, .i. ‘mise’.

mhise > mise (Seán Ó hEochaidh CBÉ LS 139, lch. 28)

2. Sínte Fada

Ar an gcuma chéanna leis an séimhiú thuas, uaireanta geobhfar sampla d’fhocal gur cheart go mbeadh síneadh fada air agus ní bhíonn. Feic thíos an sampla ó Sheosamh Ó Dálaigh ‘do thog sé’ nuair is é ‘do thóg sé’ an ceart. Sna cásanna seo, má bhítear deimhnitheach de gur dearmad scríbhneoireachta é mar 1) nach mbíodh a leithéid d’fhoghraíocht sa chanúint, 2) níl aon tsamplaí eile den litriú neamhghnáthach ag an scríobhaí céanna, is féidir an leagan stairiúil a mbeifí ag súil leis i gcanúint an fhaisnéiseora a thabhairt thar n-ais.

do thog sé > do thóg sé (Seosamh Ó Dálaigh CBÉ LS 242 lch. 106)

Iarraimid ar Mheitheal Dúchais a bheith fíor-spárálach leis an gcineál seo eagarthóireachta agus gan focail a leasú ach sa chás go bhfuiltear lándeimhnitheach de gur dearmad peannaireachta a shleamhnaigh thar shúil an scríobhaí a bhíonn i gceist. Ba shaineolaithe ar chanúintí a bhfaisnéiseoirí na príomhbhailitheoirí seo agus b’annamh leo focail a litriú mar a rinne siad gan dianmhachnamh a bheith déanta acu orthu agus ar fhoghraíocht a bhfaisnéiseora. Seo thíos liosta do shamplaí nár cheart a leasú sa tras-scríobh mar go léiríonn siad foghraíochtaí réigiúnacha agus nósanna litrithe na Gaeilge sa chéad leath den bhfichiú aois.

sgreuchaig > sgreuchaig (Seosamh Ó Dálaigh CBÉ LS 242, lch. 500)
feárr > feárr (Seosamh Ó Dálaigh CBÉ LS 242 lch. 299)
béidh > béidh (Seán Ó hEochaidh CBÉ LS 139, lch. 47)
dheánfas > dheánfas (Seán Ó hEochaidh CBÉ LS 139, lch. 47)
lar na bháireach > lar na bháireach (Seosamh Ó Dálaigh CBÉ LS 242, lch. 304)
d’eirigh > d’eirigh (Proinsias de Búrca CBÉ LS 161 lch. 4)

Noda coitianta sa Phríomhbhailiúchán

Buailfidh roinnt nod lenár n-úsáideoirí i lámhscríbhinní an Phríomhbhailiúcháin. Is í an riail ghinearálta atá i bhfeidhm ná gach nod a scaoileadh mar a mholann an bailitheoir féin nó, muna bhfuil cur síos acu ar conas an nod a scaoileadh, é a scaoileadh sa chaighdeán. Mar shampla, d’úsáideadh Seosamh Ó Dálaigh foirm den litir f chun ‘ar sise’ a scríobh agus foirm den litir S chun ‘ar seisean’ a scríobh, agus míníonn sé sna fonótaí a chuireadh sé ina gcuid lámhscríbhinní gur mar sin ba cheart na noda sin a scaoileadh:

Íomhá ó Transkribus: Ó Dálaigh CBÉ LS 242, lch. 7

Ní bheadh sé ceart iad seo a scaoileadh le litrúcháin chanúnacha ar nós ‘arsa í sin’ nó ‘arsa é sin’ mar níorbh shin mian an bhailitheora féin.

Seo thíos liosta dena noda coitianta atá feicthe againne go dtí so agus treoir ar conas ba cheart iad a scaoileadh:

1. agus

Tá an nod seo, a dtugtar tironian et air, á húsáid ag scríobhaithe na hÉireann ón meánaois i leith. Is mar ‘agus’, agus ní mar ‘7’, ba cheart é a thras-scríobh.

2. etc.

Tá an nod seo coitianta i lámhscríbhinní an Phríomhbhailiúcháin agus faightear é i lámhscríbhinní Éireannacha ón meánaois i leith. Is é an tironian et atá i gceist móide rl, a sheasaíonn don bhfocal Laidin reliqua, ‘an chuid eile’. Is mar ‘etc.’, agus ní mar ‘agus araile’‘7rl’, ba cheart é a thras-scríobh.

3. .i. (Lat. id est, Sean-Ghael. edón, Eng. i.e.)

Tá an nod seo coitianta i lámhscríbhinní an Phríomhbhailiúcháin agus faightear é i lámhscríbhinní Éireannacha ón meánaois i leith. Is nod é a thagann chugainn ó thraidisiún scríbhneoireachta na Laidine agus id est is brí leis ó thús, ‘is é sin’ nó ‘is é sin le rá’ an bhrí Gaeilge. Scaoiltí é mar edón [eðˈoːn] sa tSean- agus sa Mheán-Ghaeilge (Sean-Ghael. ed = forainm neodrach, móide ón = forainm taispeántach neodrach, ‘(is) é sin’) agus mar eadhón sa Nua-Ghaeilge Mhoch. Is focal liteartha eadhón sa Nua-Ghaeilge inniu ach ní móide go maireann sé sa chaint bheo. Is dá bhrí sin a iarraimid ar Mheitheal Dúchais.ie é a fhágaint mar .i. sa tras-scríobh, agus gan é a thras-scríobh mar eadhóni.e.id est. Is mar ‘is é sin’ a mholfaimís é a léamh ós ard.

4. ar sise

Tá an nod seo coitianta i lámhscríbhinní Sheosaimh Uí Dhálaigh.

5. ar seisean

Tá an nod seo coitianta i lámhscríbhinní Sheosaimh Uí Dhálaigh.