Innehåll:
Det här var den kortfattade versionen. Undantag och förklaringar till dessa regler ges nedan.
Det här är en wiki-sida. Du kan redigera den om du vill. Längst ner till vänster finns länken "Redigera den här sidan".
Korrekturläsning är en viktig del av Projekt Runebergs verksamhet, och här behövs många frivilliga medarbetare. Med start våren 2003 sker den direkt från webbläsaren. Detta bygger på att både den inscannade faksimilbilden (se scanning) och den maskinellt tolkade OCR-texten finns tillgängliga, vilket är fallet i Projekt Runebergs digitala faksimilutgåvor. För våra äldre textutgåvor som saknar faksimilbilder måste man fortfarande använda e-post (runeberg@lysator.liu.se) för att påpeka fel och brister.
Korrekturläsning via webbläsaren är alltså en relativt ny del av Projekt Runeberg, och fortfarande stadd i utveckling. Därför välkomnar vi idéer och förslag på förbättringar. Några andra projekt som också tillämpar korrekturläsning via webbläsaren, och där man kan hämta mer idéer, är
På varje sida hos Projekt Runeberg som innehåller både en faksimilbild och den automatiskt tolkade OCR-texten finns också länken "Korrekturläs sidan nu!". Genom att klicka på den får du en ny sida som också visar faksimilbilden och texten, men här har du möjlighet att rulla dem oberoende av varandra för att se samma del av texten i båda samtidigt (de flesta skärmar är för små för att visa båda i sin helhet samtidigt). Här finns också möjlighet att korrigera texten. När du rättat de fel du hittat är det bara att klicka på knappen "Save". Nästa person som tittar på denna sida kommer att få se din korrigerade text, inte den ursprungliga versionen. Om du läser igenom hela sidan och rättar alla fel du hittar är det bra om du även kryssar i rutan "Hela sidan är OK nu" som finns längst ner.
När alla sidor i ett kapitel blivit korrekturlästa kan en redaktör i Projekt Runeberg slå ihop sidorna till en HTML-sida.
Som frivillig medarbetare har vi gjort det lätt för dig att hjälpa Projekt Runeberg med korrekturläsning av maskintolkad text från faksimilbilder. Syftet med korrekturläsningen är att förbättra möjligheten att söka i texten samt göra det lättare att använda den i andra syften, inte att exakt avbilda den tryckta textens typografi. Gör så här:
Om den tryckta texten har ett stavfel eller presenterar fakta som är felaktiga, så låt det stå. Låt gammalstafning (fv, hv, dt) stå som den är. Vi försöker återge gamla böcker här, inte skriva nya, moderniserade texter. Om namn stavas på ett annat sätt i en text (Hälsingborg) än vad som är vanligt idag (Helsingborg) så ändra inte detta. Om du hittar uppenbara sättningsfel (Helsingbogr) så är det tillåtet att korrigera det, men skriv i så fall en kommentar om vad du korrigerat i fältet "Comment".
Ta bort eventuell text i toppmarg och bottenmarg. Om alla sidor har till exempel författarens namn, kapitlets namn eller liknande överst eller underst, så ta bort detta. Ta även bort sidnumrering och arksignering, när det förekommer.
Lämna en tom rad mellan varje stycke i texten. Om första raden i varje stycke är indragen så ta bort detta indrag och ersätt det med en blankrad. Om en sida börjar med nytt stycke, markera det med en blankrad längst upp på sidan.
I vanlig löpande text är det inte nödvändigt att den korrekturlästa texten har radbrytningarna på samma ställe som den tryckta.
När det gäller poesi är det naturligtvis däremot viktigt att radbrytningarna kommer på rätt ställen, och det är inte alltid som OCR-programmet hanterar det. Den som gör första korrekturläsningen av en dikt kan få ändra på en hel del radbrytningar.
Hela dikten skall börja med en <poem>-tagg och avslutas med en </poem>-tagg, men kom ihåg att de två taggarna måste båda vara på samma sida, så om dikten fortsätter på följande sida kan du antingen flytta fram några rader (t. ex. om det inte är många) eller lägga till ett par nya taggar på nästa sida. Om du är inloggad i forumet så har du också en <poem> knapp.
I dikter förekommer ibland även att vissa rader har indrag. Detta kan markeras genom att stoppa in <tab>.
<poem>
En första diktrad
En första diktrad
En indragen rad <tab>En indragen rad
Mer vacker poesi Mer vacker poesi
</poem>
När en rad i en dikt varit för lång, så att den sista biten är tryckt med stort indrag, behöver <tab> inte användas. I de fallen ska i stället hela raden skrivas på 1 rad, eftersom en rad på en datorskärm normalt är mycket bredare än en rad i en diktsamling.
Mellan varje stycke ska det vara en blankrad. Ibland förekommer det att en bok innehåller längre mellanrum mellan stycken på en del ställen, eller någon form av markering:
*
eller
*
* *
eller
--------
När någonting i den stilen påträffas, så ta bort det och ersätt med en rad som bara innehåller * först på raden (och sätt in en blankrad före och efter raden med *).
Om ett ord är avstavat så slå ihop det.
Därför har Stock-
Därför har Stockholm
holm S:t Erik som S:t Erik som
Detta gäller även ord som råkat bli radbrutna från en sida till en annan. Det enklaste är att ta bort det halva ordet på den första sidan och sedan klistra in den borttagna biten när man fortsätter med nästa sida. Se bara till att komma ihåg att klistra in det som klipptes ut!
Om verket innehåller uttalsmarkeringar i form av apostrofer inuti ord så ta bort dem.
Ta'rtu
Tartu
Om verket innehåller spärrad text ska även den skrivas ihop.
s p ä r r a d
spärrad
Se även nedan om olika textsnitt.
När textsnittet är "kursivt" ska det ersättas med <i>kursivt</i>.
När textsnittet är "fetstil ska det ersättas med <b>fetstil</b>.
När typografin är "s p ä r r a t" ska det ersättas med <sp>spärrat</sp>.
I själva verket visas i Projekt Runeberg inte spärrad text (d v s "s p ä r r a d t e x t") som spärrad text, eftersom det är besvärligt att läsa, utan som understruken text. Spärrad text användes förr som ersättning för kursivering, eftersom det går att göra enkelt med blytyper utan att man behöver ha tillgång till ett helt extra typsnitt. När spärrad text påträffas i förlagan, bör den dock märkas som spärrad, inte som understruken, även om den i slutänden kommer att visas som understruken.
Ganska ofta träffar man på namn som är spärrade. Tänk på att markera lagom mycket som spärrat, så att det ser vettigt ut även understruket:
P. A. S p a r r e
<sp>P. A. Sparre</sp>
s p ä r r!
<sp>spärr!</sp>
e t t, t v å och t r e
<sp>ett, två</sp> och <sp>tre</sp>
När skiljetecken förekommer i direkt anslutning till spelar det inte så stor roll om de kommer med i spärrningsmarkeringen eller inte, utan man kan göra som det blir enklast. Tänk dock på att den spärrade texten kommer att bli understuken vid visning, så direkt anslutande "!" eller "?" bör markeras som spärrade även de.
<sc>Small Caps</sc> fungerar nu (april 2007) och det finns en <sc>-knapp om man är inloggad i forumet.
När det finns bindestreck i ett ord ska det skrivas med ett minustecken. När texten använder tankstreck "pratminus" (till exempel för repliker eller för att markera utelämnade ord) skrivs det med två minustecken i följd, utan blanksteg emellan. Använd inte de långa tankstreck som exempelvis finns i en del webbläsare. De tecken som används ska finnas med i teckenuppsättningen ISO-8859-1. Denna standard innehåller inte alla tecken som man skulle vilja ha, och då tvingas man göra följande ersättningar:
Ligatur (sammanskrivet) oeskriv oe (två bokstäver, ej ligatur) Dagger / krux / kors vid dödsår
skriv d. (förkortning för död) Kvadrat, i äldre förkortningar
skriv "kvadrat", "qwadrat" eller liknande med bokstäver Pundtecken, Skålpund
skriv "pund" eller "skålpund" med bokstäver Runor, grekiska, hebreiska, kyrillisk text
här finns ingen bra lösning, låt OCR-texten stå utan förändringar Skriv också en kommentar i Comment-fältet när sidan sparas. Fonetisk skrift, uttalsbeteckningar
här finns ingen bra lösning, låt OCR-texten stå utan förändringar Olika fristående accenttecken, apostrofer
använd ASCII-tecknet ' (kod 39 decimalt)
Notera att Microsoft Windows bryter mot ("utvidgar": ANSI? i st f ASCII?) teckenstandarden ISO 8859-1. Det är möjligt att framkalla en del av dessa tecken genom att hålla tangenten Alt nertryckt samt på numeriska tangentbordet ange ett tal mellan 128 och 255. Dessa tecken skall inte användas i Projekt Runeberg, för det fungerar inte under alla operativsystem och kan ge varierande resultat allt efter den stil som är aktiverad. Om man håller sig till ISO 8859-1, bör det fungera för alla.
Men om du behöver trycka Alt+148 för att skriva ett ö, t ex, så går det bra. Det finns också många citattecken (böjda till höger och vänster, små och stora, högt, lågt och i mitten på raden) som har OCR-tolkats som gåsögon (»). Det går bra och jag ändrar ofta alla sådana till gåsögon, även om OCR har tolkat en del till ("). /Ingemar
För dom verk som använder teckenstandarden sv:UTF-8? är det enklare att infoga specialtecken. Nedanför korrekturläsningsknapparna(<b>, <i> ...) på korrekturläsningssidan finns det en mängd olika tecken för snabbinfogning så länge som sv:javascript? är [påslaget] i webläsaren. Om flertalet av tecknen är ihåliga fyrkanter beror det på att datorn du sitter vid inte har något sv:teckensnitt? installerat för dom tecknen. Det finns både kommersiella teckensnitt samt fria för att kunna visa fler tecken. Exempel på fria teckensnitt är:
När en text innehåller fotnoter med någon form av markering inne i texten och sedan själva fotnotstexten i slutet av sidan så ska detta flyttas om.
ska bli
Observera att fotnotsmarkeringen ("1" eller "*" eller så) ska tas bort.
Vissa av våra verk anges som "ofullständigt indexerade". Det betyder att ingen har knappat in vilka sidor som hör till vilket kapitel, och på grund av det så kan vi inte presentera någon snygg innehållsförteckning. Istället visas hela eller delar av innehållsförteckningen bara som "Sidor ..." och sedan en lång radda med sidnummer. Indexeringen kan du också hjälpa till med, samtidigt som du korrekturläser.
Antag att texten ser ut så här:
För att indexera detta ska man lägga till lite:
Den inledande markeringen <chapter name="..."> ska stå precis före kapitelrubriken (eller första raden text i kapitlet, om det inte finns några kapitelrubriker). Om det finns en kapitelrubrik blir den alltså dubblerad. Den avslutande markeringen </chapter> ska stå på första raden efter sista texten i kapitlet. Försök inte att stoppa in en <chapter>-kod i en annan för att markera underkapitel, för det kommer inte att fungera. Den text som anges som beskrivning i name får inte innehålla någon formatering (fetstil, kursivering, etc).
Den här metoden kan användas på alla verk utom Nordisk Familjebok och Salmonsens konversationsleksikon. Den som vill hjälpa till med indexeringen av dessa, kan få anvisningar i Indexering av uggleupplagan respektive Salmonsens konversationsleksikon.
Om verket har artiklar av olika författare, så går det bra att lägga till författaren också. T ex <chapter name="Rubrik. Författare.">. /Ingemar
Notera att det inte finns någon anledning att lägga till <chapter>-markeringar om verket redan är indexerat.
Q: Kan <chapter>-taggene fjernes etter at kapittelet er indeksert? (fh)
A: Jag tycker att de kan ligga kvar. (Hans Persson)
Om verket innehåller sifferangivelser i bråkform så skriv dem med vanliga siffor. Det finns visserligen specialtecken för 1/2 och några bråk till, men att använda dem gör det svårare att söka i texten, och dessutom blir det inkonsekvent, eftersom det inte finns specialtecken för alla tänkbara bråk.
1½
1 1/2
När enheter som kvadratmeter anges kan man skriva så här:
17 m²
17 m<sup>2</sup>
På motsvarande sätt kan man använda <sub>nedsänkt</sub>.
Q: Jag tog bort kommatecken som tusentalsavgränsare (80,000 blev 80000). OK? /BG
A: Jag tycker de skulle vara kvar (så nära originalet som möjligt). /Ingemar
K: Antingen vara kvar eller ersättas med blanksteg (80 000) /Kannerby
Q: Hur ska man hantera grekiska bokstäver i ekvationer? [alpha], [beta] etc räcker inte alltid: Det finns flera sorters omega, man måste kunna skilja på versalt sigma och gement sigma m m. Hur gör man med integraltecken, rotuttryck, nabla, matriser och andra klurigheter? Det som finns i "klippa/klistra-rutan" räcker inte. Känner också ibland behov att kunna högerställa vissa saker (alltså mer bestämt än <tab>), som bara blir ett indrag i största allmänhet. /BLW
Om verket innehåller illustrationer med bildtexter så flytta bildtexten till utrymmet mellan två stycken. Det spelar inte så stor roll om bildtexten flyttas framåt eller bakåt. Framåt känns mest naturligt, men om stycket inte slutar på samma sida går det bra att lägga bildtexten före stycket den hör till istället. Om sidan inte innehåller något styckeavbrott så lägg bildtexten sist på sidan (efter en blankrad).
Det är nu (april 2007) också möjligt att koppla ihop en bild med bildtexten som hör till bilden.
Man gör så här: Välj bildtexten som vanligt och tryck på <img>-knappen (under korrekturrutan). Då blir det en <img>-tagg framför och en (ny) </img>-tagg bakom bildtexten. Om det är flera rader bildtext så går det bra också; varje rad i korrektur-rutan blir en rad bildtext, även om det är en blankrad. Alla de vanliga (<b>, <i>, etc.) taggarna fungerar också inom bildtexten. Om det är en bild utan bildtext så är det bara att skriva <img></img>.
Och det går lika bra att skriva
<img>Bildtext.</img>som
<img> Bildtext. </img>Resultatet blir detsamma.
Det går också att bestämma om bilden skall ligga till vänster (eller höger) på sidan, så att den övriga texten kan flöda till höger (eller vänster) om bilden. Man ändrar helt enkelt <img>-taggen så att den blir <img l> (eller <img r>). Skriver man <img> eller <img c> så blir bilden centrerad på sidan och den övriga texten flöder inte runt bilden.
Bilder på äldre sidor är nog fortfarande angivna med en enstaka <img>-tagg. Det går bra också, men om det är flera bilder på samma sida så måste de alla vara med eller alla utan </img>-taggen (fast det är bättre med, så klart!). (Det går bra åtminstone tills verket blir sammanslaget, då flera sidor blir en sida, och då måste väl alla bilder på den nya sammanslagna sidan vara med eller utan </img>-taggen.)
Kom ihåg att trycka på Preview-knappen för kontroll av att allt ser bra ut, innan arbetet fryses med Save-knappen.
För en del verk (vasa400 och lecheman, hittills) har bilderna blivit inlästa och laddade var för sig, så det är möjligt att lägga till själva bilderna också.
Sedan man har sparat sidan, ska man klicka på Preview-knappen igen så att den blåa IMAGE-rutan med röd kant ("illustration placeholder") syns, varpå man ska klicka på den. Då får man upp en ruta där man väljer "Bläddra". (Om det bara blir en Tillbaka-knapp i rutan, så betyder det att det inte finns några bilder laddade.) Välj rätt bild. Rutan med bilderna försvinner, och man ser då att bildens identitetsbeteckning, vanligtvis ett nummer, syns i rutan till vänster. Klicka sen på Spara. (Kanske det blir en varnings-ruta just då? Klicka på Retry-knappen, så bör den försvinna.) Om man nu trycker på webbläsarens Refresh-knapp, så ser man att <img>-taggen har ändrat sig i korrekturrutan. T ex
<img c id="626">Kallö slott.</img>
id="626" är kopplingen till bilden (illustrationen). Ändrar man det numret kommer en annan bild att visas. Om man vill se bilden, kan man klicka på Preview-knappen igen. Det hela är nu färdigt, och man kan fortsätta med nästa sida. Man behöver inte spara sidan igen.
Nu (Juni 2007) går det också att lägga till tabeller! Men först är det nödvändigt att man förstår något om hur tabeller är konstruerade.
Tabeller består av celler, som är arrangerade i rader och spalter. Alla celler är inte lika stora, det beror på vad de innehåller, men alla celler i en spalt är lika breda. I de enklaste tabellerna blir det lika många celler som rader x spalter. Men det är också möjligt att en cell kan vara större, och vara två, tre eller flera spalter bred. Eller kanske två eller flera rader i höjd. Eller bådadelarna. Några celler man skulle kunna tro ligga "bakom" den nya större cellen finns inte. Det betyder att när man räknar cellerna på en rad, så måste man komma ihåg att inte räkna de som försvunnit.
<table>-taggen:
Man börjar en tabell med en <table> tagg, och avslutar den med en </table> tagg. Allt inom de två taggarna är rader, och raderna delas i celler. OBS! <table> och </table> måste stå på en egen rad.
Tabeller i Runeberg kan göras med eller utan inramning. Om man skriver en <table b> tagg istället (b=border), så blir det en tabell med synliga kantlinjer runt alla celler, annars blir det inga kantlinjer alls. Då kommer tabellen också i mitten på sidan. Man kan göra en tabell utan kantlinjer med en <table o> tagg om man vill ha den i mitten på sidan. Om man inte använder vare sig "b" eller "o", blir det en tabell utan kantlinjer som ligger till vänster på sidan. Det är inte möjligt att lägga tabellen till höger på sidan, och den övriga texten flöder aldrig runt om tabellen.
Text eller tal som står inuti en cell kan ligga till vänster, höger eller vara centrerade inom cellen. Om man vill ha de flesta cellerna med text/tal högerställt, gör man tillägget <table r> (r för right), om centrerat <table c> och om vänsterställt <table l> (l för left), annars bara <table>.
Det går att använda flera tillägg samtidigt, men i så fall måste det vara ett blanksteg emellan. Ordningsföljden på tilläggen spelar ingen roll. Hela syntaxen för <table>-taggen är:
<table [b|o] [l|c|r]>
Exempel: <table>, <table b>, <table l>, <table b c>, <table r b>.
<td>-taggen:
Varje cell inom en tabell beskrivs med en <td>-tagg (d står för data). I exemplet
<table b> <td>Land <td>Huvudstad<td>Språk <td>England <td>London <td>Engelska <td>Italien <td>Rom <td>Italienska <td>Australien<td>Canberra <td>Engelska </table>
består tabellen av 4 rader och 3 spalter. De extra blankstegen efter t ex, "Land" har ingen effekt på tabellen, men det blir lättare att läsa i korrekturrutan. Kom ihåg att alla rader börjar med 1:a kolumnen, även om den cellen skall vara tom.
Liksom för <table>-taggen så går det att göra tillägg på <td>-taggen. Om man vill ha texten till höger i cellen, skriver man <td r>, om centrerad <td c>, om vänsterställt <td l>. Gör man inget tillägg i cellen, styrs placeringen av cellinnehållet av det man skrev i <table>-taggen.
Man kan göra en cell med 2 kolumners vidd med <td 2>, och en som är 2 radgångar hög (vertikalt) med <td v2>. Vill man ha en cell med både dubbel bredd och dubbel höjd skriver man <td 2 v2>. Hela syntaxen för <td>-taggen är:
<td [#] [v#] [l|c|r]>
Exempel: <td>, <td l>, <td 2>, <td 3 v2 c>, <td r>.
Om man gör en tabell med kantlinjer, måste man ha "rätt antal celler" i varje rad, annars blir det fel i somliga webbläsare.
Några knep:
Förhandgranska ofta om du gör avancerade tabeller.
Även om man vill ha en tabell utan kantlinjer, kan det vara lättare att se var man har gjort fel, om man börjar med kantlinjer (<table b>) och sedan tar bort dem när tabellen är riktig.
Tomma celler går nästan aldrig bra. Då kan man lägga in en <tab> istället om man vill se cellen även om den är tom.
Varje rad av celler i en tabell ska om möjligt definieras genom en (1) programrad i korrekturläsningsrutan. Om programraderna är mycket långa kan det bli svårt att läsa. Det går att bryta raden så länge den inte bryts precis vid en tagg. Den egentliga tabellraden måste börja med "<td" i 1:a kolumnen; men om programraden bryts så bör nästa kolumn på den brutna programraden börja med ett blanksteg. I så fall går det också att lägga till en blankrad mellan tabellraderna för att underlätta läsningen. Sådana blankrader ignoreras vid utskrift.
Om det är mycket text i en cell, särskilt med långa ord, blir den automatiska radbrytningen inom cellen inte alltid så lyckad. Man kan forcera radbrytningen genom att lägga till en <br>-tagg (men den taggen fungerar bara inom en cell, inte i den övriga texten).
Några exempel på tabeller kan ses på http://runeberg.org/finskakr/0233.html
Grekiska bokstäver och fonetisk skrift kan lämpligen transkriberas till svenska/norska/danska alfabetet. För exakt avbildning av den tryckta texten finns ju faksimilbilden kvar. Skriv en kommentar i "Comment"-fältet.
(Se även Q under rubriken "Matematik och liknande" ovan)
Q: Jag transkriberar grekiska bokstäver med [alpha], [beta] osv. och grekiska ord med t.ex. [hekaton] osv. Vad tycks om det? /Hartwig
Från RC-loggen:
Dum. Recept mot mened!
Bir. Sådant just oss tarfvas.