Az adatok importálása és előkészítése
2. Importálás weblapról
Gyakori, hogy az adatok forrása valamilyen weblap. Az Excel erre külön lehetőséget nyújt: az Adatok/ Külső adatok átvétele csoportban kiválasztható a weblapforrás is. Itt a cím mezőbe megadhatunk tényleges internetes vagy helyi linket, vagy vonszolással az ablakba "ejthetünk" egy korábban már lementett weblapot. Ezt követően a nyíl ikonokkal tudjuk kijelölni, hogy a weblap mely részeire van szükségünk.
Ez a módszer azonban problémás lehet, ha a weblap a szükséges adatokon túl más értékeket is tartalmaz, vagy az előbb említett ikonnal nem tudjuk kijelölni, amit szeretnénk. A megoldásnak ekkor többféleképp is nekifoghatunk, de a keresés és csere funkcióra szinte minden esetben szükségünk lesz. Erre láthatunk egy példát a következőkben:
Példa3. példa: Nemes 2010-2011 3. forduló, 4/A (Eszmei érték)
Először védett növények nevét, latin nevét és eszmei értékét kell kinyernünk három htm-fájlból. Ezek hasonló felépítésűek, így érdemes velük egyszerre dolgozni.
- Nyissuk meg a htm-eket, a számunkra szükséges tartalmat tegyük vágólapra! (Az "oszlop" kijelölése úgy a legegyszerűbb, ha egérrel kijelöljük az első karaktert, majd a Shift nyomva tartása mellett kattintunk az utolsó "sor" végén.)
- Illesszük be a tartalmakat egymás alá egy Word-dokumentumba, de a formázás elhagyásával! Célunk az, hogy ebből három oszloppá alakítható, csak a számunkra szükséges adatokat tartalmazó forrást hozzunk létre. A külön oszlopokba tartozó adatok elválasztásához tabulátorjelet fogunk beilleszteni a megfelelő helyekre.
A továbbiakban úgy fogunk dolgozni, hogy a vágólapról beillesztett adathalmazt a megfelelő formájúra hozzuk, a keresés és csere funkcióval. Ennek megkezdéséhez mindig át kell nézni a beillesztett forrást, hogy lássuk, milyen sorrendben érdemes haladni, milyen karaktercsoportokat kell lecserélni vagy törölni. Ez persze azon is múlik, hogy mi került a vágólapra, ami viszont függ a használt böngészőtől. A továbbiakban a megoldás a Firefox 14.0.1-hez illeszkedik, a többi böngésző esetén kisebb változások lehetnek, melyek értelemszerű módosításokat igényelnek.
- Az első két oszloptartalommal nincs teendőnk, őket most a "·–·" karaktersorozat választja el, ezeket cseréljük tabulátorjelre a keresés és csere funkcióval! Az elgépelés elkerülése végett a cserélendő karaktersorozatokat gyakran érdemesebb vágólapra másolni, majd beilleszteni a csere ablakába. Szintén jó tanács, hogy a csere összes elfordulásra történő alkalmazása előtt nézzük át a dokumentumot, és ne egyszerre cseréljünk mindent, hanem először csak egyesével haladjunk. Így kisebb valószínűséggel fordul elő, hogy olyat is lecserélünk, amit nem szeretnénk.
- A következő oszlopban az érték lesz, de az "Értéke:" kifejezésre nincs szükségünk. Nem kell bekezdésjel se, így a keresett szöveg: "^p··Értéke:·", ezt cseréljük szintén tabulátorjelre! Ellenőrizve munkánkat látjuk, hogy a dokumentum utolsó részén (foknoveny.htm) ez nem működött, ott ugyanis három szóköz is bekerült a sor elejére. Cseréljük ezt is!
- Mivel az értékekkel majd számolni szeretnénk, töröljük a "·Ft" kifejezéseket, a keresés és csere funkcióval ez is csak egy kattintás!
- Gond adódna, ha bent hagynánk az értéket tagoló pontokat, ezeket szintén egy gombnyomásra cserélhetnénk, de vigyázni kell, hiszen számtalan növény latin nevében szerepel a "subsp." pontot tartalmazó kifejezést, ezeket a pontokat természetesen nem szabad törölni. Használhatjuk a következő gombot, hogy egyesével dönthessük el a pontokról, kívánjuk-e megtartani őket, de ez most elég hosszadalmas lenne. A dokumentumot átvizsgálva ("."-ra keresve) meggyőződhetünk róla, hogy csak az előbb említett megtartani való kifejezés tartalmaz pontot, így a legegyszerűbb, ha töröljük mindet. Ezt követően a "subsp" szócskákhoz visszahelyezzük őket: a keresett szöveg "subsp", cseréljük arra, hogy "subsp."!
- A fokozottan védett növényekkel ismét további teendőnk van, itt a százezres értékeket szóközzel tagolják. Mielőtt kétségbeesnénk, hogy a másutt szükséges szóközök megőrzése végett egyesével kell törölni az ilyen szóközöket, észre kell venni, hogy ezek az értékek kerek számok, így alkalmazhatjuk a "0·0" karaktersorozat cseréjét a "00"-ra, hiszen más helyen ez a karaktersorozat nem fordul elő.
- A felesleges, üres "sorokat" (valójában: bekezdéseket) is el kell távolítani, a keresett szöveg "^p^p", amire cseréljük: "^p". Ügyeljünk, hogy olykor a második bekezdésjel előtt előfordul egy vagy akár több szóköz is, ezeket is törölni kell.
- Még így is maradt némi "szemét" a dokumentumban, például kategórianevek, felesleges szóközök stb. Ezeket is javítsuk, belátásunk szerint kereséssel, vagy akár "kézzel"! Mentsük a dokumentumot formázás nélküli formátumban, például txt-ben!
- Az elkészült forrásfájlunkat importáljuk egy Excel-munkafüzetbe a B3-as cellától!
MegjegyzésHa weblap a forrás, érdemes megfontolni, nincs-e könnyebb dolgunk, ha közvetlenül a weblap forrásszövegével dolgozunk. Olykor bizony egyszerűbb lehet, és csak minimális html-ismeretet igényel.
A kódok és a becsült példányszám importálása következik, az A és E oszlopba. Ezeket az adatokat az nlista.txt tartalmazza, pont a megfelelő sorrendben, erre a feladat szövege ki is tér. Nincs egyszerű dolgunk, mert az adatok csupán egy szóközzel elválasztva, ömlesztve vannak, nekünk meg két "oszlopra" szedve kellenének. Többféleképp is lehet próbálkozni, de ha nem a megfelelő eszközt választjuk, a munka könnyen elég macerássá válhat.
Próbálkozzunk először az eddig jól bevált módszerrel, a Word keresés és csere funkciójával.
- Nyissuk meg a forrást szövegszerkesztőben, és vizsgáljuk meg az adatokat! Látható, hogy eleinte a példányszám százasokra van kerekítve, míg az azonosítók csak nagyon ritkán végződnek két nullára.
- Cseréljük "00·"-t "00^p"-re! A dolog csak néhány helyen hibádzik, ezeket javítsuk kézzel!
- A végénél (vélhetőleg a fokozottan védett, kevés példányszámú növények esetén) már csak tízesekre vannak kerekítve a példányszámok, itt alkalmazhatjuk az előbbi módszert, egyetlen nullával. Ügyeljünk rá, hogy az előbbi, már kész részt ne bántsuk, például a javítandó rész kijelölésével!
- Kézi javításra megint szükség van, de szerencsére nem sokra.
- Importáljunk tetszőleges félreeső helyre, majd másoljuk az oszlopokat a megfelelő helyekre! Ehhez érdemes a kijelölést a következőképp végezni: álljunk az oszlop első cellájára, és tartsuk nyomva a Shiftet (kijelölés), illetve nyomjunk Ctrl+lefele nyilat (ugrás a tartomány aljára).
MegjegyzésLátható, hogy ezzel így nagyon sok a munka. De nem kell feltétlenül a Wordhöz ragaszkodni, vagy legalábbis nem kell teljesen készre alakítanunk a forrást (az előbbi módszer eredménye egy tabulátorjellel kettéválasztott, kétszavas bekezdéseket tartalmazó szöveg, melyet könnyedén két oszlopba importálhatunk). Elég, ha a szóközöket lecseréljük bekezdésjelre, és így importáljuk az adatokat egy Excel-munkafüzetbe, egyetlen oszlopba. Innentől kezdve csak két oszlopra kell választani, amit a MARADÉK() függvény segítségével könnyedén meg is tehetünk:
B1=HA(MARADÉK(SOR(A1);2)=1;A1;""), ill.
C1=HA(MARADÉK(SOR(A1);2)=0;A1;"")
(Sőt, az Excel 2013-as verziójától már a PÁROSE() vagy PÁRATLANE() függvény is rendelkezésünkre áll.)
Az üres soroktól gyorsan megszabadulhatunk, az Adatok áttekintését segítő eszközök című fejezetben részletesen ismertetett Ismétlődések eltávolítása módszerrel. Alkalmazásához készítsünk előbb érték szerinti másolatot a B és C oszlopokról a D és E oszlopokba, majd az E oszlop tartalmát illesszük egy sorral feljebb! Az így kapott kétoszlopos táblázatból már csak az üres sorokat törli az eszköz.
Ne lepődjünk meg, ha munkafüzetünk nem teljesen hasonlít a mintaként adott képre! Ha megfelelő sorrendben illesztettük be a htm-ek tartalmát, akkor az első növény az "Algarvei hasadtfogúmoha" lesz, nem pedig a "Gímpáfrány", ahogy azt a minta mutatja! Ez előfordul néha, ezért is szerepel minden verseny szövegében a figyelmeztetés:
- "Vedd figyelembe, hogy a minták mindenütt a formátumra utalnak, a számított értékek esetében nem (vagy nem feltétlenül) a helyes eredményt mutatják!"
Vissza a tartalomjegyzékhez