Előszó

Az R egy magas szintű programozási nyelv és környezet, amelynek legfontosabb felhasználása az adatelemzés és az ahhoz kapcsolódó grafikus megjelenítés. Jelen könyv elsődleges célja az R bemutatása kezdő felhasználók számára.

Az R alapvető használata során parancsokat gépelünk be és hajtunk végre. Ez lényegesen eltér a ma megszokott felhasználói programok világától, ahol egy grafikus felhasználói felületen egérrel vagy kézzel elmutogatjuk a kívánt tevékenységet. Az R egészen más megközelítést vall, használata a kezdeti lépésektől nagyfokú figyelmet és pontosságot követel. A parancsokban gondolkodást végig áthatja a “tudom mit csinálok” elv, így némi idő elteltével érezni fogjuk, hogy az R megszelídül, már nem köt bele minden “mondatunkba”, egyre több dologra tudjuk rávenni, és végül egy rendkívül értékes társsá válik. Jelen könyv ezen az úton szeretné végigvezetni az olvasót.

Már a tanulás elején szeretnénk tisztázni, hogy az R elsajátításához nem szükséges programozói alaptudás, mint ahogyan az adatelemzés sem igényli az R nyelv programozói fokú ismeretét. Természetesen, ha rendelkezzünk ilyen irányú előtanulmányokkal a tanulási folyamat néhány szakasza lerövidíthető, de könyvünk elsősorban azok számra íródott, akik programozási nyelvekkel korábban nem találkoztak, és nem is vágynak az R ilyen mélységű tudására. Az R nyelv elsajátítása során bevezetjük azokat az egyszerű fogalmakat, amelyeket nem nélkülözhetők az adatelemzés során, és egy kitekintő fejezetben összefoglaljuk az R alapvető programozási lehetőségeit is, azonban az R programozásához más szakkönyveket javaslunk olvasásra.

Könyvünkben az R nyelvre koncentrálunk, és ebben a tekintetben az adatelemzési módszerek használatának technikai jellegű ismereteit tárgyaljuk. Az egyes fejezetekben használt statisztikai fogalmakra és eljárásokra mindenfajta definíció és bizonyítás nélkül hivatkozunk. Nem statisztika könyv készítését tűztük ki tehát célul, hanem az a szándék vezetett bennünket, hogy az egyes statisztikai eljárások gyakorlati végrehajtását R-ben bemutassuk. Alapvető kérdésünk tehát a hogyan, azaz R-ben az egyes elemzési feladatok hogyan valósíthatók meg. Azonban a könyvben szereplő eljárások mindegyikéhez számos példa társul, amelyek mindegyikében megadjuk, hogy milyen feltételek teljesülése szükséges az eljárás végrehajtásához, illetve az eredmények értelmezésében is segítséget nyújtunk. A kutatás lényegéhez tartozó miért kérdésre tehát implicit módon ezekből a példákból, de leginkább más, a kutatás általános logikáját bemutató (statisztikai) szakkönyvekből kaphatunk választ.

Összefoglalva, a könyv azon nem-programozó beállítottságú szakemberek és hallgatók számára kíván gyakorlati segítséget nyújtani, akik a kitűzött elemzési feladatukat az R statisztikai programcsomag segítségével kívánják megoldani.

A könyv legelején tisztázni érdemes azt a fontos kérdést is, hogy az R milyen előnyökkel és hátrányokkal rendelkezik. Az R ellen egyetlen érv szól: az R elsajátításához nem kevés idő és kitartás szükséges. Jelen könyv épp ezt a folyamatot kívánja megkönnyíteni, lerövidíteni. Soroljuk fel azokat az érveket is, amelyek az R mellett szólnak:

  • Az R szabad szoftver, bárki ingyenesen letöltheti és használhatja. Ez egyfelől megkönnyíti az oktatási intézmények, tanszékek és oktatók munkáját, hiszen nincs szükség a kereskedelmi programok licence-eléséből adódó pénzügyi vagy más természetű nehézségek kezelésére. Másrészt a hallgatók a statisztika kurzusok során megtanultakat otthon vagy később a munkájukban is felhasználhatják.

  • Az R platform-független, azaz Windows, Linux és Mac OS X környezetben is használható. Nem kell a kedvenc operációs rendszerünkről lemondani, ha az R-t szeretnénk használni.

  • Az R egy teljes értékű programozási nyelv, nem csak egy statisztikai programcsomag önmagában.

  • Az R statisztikai módszerek szinte végtelen választékát kínálja. A R-ben felhasználható statisztikai eljárásokat statisztikusok fejlesztik folyamatosan és csomagok formájában teszik elérhetővé. Valószínű, hogy egy-egy új statisztikai módszer leghamarabb az R-ben válik elérhetővé.

  • Az R rendkívül gazdag grafikus lehetőségekkel rendelkezik.

  • A statisztikai szakirodalomban és az egyetemi oktatók körében egyre elterjedtebb az R, mint közös (statisztikai program)nyelv használata. Ha a weben valamilyen statisztikai problémára keressük a megoldást, vagy csak konzultálunk egy statisztikussal, az R ismerete rendkívüli előnyt jelenthet.

  • Az R igen jól dokumentált, a beépített (angol nyelvű) súgón kívül számos (angol nyelvű) könyv és leírás érhető el weben vagy vásárolható meg üzletekben.

  • A parancssoros interfész számos előnyt jelent. Egyrészt a szkript állományok létrehozása és végrehajtása a statisztikai elemzések megismételhetőségét biztosítják, másrészt az oktatók és a hallgatók könnyebb kommunikációját is lehetővé teszi (pl. e-mail-ben is elküldhetik egymásnak az elemző parancsaikat).

A könyv olvasásához sok türelmet és kitartást kívánunk!