Obor: Bezpečnostní a strategická studia



Yüklə 0,97 Mb.
səhifə10/22
tarix03.05.2018
ölçüsü0,97 Mb.
#40996
1   ...   6   7   8   9   10   11   12   13   ...   22

5.2Realizace data miningu

5.2.1Program QSR NVivo


Vzhledem k důležitosti, kterou v praktické části zastává text miningový výstup, se patří více přiblížit zvolený program NVivo, který je v práci používán. Jedná se o poměrně renomovaný nástroj, specializující se na text mining a konkrétně na oblast tzv. topic modelingu, který se oproti konkurenčním produktům vyznačuje především bezprecedentní uživatelskou nenáročností. Za účelem zpracovávání dat bylo využíváno jeho nejnovější verze pro systém Windows (QSR NVivo 10) v časově omezené trial podobě, disponující všemi funkcemi plného programu.

V popisu procesu data miningu budou dostatečně ozřejměny prováděné kroky, které determinují modelaci výsledků, a v přílohách jsou obsaženy printscreeny vyobrazující výsledný grafický layout.


5.2.2Výběr a úprava použitých dat


Vzhledem k tomu, že je oficiální metodologie stran provedení výzkumu dosti volná, a využívání data miningového programu lze ve značné části postupových kroků vynechat, nebo se bez něj dokonce obejít úplně, je kladen velký důraz na transparentnost procesu volby dat, jejich čištění a operacionalizace v realizační fázi text miningu. Jedná se o pochopitelný požadavek, protože neexistuje pouze jediný ideální způsob, jak dosáhnout správných výsledků (Porter (2009: 9). Dostupné zdroje je možno rozdělit podle stupně abstrakce na přímé a nepřímé. Příklady nepřímých zdrojů jsou specializovaná diskusní fóra, tisková hlášení, nebo výzkumy trhu. S těmito zdroji je vhodné se seznámit pro získání znalosti o cílové oblasti, ale z hlediska analýzy textů pro technologické předvídání jsou nejdůležitější zdroje přímé, mezi které se řadí patenty, výzkumné zprávy a technická hlášení (Porter a Cunningham 2005: 81).

V souladu s touto předepsanou formou vstupních dat jsem zvolil výstupy (výzkumné zprávy) vojenských platforem, které jsou asociovány s oblastí nanotechnologií. Konkrétní volba se týkala institucí, které dostatečným způsobem pokrývají širší pole této technologické oblasti. Sledováno bylo především kritérium prezentace, rozdělené do abstraktů a popisu programů o přibližně stejného rozsahu. Jmenovitě se jedná o DARPA, prezentovanou dvojicí posledních programových prohlášení, vybrané programové výkazy z ARL a NSRDEC a internetové prezentace nanotechnologických vývojových oblastí ISN, NRL27. V zájmu větší vypovídající hodnoty výsledků nejsou do datového souboru zavedeny programy, které o zkoumané oblasti pojednávají příliš povšechně a neuvádějí použité technologie a konkrétní možné výstupy. Většinou se jedná o oblasti základního vývoje, zabývající se podložními fenomény v oblastech komplexní množiny fyzikálních, chemických a biologických disciplín. Uplatnění těchto zásad diskvalifikovalo obecné informační složky ARO a AFOSR, která reprezentuje vývoj v Air Force Research Laboratory (AFRL) a Edgewood Chemical Biological Center (ECBC). Absentují také další potencionální aktéři v oblasti vojenských nanotechnologií AFIRM, ARDEC, CERDEC, TARDEC a DTRA, jako platformy, zabývající se specializovaným vývojem v různých oblastech, které nepublikují o svých výzkumech dostatek informací.

Pro výběr jednotlivých položek, které do oblasti zájmu spadají, je například při čerpání z databází možné použít vyhledávání pomocí série dotazů a kombinací klíčových termínů, kterýžto krok lze provést i prostřednictvím samotného text miningového programu. Vzhledem k tomu, že je v použitých materiálech často příslušnost k nanotechnologiím vyjadřována vysoce abstraktně a relativně vzato nebyla celková dostupná datová množina v případě tohoto šetření příliš obsáhlá, byla selekce programů z portfolia DARPA, ARL a NSRDEC, které nemají zvláště stanovené sekce výzkumu, provedena manuálně autorem práce.

V podstatě bylo použito klasifikačních kritérií ve smyslu „rule of thumb“, a jakožto první logický krok byly zohledněny reference na význam nanorozměrů ve smyslu jeho aktivního využití nebo speciální úlohy chování materiálů, které zpřístupňuje. Dalším jasným argumentem pro klasifikaci byly odkazy na prvky, které jsou s nanotechnologiemi nedílně spjaté, jako uhlíkové nanotrubice, kvantové tečky, organické nanočástice atp.

Obzvláště v oblasti elektroniky bylo krom jednoznačných odkazů jako kvantové výpočetní systémy využito spojení s fyzikálními jevy a principy, které nabývají na významu v nanorozměrech jako kvantové jevy, De Broglieova vlna, Coloumbova blokáda, tunelový jev apod. Poslední úrovní detekce představovaly uvedené vlastnosti, významně korelující s tendencemi nanoproduktů, jako miniaturizace, multifunkčnost manifestovaná univerzalitou přijímaných podnětů, vysoké frekvence cílových výrobků, nebo užívané částice, převážně s nanotechnologiemi spojované, jako plazmony, fotony atp. Nejošidnějším se ukázalo posuzování polymerů, zdrojů signálů, optických komponentů, či laserových systémů a spektroskopického vybavení, které lze v řadě případů s nanotechnologiemi asociovat, ale jejich realizace jimi není podmíněna. Z těchto skupin prošlo do pracovního datového souboru jen minimum programů, jejichž rozlišení se odvíjelo od výše uvedených indikátorů.

V rámci stanovených dokumentů byla sledována obdobná logika, jako u předešlé popisné souhrnné části práce, to jest, že byly vyřazeny programy, zaobírající se simulačními a výrobními technikami, bez návaznosti na sféru koncového uplatnění. Je třeba brát v potaz, že ačkoliv jsou definičně za nanotechnologie pokládány, pokud postrádají dostatečnou asociační hodnotu vůči oblastem využití, nejsou pro data miningový výstup v zamýšlené podobě směrodatné. Všechny vybrané programy napříč vývojovou komunitou jsou uvedeny v příloze č. 2.

Jednotlivé vybrané zdroje byly manuálně předzpracovány, jmenovitě byly vybrány duplicitní záznamy a různé nepodstatné informace jako jména výzkumného personálu, tabulky, čísla stran a další nepatřičné proměnné, které by zkreslovaly data miningový proces. Vzhledem k tomu, že jsou veškeré informace v podstatě z oficiálních prezentačních materiálů, nebo souhrnů výzkumných činností, není potřeba přistupovat ke korekci chyb v pravopisu a celková formální struktura podání informací je poměrně homogenní. Další výhodou je v tomto ohledu i jednotné jazykové zasazení všech použitých zdrojů.


Yüklə 0,97 Mb.

Dostları ilə paylaş:
1   ...   6   7   8   9   10   11   12   13   ...   22




Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©genderi.org 2024
rəhbərliyinə müraciət

    Ana səhifə