Obor: Bezpečnostní a strategická studia

Operacionalizace a vlastní text mining

Yüklə 0,97 Mb.

səhifə	11/22
tarix	03.05.2018
ölçüsü	0,97 Mb.
	#40996

1 ... 7 8 9 10 11 12 13 14 ... 22

5.3Operacionalizace a vlastní text mining

Prvním pochopitelným krokem je zadání textových souborů do systému NVivo. Zvolil jsem separátní soubory agregovaných a ve výše uvedeném smyslu předpřipravených dat. Výhodou používaného programu NVivo je, že po vložení zdrojů text automaticky zpracuje a není nutné procházet postupně přes procesy tokenizace, stemmingu, a tvorby n-gramů, jako u většiny ostatních text miningových prostředků. Uvedené úpravy textu jsou nicméně provedeny a uživatel je může nastavením ovlivňovat, například zvolením jazyku pro přednastavený seznam „stop words“, tedy pro účely analýzy nepodstatných výrazů jako zájmena, slovesa a další, běžně se vyskytující jednotky, a případným vlastním definováním tohoto seznamu.

Základním analytickým procesem je rozdělení textu na jednotlivé lexikální jednotky a seřazení podle jejich frekvenčního zastoupení. Jedna z důležitějších voleb, u tohoto procesu je nastavení „blízkosti“ výrazů, pokládaných potom jako jedna spojená kategorie. Možná intenzita se pohybuje od ponechání všech výrazů (kde se modifikace jednoho termínu pokládají za různé výrazy), přes standardní stemming (asociace podle upravení na slovní kořen) a širší agregace významových hodnot jako synonyma nebo obsáhlejší metaskupiny. Zde použitý model pracuje s aktivovanou volbou stemming, která spojuje termíny se společným kmenem slova.

Výchozím stavem po provedení analýzy vložených textů je list frekvenčního rozvrstvení výrazů, vyskytujících se v textech nad počet limitu, nastaveného pro minimální kategorizaci. V případě našeho procesu je aktivována položka pro klasifikaci všech dostupných slov, kde jediné omezení představuje nastavená hodnota „tři“ jako minimální počet znaků pro zařazení do seznamu. Krom této hodnoty se vychází z frekvenčního seřazení všech výrazů, které prošly procesem v tomto případě automaticky aplikovaného stemmingu. Dalším krokem zvoleného designu je definice tzv. nodů, které mohou plnit funkci spojujících kategorií ke slučování termínů z určité oblasti a jejich nadskupin, kterou mohou tvořit další nody nebo vyšší prvky, v programu nazývané jako sety.

Na uvedených nodech a jejich schopnosti, tvořit volitelné skupiny hierarchizovatelných konceptů, je v tomto případě principielně založena celá praktická fáze data miningu. Program NVivo sice dokáže sám na základě umístění v textu výrazy určitými způsoby kategorizovat podle vzájemné blízkosti slov a jejich frekvenčního zastoupení, kdy před uživatelem z dat v podstatě samovolně vyvstanou určitým způsobem se vymezující datové bloky, ale členění obsahu do vlastních zamýšlených kategorií má v tomto ohledu značné limity. K procesu data miningu je možné přistupovat i opačně, umělou konstitucí kategorií, které nás zajímají, a definicí skupin slov, jež má uvedená složka obsahovat, dokud nebude v rámci datového souboru termínově saturována. V takovém pojetí je pro potřeby optimálního výsledku práce programu nezbytné stanovit, jaké výrazy jsou spojovány s obsahem zmiňovaných kategorií, aby bylo možno je do modelování zařadit.

Právě tento postup je zde při práci s programem využit pro potřeby odhalení míry zastoupení jednotlivých odvětví vývoje. Na pozici základních nodových kategorií jsou dosazeny hesla „elektronika“, „senzorika“, „kamufláž“ „ochranné materiály“, „zdravotnictví“, a „energetické systémy“. Uvedené kumulační oblasti nodů jsou zvoleny tak, aby byly i při šíři zahrnuté tématiky co možná nejvíce výlučné. Právě snaha o maximalizaci vzájemné nepodobnosti a tedy možnost výraznějšího rozdělení je příčinou upuštění od členění, užitého v teoretické části, které se hodí pro ucelenou popisnou prezentaci vzájemně překřížených dimenzí, ale není právě ideální pro frekvenční vyhodnocování. U dalších význačných oblastí jako materiální inženýrství nebo biomimetika, které nebyly samostatně klasifikovány kvůli přílišné šíři jejich výstupů, lze poukázat na to, že se tyto promítají do obsahu ostatních vybraných skupin.

I přes autorovo relativní seznámení s oblastí nanotechnologií, je poměrně obtížné zvolit hlavním skupinám nodovou výplň tak, aby se shodovaly s jejich „mateřskou“ kategorií, a ta byla zároveň zvolenými výrazy dostatečně naplněna. V tomto kroku je žádoucí, oprostit se od znalosti datové skupiny, která může vést k instinktivnímu dosazování pouze známých, a v daném souboru používaných termínů a kompromitaci průkaznosti výsledků šetření. Za tímto účelem bylo provedeno několik sekundárních analýz, v rámci procesu, který by se dal nazvat jako reverzní výzkum výrazových skupin. Zamýšlené schéma je postaveno na využití jedné z hlavních výhod, které přístup k text miningovému programu poskytuje - rychlé obsahové analýze velkých skupin dat.

Protože je přístupná řada textových materiálů, které se jmenovanými sférami nanotechnologií zaobírají, lze si při verbálním rozkladu těchto textů relativně snadno obstarat sety nejčastějších výrazů, které uvedená pole reprezentují a ty přenést jako kategorizační kritéria do vlastního modelu. Použité texty jsou o různých délkách, ale spojuje je vlastnost, autorem chápána jako klíčová, což je obsahové pokrytí dostatečně široké oblasti nanotechnologického využití, korespondující s určenými proudy vývoje. Z těchto tematických publikací, jejichž přehled je uvedený v příloze č. 3, věnující se realizační fázi data miningu, byly zvoleny relevantní termíny, které se v textu frekvenčně pohybovaly přibližně do hranice 0, 10 %, stanovené jako prahové rozmezí, viz příloha č. 4.

Následovala fáze zadávání zjištěných skupin nodů do programu, v jejímž průběhu se postupně v jasnějších konturách objevovaly znaky majoritních vývojových oblastí. Celý design pracuje se základními druhy těchto „uzlů“, protože pro dané účely není zapotřebí jejich pokročilejších klasifikačních variant. Pro větší přehlednost byly tyto jednotky pojmenovány stejně, jako slovo, které spolu s jeho kmenovými alternativami reprezentovaly, a nodů bylo jako univerzálního prostředku užito i pro tvorbu šesti hlavních tematických nadskupin. Po zadání všech zjištěných dat je možné pomocí volby „vizualizovat“ převést referenční průniky skupin uplatnění s obsahy vývojového portfolia jednotlivých organizací do podoby grafického znázornění frekvenčního zastoupení termínů, v jednotlivých vývojových oblastech.

V rámci korektní evaluace charakterizovaného procesu je třeba podotknout, že extrakce vodících výrazů z externích zdrojů zvyšuje univerzální použitelnost modelu na odlišné datové vzorky, ačkoliv vliv dodatečného výběru výrazů, které nebyly v původních zdrojích pro modelování obsaženy, z něj činí nástroj, těsněji nastavený konkrétně na složky v práci analyzovaných textových dat. Opět je nutno mít na paměti vysokou míru vzájemné provázanosti a přijímat nemožnost, nastavení žádaných skupin v oboru, jakým jsou nanotechnologie tak, aby byly obsahově výlučné, v listech výrazů se proto řada termínů shoduje.

Yüklə 0,97 Mb.

Dostları ilə paylaş:

1 ... 7 8 9 10 11 12 13 14 ... 22