Euskadiko enpresen URLak bilatzea

Proiektuaren helburua Euskadin jarduera ekonomikoa duten enpresen webgune ofizialak argi eta garbi identifikatzea da.

Eustaten jarduera ekonomikoen direktorioan (JEDIR) sartutako enpresen URLak biltzeko bi proiektu sortu dira. Horretarako, scraping-teknikak erabiltzen dira, eta bilaketa-motorrak eta enpresen funtsezko datuak baliatzen dira URLak lortzeko.

Bi proiektuak Python-en eta Java-n programatuta daude. Modu sekuentzialean exekutatzen dira, eta ziurtatzen da lehen proiektuan identifikatutako URLrik gabeko enpresak bigarrenean prozesatzen direla.

Enpresen URLak aurkitzeko osagarriak izango diren bi proiektu garatzen dira. Proiektuak honako hauek dira:

  • URLak bilatzea enpresaren IFK eta izena erabiliz



IFK eta enpresaren izena abiapuntutzat hartuta, DuckDuckGo bilatzailea erabiltzen da bilaketa-emaitzetan agertzen diren lehen 10 URLetako crawling eta scraping prozesuak egiteko. Esteka horietako bakoitzeko, enpresaren IFKrekin bat etortzea bilatzen da; eta esteka horietakoren batean enpresaren IFK badago, URL hori zuzentzat jotzen da. Bestela, izendapenaren eta URLaren eremuaren arteko kointzidentzia-prozesu bat aplikatzen da (string-matching), eta antzekotasun-maila adierazten duen 0 eta 1 arteko balioa lortzen da: balioa 0.7tik gorakoa bada, URLa baliozkotzat joko da; bestela, enpresa bigarren proiektura pasatuko da prozesatzeko.

Austriako eta Finlandiako Estatistika Institutuen proiektutik abiatuta ESSNeten egindako garapena.


  • URLak bilatzea udalerria eta enpresaren izena erabiliz


Bigarren proiektu hau bideratuta dago lehen proiektuan baliozko URL bat lortu ezin izan zitzaien enpresetara. Kasu honetan, Bing bilatzailea erabiltzen da crawling eta scraping prozesuak egiteko, udalerritik eta enpresaren izenetik abiatuta. Lehenengo 10 URLak ateratzen dira, zerrenda beltz batean agertzen direnak baztertuta (esaterako, garrantzitsuak ez diren direktorioak edo orriak). Analisia URL bakoitzaren loturen bigarren mailara arte sakontzen da, eta scoreVector bat sortzen da lotura bakoitzerako, 8 digituz osatua. Digitu horietako bakoitzak funtsezko aldagai bat adierazten du:


• URL sinplea
• Telefonoa
• Posizioa (aldagai honek bi digitu erabiltzen ditu)
• IFK
• Udalerria
• Probintzia
• Posta-kodea

Funtsezko aldagai horiek zehazten dira enpresaren datu errealak scrapingaren bidez ateratako edukian duten presentzian oinarrituta. "Posizioa" bilaketa-motorraren emaitzetan URLak duen tokiari dagokio.

Scoreak kalkulatu ondoren, eragiketa aritmetikoak eta logikoak egiten dira domeinu bakoitzerako, eta domainVector bat lortzen da. Bektore hori haztatu eta azken balorazioa egiteko erabiltzen da. Enpresa bakoitzerako, balorazio altuena duen URLa hautagai gisa aukeratzen da, URL zuzena izateko.

Metodologia horrek enpresen URLak lortzeko zehaztasun handiagoa bermatzen du, hainbat bilaketa-iturri eta -ikuspegi baliatuta.

Garapen hau ESSNeten ISTATen (Italiako Estatistika Institutua) proiektutik abiatuta egin da


Lagin geruzatu batekin lan egiten da. Lagina lortzeko, 10 langile baino gehiago dituzten enpresak hartzen dira kontuan, eta 5 talde hartzen dira estratifikaziorako.Hainbat proba egin dira.

Honako emaitza hauek nabarmendu daitezke:

  • Aurretiaz haien URLa ezagutzen dugun enpresekin egindako proba

URL ezaguneko 1.000 enpresako lagin bat hartu, eta enpresa bakoitzaren izendapenean eta udalerrian oinarritutako scraping-prozesu bat gauzatzen da. Prozesu horri esker, laginean sartutako enpresen % 99,6ren edukia atera ahal izan da.
Prozedura horren garapenaren fluxuari jarraituz, enpresen URLak lortu ditugu. Gure metodoaren eraginkortasuna ebaluatzeko, lortutako emaitzak gure enpresa-direktorioan (JEDIR) erregistratutako URLekin alderatzen ditugu. Konparazio horren ondorioz, URLak % 70,5ean zuzen identifikatu dira.


  • Gure enpresa-direktorioan URLa ez dugun enpresekin egindako proba

Proba honetan, JEDIR direktorioan erregistratutako webik gabeko 2.514 enpresako lagin batekin lan egiten da. Scraping-prozesuan, enpresen % 95,1en edukia lortu zen.
Proiektuaren lehen fasean, enpresen IFKren bidezko bilaketa ardatz hartuta, enpresen % 16rentzat URLak identifikatzea lortu zen. Fase honetan emaitzarik lortu ez zuten enpresak bigarren fasean prozesatu ziren, izenaren eta udalerriaren araberako bilaketa erabiliz. Ikuspegi horri esker, URLak lortu zituzten hasieran JEDIR direktorioan web orririk ez zuten enpresen % 53k.

Izan daiteke enpresa batzuek ez izatea webgunerik, eta horrek eragina izan dezake lortutako emaitzetan.



Zure feedback-a.  Lagun iezaguzu gure weba zure beharretara egokitzen

Nola baloratzen duzu orri honen Informazioa?
Oso baliagarria
Baliagarria
Ez oso baliagarria
Ez da inondik ere baliagarria
Baduzu iradokizunik?
Bai, badut
Bidali