Mintegiaren deskribapena
Big Data estatistika ofizialaren ekoizpenean sartzeak informazio-iturri berrien erabilera sustatu du. Horregatik, beharrezkoa da text mining teknikak erabiltzea iturri horiek aztertu, atera eta berreskuratzeko. Mintegiak teknika horien oinarrizko teoria eta EHUko Ixa ikerketa-taldea egiten ari den aplikazio nagusiak aurkezten ditu.
Helburuak
Mintegiak bi helburu izango ditu:
1. Ikuspegi orokorra ematea hizkuntza naturalaren eta text mining-aren prozesamenduaren funtsezko metodoei, ikuspegi praktiko batetik. Testuak aurreprozesatzeko oinarrizko kontzeptuak sartzea, bai eta egituratu gabeko datuetatik (testua, esaterako) informazioa ateratzea ahalbidetuko duten aplikazioak sortzeko oinarrizko zereginak ere.
2. Teknika horiek hainbat eremutan kasu zehatzetan dituzten aplikazioak erakustea, bai eta horiek estatistika ofizialean inplementatzeko aukera ere.
Metodoen aplikazioak Python bidez egingo dira.
Derrigorrezkoa ez den arren, nahi dutenek beren ordenagailu eramangarriak edo praktikak egiteko gailuak ekarri ahal izango dituzte.
Xede-publikoa
- Estatistikako profesionalak
- Informatikako profesionalak
- Testu-analistak
- Esparru publiko eta pribatuko ikertzaileak
2022ko azaroak 24, osteguna 9:00etatik 14:00etara
1. Text mining-erako eta hizkuntza naturalaren prozesamendurako sarrera
Sarrera egituratu gabeko testuetatik informazioa prozesatzeko eta ateratzeko tekniken laburpen gisa arrazoituko da.
2. Testuak aurreprozesatzeko faseak
Aplikazio mota bakoitzaren eskakizunak betetzen dituzten hainbat pipelin mota sartuko dira. Datuak eskuratzeko, testuak garbitzeko, aurreprozesatzeko eta atributuak ateratzeko teknikak ikusiko dira. Testuak aurreprozesatzeko SpaCy bezalako liburu-denden erabilera ilustratuko da.
3. Testuak sailkatzeko text mining-a
Testuen sailkapena formalizatzea, sentimenduen analisi gisa hainbat NLP aplikazioetarako oinarrizko zeregin gisa. Gainbegiratutako ereduak ebaluatzeko metodoak eta metrikak zehaztuko dira. Testuak sailkatzeko FLAIR liburu-dendaren erabilera ilustratuko da.
2020ko azaroak 25, ostirala 9:00etatik 14:00etara
4. Informazioa ateratzeko sarrera
Egituratu gabeko testuetatik informazioa ateratzeko teknikak eta zereginak sartzea. Testuaren zati garrantzitsuak identifikatzeko eta irudikapen egituratuak sortzeko teknikak aurkeztuko dira, informazioa modu eraginkorrean antolatzeko eta, aldi berean, egungo algoritmoei inferentzia-gaitasun handiagoa emateko.
5. Sekuentziak etiketatzeko text mining-a
Sekuentzien etiketak formalizatzea, NLP hainbat aplikaziotarako oinarrizko zeregin gisa, hala nola entitateak erauzteko. Testua enbedding estatikoen eta testuinguruen bidez irudikatzeko moduak deskribatuko dira.
Gainbegiratutako ereduak ebaluatzeko metodoak eta metrikak zehaztuko dira. Testuak sailkatzeko FLAIR liburutegiaren erabilera ilustratuko da.
6. Gizarte-zientzietarako testuak aztertzea
Probabilitate-ereduen bidez modu ez-gainbegiratuan egituratutako datuak eragiteko moduak sartuko ditugu. Datuak bistaratzeko modu erabilgarriak aurkeztuko dira, orain arte ikasitakoa martxan jartzeko.
Erreferentzia bibliografikoak:
- Sowmya Vajjala, Bodhisattwa Majumder, Anuj Gupta, Harshit Surana. (2020).Practical Natural Language Processing. O'Reilly Media, Inc.
- Jacob Eisenstein. (2019).Introduction to Natural Language Processing. MIT Press Ltd.
- Dirk Hovy. (2021). Text Analysis in Python for Social Scientists. Cambridge University Press.
Oier Lopez de Lacalle
Informatika Ingeniaritzan doktorea Euskal Herriko Unibertsitatean (UPV/EHU) eta Euskal Herriko Unibertsitateko Hizkuntza eta Informatika Sistemen Saileko irakasle laguntzailea. Doktoratu ondokoa Edinburgoko Unibertsitatean egin zuen. Ikerketa-interes nagusiak hauek dira: informazioa ateratzea deep learning ereduak erabiliz, datuak handitzeko metodoak aztertzea datu-eskasiaren arazoari aurre egiteko, eta irudikapen multimodalak garatzea ikusizko eta testuzko agertokietan.
Modalitateak: aurrez aurrekoa eta online
Izen emateako epea: urriaren 14tik azaroaren 14ra
Tarifa arrunta: 133,60€
Tarifa murriztua (*): 43,67€
(*) unibertsitateko ikasleentzat eta langabezian dauden lizentziadun eta/edo graduatuentzat, hala egiaztatzen dutenentzat.
Botoi hau sakatu izena emateko: Izen ematea