Procesamiento del Lenguaje Natural


segundo cuatrimestre 2013
teóricos: lunes y miércoles de 11 a 13
prácticos: lunes de 9 a 11
aula 27
FaMAF - UNC

docente: Laura Alonso i Alemany


cuestiones administrativas
tareas / proyectos

calendario:


lunes 12 de agosto
clase de presentación
presentación del curso, forma de trabajo y evaluación
presentación del libro de la materia, Foundations of Statistical Natural Language Processing (también conocido como M&S)
Speech and Language Processing es otro libro que trata la mayor parte de los contenidos de la materia, y tiene casi toda la segunda edición on-line
presentación de las tareas prácticas
material de lectura: discusión sobre aproximaciones simbólicas y estadísticas al lenguaje natural
filminas: filminas sobre analizadores

miércoles 14 de agosto
esenciales lingüísticos
(porque las Mathematical Foundations ya las tienen asumidas :D)
material de lectura: capítulo 3 de M&S
(si tienen problemas para conseguir el libro, pueden leer el capítulo 3 acá)
filminas sobre esenciales lingüísticos (prestadas de la clase correspondiente del curso de Jan Hajic en JHU)
para los curiosos: How to Write a Spelling Corrector

miércoles 21 de agosto
trabajo sobre corpus
material de lectura: capítulo 4 de M&S

lunes 26 de agosto
Colocaciones

material de lectura: capítulo 5 de M&S
filminas:
usaremos estas filminas de Rada Mihalcea, hay muchas otras en su curso sobre NLP
práctica:
trabajo sobre corpus

miércoles 28 de agosto
N-gramas
material de lectura: capítulo 6 de M&S
filminas: las clásicas filminas de Jonathan Henke
links adicionales: los toolkits modeladores de lenguaje que les mencioné: srilm, irstlm, y otros en la página de la wikipedia sobre modeladores de lenguaje

lunes 2 de septiembre
Extracción de expresiones multipalabra
material de lectura: vamos a comparar dos papers:
Names and similarities on the web: fact extraction in the fast lane, Marius Paşca , Dekang Lin , Jeffrey Bigham , Andrei Lifchits , Alpa Jain, ACL-44, 2006.
An analysis of bootstrapping for the recognition of temporal expressions, Jordi Poveda, Mihai Surdeanu and Jordi Turmo, SemiSupLearn’09 -- NAACL HLT 2009 Workshop on Semi-Supervised Learning for Natural Language Processing, 2009.
Por favor elijan uno de los dos, y preparense para defenderlo!
práctica:
trabajo sobre corpus (penúltimo día!)

miércoles 4 de septiembre
Aplicaciones de modelos de lenguaje

material de lectura:

Improving Text Simplification Language Modeling Using Unsimplified Text Data, David Kauchak, ACL 2013

lunes 9 de septiembre
Desambiguación de Sentidos Supervisada
material de lectura: capítulo 7 de M&S
lecturas adicionales: L. Màrquez, G. Escudero, D. Martínez and G. Rigau. Supervised Corpus-based Methods for Word Sense Disambiguation. Chapter in Eneko Agirre and Phil Edmonds (Eds.) Word Sense Disambiguation. Algorithms and Applications, Kluwer, 2006
filminas: las filminas de Bill McCartney en su curso de Natural Language Understanding en Stanford el semestre pasado
práctica: trabajo sobre corpus (último día!)

entrega del proyectito sobre preferencias de preposiciones


miércoles 11 de septiembre
Desambiguación de Sentidos No Supervisada
concurso SEMEVAL 07
Dan Yarowsky. 1997. Unsupervised Word Sense Disambiguation Rivaling Supervised Methods. ACL.
Pantel, P. and Lin, D. 2002. Discovering Word Senses from Text. KDD-02
J. Véronis. 2004. HyperLex: Lexical Cartography for Information Retrieval. Computer, Speech and Language, 18 (3)

presentación del proyecto(s)

lunes 16 de septiembre
Semana del Estudiante y JAIIO -- no hay clase

miércoles 18 de septiembre
Semana del Estudiante y JAIIO -- no hay clase

lunes 23 de septiembre
Generación de Lenguaje Natural

a cargo de Pablo Duboue
información adicional:


miércoles 25 de septiembre
Adquisición Léxica
material de lectura: capítulo 8 de M&S
filminas: unas ignotas filminas muy pegadas al texto original del libro
también pueden ver las demos de Dekang Lin (o su página en UAlberta)

lunes 30 de septiembre
San Jerónimo -- no hay clase

miércoles 2 de octubre
detalles y perspectivas sobre quepy, refo y QALD e IE en general, también yalign y simpleAI
a cargo de Rafa Carrascosa

lunes 7 de octubre
Adquisición Léxica
material de lectura: T. K. Landauer, P. W. Foltz, & D. Laham. 1998. Introduction to Latent Semantic Analysis. Discourse Processes, 25.
filminas: unas filminas muy interesantes de un curso de Princeton para psicólogos.
lecturas complementarias:
Ted Briscoe and John Carroll. 1997. Automatic extraction of subcategorization from corpora. Proceedings of the fifth conference on Applied Natural Language Processing.
Anna Korhonen, Yuval Krymolowski, and Ted Briscoe. 2006. A Large Subcategorization Lexicon for Natural Language Processing Applications. In Proceedings of the 5th international conference on Language Resources and Evaluation. Genova, Italy.
Análisis Morfosintáctico
material de lectura: capítulo 10 de M&S (se puede leer de acá)
filminas: las filminas sobre PoS tagging del curso de PLN de Gideon Dror
extra: vimos un tutorial sobre weka

miércoles 9 de octubre
Gramáticas Probabilísticas y Parsing Probabilístico
a cargo de Franco Luque
material de lectura:
capítulo 11 y 12 de M&S
cursos relacionados: curso de PLN de Stanford, a cargo de Chris Manning, curso de PLN de Coursera, a cargo de Dan Jurafsky y Chris Manning, y el capítulo 8 del libro de NLTK
filminas: filminas sobre parsing y material de apoyo
herramientas: nltk

miércoles 16 de octubre
empezamos a las 10:30 con una puesta en común de proyectos
Clustering
material de lectura: capítulo 14 de M&S
filminas: filminas sobre clustering del curso de Information Retrieval de Chris Manning

lunes 21 de octubre
Evaluación, métricas y campañas
material de lectura: el capítulo sobre evaluación del Handbook of Computationall Linguistics and Natural Language Processing
filminas
: usaremos unas filminas sobre evaluación de sistemas de PLN de Martin Hassel, algo antiguas pero bien sucintas
links relacionados: las últimas ediciones del CLEF, TREC, TAC, SemEval, CoNLL, KDD-cup, Kaggle
Ontology-based acces to Data Bases (OBDA)
, a cargo de Martín Rezk
links relacionados:
OnTop y Optique
herramientas
: para probar cosas sobre OBDA
práctica
: revisión de resultados preliminares del proyecto, coordinación

miércoles 23 de octubre
Pequeño repaso a Aprendizaje Automático -- árboles de decisión, aprendedores bayesianos, SVMs, redes neuronales
Otros aprendizajes: semi-supervisado, activo
filminas: el tutorial sobre aprendizaje semi-supervisado de Jerry Zhu y las filminas sobre active learning de Burr Settles en el curso Advanced Statistical Language Processing: Reading the Web
para saber más: video sobre proyección a un espacio donde un problema no linealmente separable se vuelve linealmente separable, usando una función de kernel.

lunes 28 de octubre
Aplicaciones de aprendizaje semi-supervisado y activo a PLN
workshop sobre Active Learning en PLN en NAACL 2009
ROBUS-UNSUP 2012: Joint Workshop on Unsupervised and Semi-Supervised Learning in NLP
práctica: revisión de resultados preliminares del proyecto, coordinación

miércoles 30 de octubre
Alineación de Corpus Paralelos y Traducción Automática Estadística

material de lectura: capítulo 13 de M&S
filminas: sobre aproximaciones históricas a alineación, vamos a usar unas filminas antiguas del curso de PLN de Nathalie Japkowicz. Sobre los modelos de IBM, vamos a usar parte de unas clásicas filminas de Philipp Koehn
para saber más: el Statistical MT Handbook de Kevin Knight y Philipp Koehn, y un Tutorial sobre SMT de los mismos autores y el curso sobre MT de Philipp Koehn

lunes 4 de noviembre

Alineación de Corpus Paralelos y Traducción Automática Estadística
a cargo de Paula Estrella
material de lectura
: capítulo 13 de M&S
filminas: veremos la intro de las filminas de Chris Dyer en la MT marathon 2013, luego seguiremos con las filminas de Philipp Koehn y finalmente veremos un tutorial sobre Moses de Mikel Forcada.
herramientas: moses, giza-pp y srlim

miércoles 6 de noviembre
Page Rank y aplicaciones a PLN
material de lectura: capítulo 7 de Web Data Mining, de Bing Liu
filminas: del mismo autor, sus filminas sobre Link Analysis

lunes 11 de noviembre
Sentiment Analysis, Opinion Mining

material de lectura: capítulo 11 de Web Data Mining, de Bing Liu
filminas: del mismo autor, un tutorial sobre el tema en la AAAI 2011

miércoles 13 de noviembre
Detección de Anomalías
material de lectura: la sección 1 y 1.1. de Anomaly Detection using a self-organizing map and particle swarm optimization, Unsupervised Anomaly Detection, de Guthrie, Guthrie, Allison y Wilks en IJCAI 2007, y Sexual predator detection in chats with chained classifiers, de Hugo Jair Escalante; Esaú Villatoro-Tello; Antonio Juárez; Manuel Montes-y-Gómez; Luis Villaseñor en ACL 2013.

entrega de informe y resultados preliminares

lunes 18 de noviembre
Presentación de sistemas y comentarios finales

miércoles 20 de noviembre
Presentación de sistemas y comentarios finales

miscelánea
el básico
el alternativo
y otro