Alineación de palabras
Berkeley tiene 3 alineadores de palabras, disponibles aquí uno es el común, el siguiente es supervizado y tiene otro no-supervizado

Lo que confunde es que en el ejemplo que viene con el software tiene un archivo con las alineaciones hechas a mano, que el alineador usa para chequear las alineaciones, es un archivo de test, este archivo no es necesario, si no tenemos alineaciones manuales, simplemente creamos la carpeta y la dejamos vacía

este es el archivo de configuración

## word-align.conf
## ----------------------
## This is an example training script for the Berkeley
## word aligner. In this configuration it uses two HMM
## alignment models trained jointly and then decoded
## using the competitive thresholding heuristic.

##########################################
# Training: Defines the training regimen
##########################################

forwardModels MODEL1 HMM
reverseModels MODEL1 HMM
mode JOINT JOINT
iters 5 5

###############################################
# Execution: Controls output and program flow
###############################################

execDir alignments
create
saveParams true
numThreads 1
msPerLine 10000
alignTraining

#################
# Language/Data
#################

foreignSuffix es.tok.lc
englishSuffix en.tok.lc

# Choose the training sources, which can either be directories or files that list files/directories
trainSources subsampled/
sentences MAX

#################
# 1-best output
#################

competitiveThresholding
Exportamos las variables de entorno para poder usarlo sin poner la ubicación completa

exportar BERKELEYALIGNER=/home/usuario/berkeleyaligner

Si tenemos muchas variables de entorno es util hacer un script con todas ellas y ejecutarlo de la siguiente manera, supongamos que se llama variables.sh

$. variables.sh
notar que hay un ".", un espacio y luego variables.sh, el archivo variables.sh debe tener permisos de ejecusion.

También se puede alinear con GIZA

 

Design by IRASystems