Я попытался изменить набор символов .csv файла с UTF-16 на UTF-8 с помощью команды unix
iconv -f utf-16le -t UTF-8//TRANSLIT <input file> -o <output file>
После выполнения команды подсчета слов содержимое файла уменьшилось до 466 строк с 5600 строк изначально.