标题: 批量转换GB2312的TXT到UTF-8格式创建: 2018-12-20 16:28 更新: 2018-12-21 12:24 链接: https://scz.617.cn/unix/201812201628.txt 青衣十三楼最初就是简单分享内容，并不在意传播途径，我使用GB2312编码的TXT，回车换行使用*nix格式，即只有\n没有\r\n。这种设置对我个人来说，从未带来困挠，办公用机是Windows，一般用UltraEdit打开TXT，用Firefox、Chrome、IE访问URL或打开HTML。在我的Android手机上通过微博短链接打开URL也很正常。但是，多年来断续有人报怨"青衣十三楼"的TXT乱码。乱码无非就是浏览器文字编码格式不匹配呗。最近想了想，还是方便一下围观群众，批量转换GB2312的TXT到UTF-8格式，虽然没看出有啥特别好处。肯定有很多现成办法干这事，懒得找最优解，瞎对付着弄弄。 -------------------------------------------------------------------------- #!/bin/sh # Usage: ./convert.sh if [ $# -ne 1 ] ; then echo "Usage: ${0} " exit 1 fi if [ ! -f ${1} ] ; then echo "Checking your " exit 1 fi while read LINE do if [ "${LINE}" == "" ] then continue fi echo "${LINE}" iconv -f GB2312 -t UTF-8 "${LINE}" | unix2dos -r > "${LINE}.tmp" mv "${LINE}.tmp" "${LINE}" done < "${1}" -------------------------------------------------------------------------- filelist中每行一个文件名，对应待转换TXT、HTML。convert.sh从filelist中逐行读取待转换文件名，调用iconv从GB2312转成UTF-8格式，再用unix2dos转成Windows 换行格式，方便在Windows上(notepad)双击打开时人类可读。 iconv转换失败时，会在stderr上输出点啥，我在调用iconv之前先echo了待转文件名，当某个文件因故转换失败时一眼就能看出是哪个，正经点的办法是检查"$?"，我这不图省事么。用iconv转换时，意外发现几处错别字，比如"祼"，原意是想输入"裸"。我用五笔，有时一走神可能就去敲py而不是pu，而这两个字在屏幕上如此相似，肉眼很难发现敲错了字。我这个iconv不知怎的，碰上"祼"时会转换失败，直接截断，后续内容丢失，倒是方便定位出问题的汉字。可能"祼"不在GB2312字符集里，我又没指定-cs参数，所以直接报错退出。类似的还有一些，都是靠iconv转换失败找出来的。给unix2dos指定: -r, --remove-bom Remove Byte Order Mark (BOM). Do not write a BOM in the output file 当时觉得没有BOM也没啥，反正Windows认没有BOM的UTF-8。结果后来出幺蛾子。首先， Windows中的浏览器直接访问单个TXT的URL时不一定自动识别成Unicode，很可能使用 "简体中文"，乱码，只能手工调整编码格式，或者从index.html点过去。其次，单个 TXT的URL在手机微信、微博里打开时全是乱码，没法手工设置客户端使用哪种编码格式。搞得还不如过去的GB2312，为了让别人不乱码，自己先乱码。bluerust建议加上 BOM，我试了试，对Windows客户端及手机客户端有效，据说对*nix客户端有副作用，未细究。 -------------------------------------------------------------------------- #!/bin/sh # Usage: ./addbom.sh if [ $# -ne 1 ] ; then echo "Usage: ${0} " exit 1 fi if [ ! -f ${1} ] ; then echo "Checking your " exit 1 fi BOMHead=$(mktemp -p /tmp "BOMHead.$$_${RANDOM}_XXXXXXXXXX") printf "\xef\xbb\xbf" > "${BOMHead}" while read LINE do if [ "${LINE}" == "" ] then continue fi echo "${LINE}" cat "${BOMHead}" "${LINE}" > "${LINE}.tmp" mv "${LINE}.tmp" "${LINE}" done < "${1}" rm "${BOMHead}" -------------------------------------------------------------------------- addbom.sh在裸的UTF-8文件首部增加"EF BB BF"。两个脚本完全可以合一起，我就是写写当时怎么瞎弄的，未合。 find /tmp/webframe -type f -name "*.txt" > /tmp/filelist /tmp/convert.sh /tmp/filelist /tmp/addbom.sh /tmp/filelist find /tmp/webframe -type f -name "*.html" > /tmp/filelist /tmp/convert.sh /tmp/filelist /tmp/addbom.sh /tmp/filelist 对于HTML，得多干一件事: 把charset从gb2312改成utf-8。更新: https://scz.617.cn/offline/scz_offline.7z 现在这个离线包及在线网页全部是带BOM的UTF-8格式，用\r\n回车换行。再有乱码我也不管，就这样。