MySQL: Incorrect string value: '\xF0\xA4\xBD\x82'分析

一、问题由来

今天应用报错:

### Error updating database.  Cause: java.sql.SQLException:
 Incorrect string value: '\xF0\xA4\x9E\x8F",...' for column 'message_content' at row 1 

二、初次分析

我们可以看到\xF0\xA4\x9E\x8F是4字节很可能就是utf8mb4中某些生僻字的编码。我们将表更改为utf8mb4后还是报错。所以第一步一定要将字段或者表修改为utf8mb4如下语句

alter table test101 convert to character set utf8mb4; or alter table test101 change `name` `name` varchar(20) CHARSET utf8mb4 DEFAULT NULL ; 
注意:这个语句是copy算法会受到MDL LOCK的影响完全堵塞,不是online ddl如下:
mysql> alter table test204 algorithm=inplace, change `name` `name` 
varchar(20) CHARSET utf8 DEFAULT NULL ;
ERROR 1846 (0A000): ALGORITHM=INPLACE is not supported. Reason: Cannot change column type INPLACE. Try ALGORITHM=COPY. 

三、详细分析

随后当然报错还在继续,然后我简单描述一下我的分析的过程。具体知识见如下文章:

关于ORACLE和MYSQL中文字符乱码的根源剖析]
http://blog.itpub.net/7728585/viewspace-2086271/  

我们当前环境为:

  • 客户端入库字符集 utf8mb4
  • 转换字符集 utf8
  • 存储端字符集utf8mb4

对于这种情况的设置,对已某些生僻字比如:

insert into test204 values('????'); 

(????)的其utf8mb4编码为:


image.png

就需要将四字节的0Xf0a4bd82编码转换为utf8显然是不可能的。因为utf8根本不认识而且还是三个字节所以报错如下:

[SQL] insert into test204 values('????');
[Err] 1366 - Incorrect string value: '\xF0\xA4\xBD\x82' for column 'name' at row 1 

为此实际上我们只需要做一个操作就是不做转换及

set names utf8mb4; 

这样环境如下:

  • 客户端入库字符集 utf8mb4
  • 转换字符集 utf8mb4
  • 存储端字符集utf8mb4
insert into test204 values('????');
[SQL] insert into test204 values('????');
受影响的行: 1 时间: 0.218s 

插入成功。我们读取数据文件二进制进行底层验证取到的数据如下:


image.png

红色部分为('????')这个字的十六进制编码。没有问题数据入库完成。

作者微信:


请使用浏览器的分享功能分享到微信等