中文detail页面包含英文段落会导致识别准确度下降

**描述**
用的是“故宫低调点”的[最新页面](https://news.ifeng.com/c/7kQcQG2peWU)（见末尾附件），识别的结果为“特别声明”部分，而非文章实际内容。

![detail_extract](https://user-images.githubusercontent.com/27291507/176440668-401ed121-60ab-4dcf-92b7-cfb8f9cc9622.png)


**原因**
该部分主要为英文，导致“文本密度”比汉字节点的要高很多，英文的字数统计**按照字符，而非单词**，比如“hello world”字数为10，而非2，相比中文具有明显的字数优势，因此“文本密度”指标出现偏差，进而影响了节点的最终得分。具体数据如下：
![img](https://user-images.githubusercontent.com/27291507/176443114-72ea1593-f0cf-43a7-84c1-6b9f29df4405.png)


**方案**
如果页面以中文为主，那么针对英文段落，其中字数的统计应该跟中文保持一致，标准统一，即按照**单词数**来统计，而非**字符**来统计。

我针对number_of_char和number_of_a_char这2个方法，按照如上思路进行了优化，得到了预期结果。如下：
![img_1](https://user-images.githubusercontent.com/27291507/176445888-8746880b-10eb-4193-8977-7d8bf96f1a9c.png)

**附件**
网页源代码，把后缀改为html即可
[gugong_detail.txt](https://github.com/Gerapy/GerapyAutoExtractor/files/9010893/gugong_detail.txt)



Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

中文detail页面包含英文段落会导致识别准确度下降 #22

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

中文detail页面包含英文段落会导致识别准确度下降 #22

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions