网络文章中的中文格式问题

汉字的格式其实原本不是问题,可是由于目前大多数网页格式制作都是英语国家的人进行的,所以并不符合汉语的格式特点。

在这个追求个性的时代,在网络上,很多人不注意中文格式。我是一个高中生,并且由于高一语文老师的引导而对语文很感兴趣。如果你注意,便会发现我的博客中文字方面少有问题,包括文字错误、标点错误、格式错误。然而,由于计算机技术(CS)的复杂性,很多网络程序存在缺陷,中国大量的网民并不熟悉html格式等内容,所以会出现大量的错误。我们语文老师也是一位网民,他就多次诉说他对那些网络上的文字错误的反感。下面我就根据自己的经验说一下各方面的错误和解决方案。分为“单字错误”、“标点错误”、“格式错误”三部分。

第一:单字错误

这是网络上乃至日常生活中常见的问题,在我的摘录的当代汉语出版物中最常见的100个别字中,显示了我们目前最会出现的错误,而且大多是不为人所注意的。我常买《咬文嚼字》杂志,其中有很多让人汗颜的事例。从小学时,老师就一直教导我们要写对字,可是事实上很多高中、初中,乃至小学的语文教师并不是太注意这件事。记得法国某大报上每周有一个拼字游戏,练习法语的游戏,其参加人数甚至会超过国家大选的投票人数!在这个所谓的“英语”时代中,我们中国人应当也必须承担起保护汉语的责任,我们决不希望在未来的“中文”时代中发现自己居然落伍,那简直是本末倒置。前些天,我小姨家的表妹来我们家玩,她写了小作文让我看,我发现其中充满了一种目前网络上的那种扭捏做作而又文词缺乏的味道。快乐只会“爽”,难过只会“郁闷”,哪有什么“欢欣”、“倜傥”、“义无反顾”、“士为知己者死”、“悲喜交加”、“惆怅”、“踌躇”、“彳亍”、“凄清”可言?还有那“的”“地”“得”,如果用错,只能说明使用者根本连词性(或者说就是自己的意思)都分不清。

不过庆幸的是,由于中文输入法的发展,各种固定格式词语(主要是成语)的输入趋向规范。然而另一方面,由于拼音输入法的自身缺陷,造成很多音似词语的误用。

在我参考的一篇文章中,有这样一段:

《电脑商情报》1月11日33版上的一段“读编往来”令我感觉相当不舒服。

署名“tyyttyyt”的读者指出并纠正了该报49期中多达76处的用字错误,而值班编辑“菊子”则做出了以下这段缺乏诚意的答复:

……说实话在看你的纠错信息时我一直在脑子里思索你是一个什么样的人?我想首先应该是70年代的同龄人吧,其次在工作中一定是一个有着严禁工作态度的人。想想关于“的、地、得”的研究好像只有我们70年代的人那时才这么严格吧……可从去年就有某不记得的编辑告诉我说国家早就发文说可以通用了,为了有一个有力的说服证据,这两年来菊子一直在孜孜的寻找着这份明文规定可是没能如愿……

在看过这段对话之后我脑中冒出的第一个想法就是建议《电脑商情报》尽快辞退这位编辑。

首先,在她(暂且依据网名揣测为女性)对读者纠错的答复中依然出现了许多语病,比如第一句话之后应该是句号而不是问号(这也是小学语文的常考知识点),又比如“只有我们70年代的人那时”根本就是一个在语法上无法成立的短语(这样的问题在HSK中经常作为错误选项出现),比如“可从去年”应该改为“可在去年”或者“可从去年开始”(也许这位编辑确实不以普通话为母语)。

其次,这样的态度严重影响了整份报纸在读者心中的形象。作为一份标榜着“中国城市发行量第一的计算机报”的媒体,必须首先对读者指出的76个低级错误做出足够篇幅的致歉和反思,而不是这样不无调侃地把议论的中心悄悄转移到一份并不存在的“明文规定”上去。

我和该参考文章作者的想法一样,就是要将这位“菊子”辞退。目前很多文摘类杂志都进行“捉‘虫’活动”,我也曾认真参加过,这让我感受到了一些负责任的杂志社的良苦用心。而这《电脑商情报》就有点冒天下之大不韪了。

关于文字问题,主要得依靠大家的重视,平时多看些负责任的杂志、书籍,而不是以乱为美的东西。关于网络的自由性,我觉得大家可以使用一些很娱乐的约定俗成的词语,比如“东东”、“偶”、“酱紫”,乃至一些英文词语。(关于网络语言,请参考wiki的“网络语言”词条)但是一定要保证你的文字能被别人认出,且不被别人讨厌。另外,建议所有人都去http://www.hsk.org.cn/i

ntro_sample.aspx参加一下汉语水平考试(HSK)的高等模拟考试。再者,不要任意使用繁体字乃至异体字,这不仅是违法的,而且是不道德的事。这有追随台湾、香港、澳门等地区的嫌疑。我郑重地说一句:简体字已经开始被国际社会所认可,不仅联合国所使用的中文文件全部是简体中文(那里的电脑、打印机全部是大陆运过去的),而且现在一些国际报纸也开始抛弃繁体中文,比如《纽约时报》在2003年首次使用了一次简体中文的文章标题。如果你注意的话,在新加坡的google网站上,使用的中文也是简体中文。而且我也极度怀疑一些人是否有阅读繁体中文的能力,我虽然接触了不少,且仔细阅读过《简化字表》,但仍然会出现对繁体字的不认识情况。况且繁体字在电脑上以5号字显示时经常看不清。

第二:标点问题

标点问题在纸质时代也不算什么问题,即使有,也顶多是书写潦草而造成的遗漏。而在网络上,标点问题似乎又变成了一个大问题。

在大多数输入法中,提供了将半角的英文标点转化为全角的中文标点的功能。然而为了格式的某些需要,或纯粹是不注意,就会出现在中文文章中大量使用英文标点的现象。我哥哥就喜欢让紫光输入法始终处于输入英文标点的状态,可是我就奇怪他怎么快速输入中文标点,其实完全可以使用“v+英文”的方式输入英文标点。

第三:格式问题

这才是最主要,也最难处理的问题。最主要的问题是段落格式问题。

中文文章每段开始处必须空两格,分段后下一段文字起始于前段文字的次行,即段与段之间不需要空行;而英文写作一般格式是是段前不空格,段间留空行(html中的p标签就是为这样的分段方法准备的)。

由于许多有影响力的网页程序都是英语使用者编写的,所以大多遵守英语规范。而且大多字号很小,显示英语还可以,显示汉语就有些不够,而繁体中文就经常看不清了。

国内许多blog虽然用完全的简体中文写作却采用了英文的分段格式,其中keso方军zheng都具有很相当大的影响力。

此外还有“四不像”的方案:或者在段前空上两格再往段与段之间塞进一条空行,或者在段前不空格在段间也不留白。前者还有向汉语规范靠近的趋势,后者则完全是不负责任的表现。此外还有一些人认为中文与英文之间需要添加空格,就像下面的效果。
这是一个 example 样例
然而我觉得这个问题主要是因为word等软件中的中文字符会与英文字母挤在一起而想出来的处理方法,在html中似乎没有这些问题。

处理方法说简单也简单,说复杂也复杂。简单地说就是将网页中的


通过css的方式处理成标准的中文格式。然而这很多时候又是比较困难的事。我仅说一下WordPress里的处理,主要是和我哥哥学到的内容。只要在模版格式文件(通常是styles.css,也可以修改其他自定义位置)中修改(若没有便增加)

#primary .item .itemtext .entry-content p {
text-indent: 2em;/*这表示段前空两格*/
margin: 0;/*这表示段间距为0*/
}

然而即使解决了这个问题,还是存在许多技术上未“中文考虑”的问题。在wordpress中有普通编辑模式和可视化编辑模式。在普通编辑模式下,输入的回车会自动转化成
从而不受管理,并且极不符合规范;在可视化编辑模式下,虽然能够将回车转化为


但是它的自动化使得无法使用很多插件的标记。

我曾经用VB制作一个小软件来处理收藏网页文字中的格式问题,主要是段与段间多一空行、段前使用手工空格等问题。我决定以后制作一个WordPress专用的博客书写器,不仅在输入的时候自动处理各种格式符号,而且可以承担起处理杂乱格式的优化工作。

有趣的是,在那篇“请规范您的键盘”中,他也是用两个全角空格来处理段前空格问题,这是很不好的现象,但是很多时候也只能如此。我希望大家能够使用更规范的处理方式。

在网络上,如果有人说起这些问题,最中肯的语言莫过于“网路还是比较自由的,在文字和格式上不要过于苛求,但是还是对作者的认真态度折服。”但是我从这类文字中看出某种凄凉,似乎大家都一边表示会注意,一边鄙视“多嘴人”。我无语……好在随着中国网络的发展,我看到了越来越多的人开始爱护我们的汉语了。

本文参考:flypig的“请规范您的键盘”文章

zp8497586rq

10 Comments:

  1. 单字和单词的问题:
    倒也没必要非要用一些好像很有文化的词,“爽”和“郁闷”是很多人会说的,“爽”代表的是一种很舒心,很惊喜的感觉,很难翻译成别的词。你听到中国队世界杯出线了的消息,会说什么?爽?快乐?高兴?还有“哆嗦”,非要说成“颤抖”才显得有文化么?
    网络语言来自网络,网络由网民组成。我讨厌那些把网民当做外星来客的人,网民中不乏高学历,高文化的人,而且高学历,高文化的人也大都上网的。网络语言中,很多词是由于汉语中没有表达相应意思的词而被造出来的,比如一个“汗”字就可以立刻让人想到那个乌鸦和三条线,别的词表达不出来这个意思。而有些词则是矫揉造作,比如“粉口爱的说”,只用于开玩笑,如果一个人整天都这个腔调,也让人受不了。
    Blog本身就是比较随意的,Blog本意就是weblog网络日记,里面的文字不必写的跟年终总结一样文本化,象一般朋友之间聊天的口气就可以了,用不着用一些书面语言,日记嘛。
    对于使用英文,我的态度是宽容一点。比如RSS和feed,真的很难翻成汉语,而Windows,也不必学台湾叫视窗系统,直接念英文有何不可呢。
    简繁体的问题,我尊重台湾人和香港澳门人用繁体字,毕竟繁体字是过去遗留下来的,也是中华文化的瑰宝。但是一些大陆的小p孩用紫光的繁体功能打出来那些看起来象繁体字的东西,则很反感。他们根本没学过繁体字,所以是个字就打成相应的繁体字,造成大陆人看不懂,台湾人又看着发笑,就象用翻译软件翻译出来的一样。我实在不知道用繁体打出来的“软件”一词有什么意义,一帮小p孩无聊当有趣。
    标点问题:
    你啥时候看过我的输入法条么?我用的紫光拼音,刚安装的默认状态就是中文状态是中文标点 半角,如果需要单个的英文字符或标点,就用v来打,如果需要大段的,就直接按shift切换到英文状态,标点也自动切换到英文标点的状态。至于半角全角的问题,我始终停在半角状态,因为全角的英文字符和数字没有用,全角的空格也只有一些人在段首有用,而通过CSS控制就不用打那两个空格了。
    我的文章都很注意标点,尤其是引号和冒号。输入法的词库我也是精心处理,记不得的词比如一些成语的写法就去Google做搜索引擎选举,再去金山词霸的网站查看。你说我始终停留在英文标点的状态,那我咋输的两个中文引号“”?你说说来。
    段落格式问题:
    K2模版默认的整个页面的基准字号是10px,我把他调大到12px,基本保证整个页面的文字都在12px以上。比较好的页面字号是中文12px,英文11px,这样的搭配就非常好。国外的英文页面用10px或者11px就显示的非常清楚了,而中文最小要12px才好,12px和国家规定的出版物最小字号五号字大小也相当。wiki好像用的13px,更清楚些。繁体字则需要更大的字号。一些人说,现在是电脑时代了,不用手写了,输入简体字和繁体字需要花费的时间大致相同了,那么应该重新用回繁体字。别的不说,那些复杂的繁体字,12px下显示出来一团黑,让阅读者怎么适应?
    段落问题,国家的标准出版物是有规定段落行首空两格,行间不空,甚至也有文字要两端对齐,汉字和英文字符以及数字间要留一个半角空格的规定。不过Blog不必那么严格吧,尤其是写Blog的大多对计算机都比较懂一些,经常会引用一些英文,完全套用国家规定的中文格式并非好办法,再说Blog发布到网络上,也不算出版物。如果完全依照用户的阅读体验的角度来说,宋体字体,12px或者13px的字号,左对齐,段首不空段间空一行,是比较好的显示方式。宋体字体可以解决一些标点符号的显示问题,比如省略号……就不会显示成趴在下面的几个点了。汉字和英文字符之间的半角空格的问题,好像有个css属性可以设置,不过还没成为CSS标准。我汉化一些Firefox插件的时候还是有自己加上空格的,不过写Blog时一般都不加。
    写Blog文章时首先要尊重HTML标准。<p>标签就是用来分段的,凡是要分段的地方都要用这个标签。<br />标签是用在段内换行的,一般不用,特殊情况下,比如诗歌一类的,行间距太大就不好看的,可以使用一下这个标签。显示问题能通过css解决的就用css,文章内有特殊显示需要的,用style属性加上css来解决。一些英文的习惯倒是不用遵守了,比如英文没有书名号,用斜体来标识出书名,中文习惯用书名号。还有重点的地方用<b>加粗,这点可以学来,中文需要强调的地方,也可以用这个标签来加粗,尽量不要用特殊颜色或者黑体的方式。

  2. 怎么感觉你在教我,有点太强了吧。呵呵。
    我确实是看到你用的是英文符号状态,当我换成中文符号状态你还不愿意。不过,也许这是因为当时你在学VB等程序的原因,常需要打英文标点。
    关于中文单字的问题,虽说很多网络词语更具备一种表达效果,但是我担心的是大多数人忘却了丰富的汉语。我常常就会有这种感觉,当日常生活中想表达自己感情的时候,脱口而出的只是“我晕”之类,而无法想到其他的词了。这并不是显摆有文化,而是不自觉地流露出文化来。没见过一个人很有文化却始终嘴中只是几个词语。我就是感觉现在整个教育体系下的孩子都有文化贫乏的表现。

  3. 那是你只能想到“我晕”而已,其他的还有很多啊:我晕、我倒、我汗、我寒、我吐、我闪、我靠。口语嘛,就是这样,难道让大家都说:我迷茫、我彷徨、我出离的愤怒了。语言就是一群人在使用中互相融合,每个人有每个人的语言,每个人也在学习别人的语言,最后流传下来的就是取得大多数人的认同的语言。好的语言流传下来,不好的,不利于表达的就不会流传下去。你看很多地方的人都知道“器”字可以有个简写,我这打不出来,一个口字中间有一竖,那就是因为大家用的方便才这样慢慢流传开的。简体字也是由于大家为了书写的方便,慢慢有了行书,慢慢有了草书,后来国家进行了同意的编撰才有了简体字标准。不要总拿文化说事,老祖宗留下的是文化,网络语言就不是文化了么?有足够多的人用了,这就是文化,而且还是我们正在创造的文化。

  4. 我在css中加入了你说的实现首行缩进的代码,但是没有效果!

  5. 嗯~我才发现由于WordPress的自身原因,我的代码被加上了多余的< br />标签,我已经修改好了,请重新修改一下。

    或许您的文件可能在某个地方重新设置了代码,如果仍然有问题。请把您的模版名及版本(如果用K2,还需要具体的风格名及版本)告诉我,然后详细说说自己的处理方式。

  6. 感觉您的网站的段落分段的 CSS 设置的比较有意思,测试一下,不要介意:

    测试,我是中国人(段落一)
    测试,我是中国人,测试,我是中国人,测试,我是中国人,测试,我是中国人,测试,我是中国人,测试,我是中国人,测试,我是中国人,测试,我是中国人,测试,我是中国人,测试,我是中国人,测试,我是中国人(段落二)
    测试,我是中国人(段落三)

    测试,我是中国人(段落四)

    测试,我是中国人(段落五)

    测试,我是中国人,测试,我是中国人,测试,我是中国人,测试,我是中国人,测试,我是中国人,测试,我是中国人,测试,我是中国人,测试,我是中国人,测试,我是中国人,测试,我是中国人,测试,我是中国人(段落二)
    测试,我是中国人(段落六)

    test (p.1)
    test test test test test test test test test test test test test test test test test test test test test test test test test test test test test (p.2)
    test (p.3)

    test (p.1)

    test test test test test test test test test test test test test test test test test test test test test test test test test test test test test (p.2)

    test (p.3)

  7. 很明显,这样的分段并不适合英文的书写,管理员进后台看一下那条评论的段落就知道了

    或许可以这样解决,使用 css 的选择器 lang 对 p 进行定义

  8. 说实话,我可研究得不多,谢谢您的讨论。不过我之前主要是对正文进行调整,不大注意评论。似乎WordPress会将单个回车识别为br,而两个回车才是分段。其实在评论里也可以使用html代码,只不过我们常常懒得用,就这样吧,还可以。

    甚至,评论里也可以调用引用blockquote

    使用coolcode插件显示代码

    不过LaTex没开评论显示功能。

  9. Pingback: WordPress的All-in-One-SEO插件对中文支持的bug | 猫言猫语

  10. Pingback: WP的All-in-One-SEO-Pack插件对中文支持的bug | 泊客Myheimu

Comments are closed