博士刚入学的时候,所有国际学生都被拉去考了个英语摸底考,然后我就被通知口语和写作都需要补课。冤枉啊,我绝对不是我们系我们年级英语最差的,他们怎么不用补课……
Anyway, 写作课用的参考书是 Mimi Zeiger 的《Essentials of Writing Biomedical Research Papers》,虽然内容主要面向生物医学专业,但是其他理工科也能有所收获。
作者说为什么要清楚表达的时候给了两个理由:一是清楚地让读者了解你要表达的信息,另一个是通过写作来帮自己理清思路。后者也是我自己写博客的目的。
精确、简单、必要、慎用缩写。
字词最能体现出一个人对这门语言驾轻就熟的程度,不限于英语。
同样是将一个东西分为两段,什么叫切、斩、劈、砍、截……
什么样的山叫峰、岭、崖、峦、岳……
什么样的路叫 path, way, road, street, avenue, boulevard…
临阵磨枪的话,我们老师推荐了这个网站:https://ozdic.com/,输入一个单词,可以得到词义辨析,还可以联想经常与之搭配的动词、形容词或副词。

不论汉语还是英语,自然语言中的 token 们来自于先民在各种场合下的创造性使用,各有出处和掌故。用词准确之所以值得夸耀,就在于这是使用者熟悉对应的文化,腹有诗书的证明。
要说区别,汉语中这种秀操作的近义词群以名词居多,而英语中以动词居多。为什么?句子层面的限制可能是原因之一。
句子层面反而需要做减法,少整花活儿。
语法中有主语、谓语、宾语;
逻辑中有主体、关系、客体——
分别对应起来,直观方便又正确。尤其是科技论文写作,作者须要表述的内容已经足够困难和复杂了,更不应该在内容之外,在表达形式上另加难度。
所以只改变语义,不改变结构的谓语动词就成了夸耀词汇量的绝佳竞技场;做主语和宾语的名词往往都是专业术语,轻易不能替换。
反观某些地区某些阶段的英语学习,积累词汇的硬功夫难以立竿见影,就把各种各样的非谓语形式当作高级句式来炫技,炫则酷矣,但如果使用者没有逻辑意识,很容易让命题的主体被挪到主语的修饰词里面,客体被挤到宾语的定语,甚至是整个句子的状语里——内容被表达反噬,“文胜质则史”。
再反过来,如果口语会话时某个高级词汇发音不准,别人听不懂,可以用复杂句式+简单词汇的方式四两拨千斤,绕过发音有困难的部分。

那么高级句式就不能用吗?当然不是。怎么用?看段落的需求。
字词体现的是与内容无关的平时积累;
段落表达的是对当前内容的具体理解。
一段文章之所以好,应该好在作者的观察准确符合事实,思想深刻有洞见,超出这两者的赞美,要么是读者自作多情,要么是作者欺世盗名。
欺世盗名不是绝大多数科技论文写作者需要担心的问题,问题是酒香也怕巷子深,要让人读得下去,读完能有所得。同样的信息量下,需要尽力节省读者的心智负担。
对偶和排比很有用,但是能纳入这种形式化框架的素材可欲而不可求。
更多的素材,需要作者凭自己对各个概念之间逻辑关系的理解,来设计它们在文章中出现的位置。利用人脑的工作记忆的特性,把相同/相近的概念,跨越句子/命题摆在相近的位置,把信息编码在空间里。
这是一种不太被重视的修辞手法,俗称“鱼咬尾”。一个例子是张若虚的《春江花月夜》,这里用粗体字和下划线简单标注几个明显的前后串联的意象,包括但不限于:
春江潮水连海平,海上明月共潮生。 滟滟随波千万里,何处春江无月明。 江流宛转绕芳甸,月照花林皆似霰。 空里流霜不觉飞,汀上白沙看不见。 江天一色无纤尘,皎皎空中孤月轮。 江畔何人初见月?江月何年初照人? 人生代代无穷已,江月年年望相似。 不知江月待何人,但见长江送流水。 白云一片去悠悠,青枫浦上不胜愁。 谁家今夜扁舟子?何处相思明月楼? 可怜楼上月徘徊,应照离人妆镜台。 玉户帘中卷不去,捣衣砧上拂还来。 此时相望不相闻,愿逐月华流照君。 鸿雁长飞光不度,鱼龙潜跃水成文。 昨夜闲潭梦落花,可怜春半不还家。 江水流春去欲尽,江潭落月复西斜。 斜月沉沉藏海雾,碣石潇湘无限路。 不知乘月几人归,落月摇情满江树。
复杂句式的用武之地也类似——
就比如被动语态,刚学的时候老师会说这是高级句式,好用多用;
后来反转了,被动语态不能滥用,但是为什么不能,什么程度算滥用,没人规定。
怎么回事呢?被动语态的主语和主动语态的宾语,位置正好对调,你需要让这个概念出现在这句话的开头还是末尾,这是一个取决于上下文,需要临机应变的问题。
在电脑上码字的时候,可以轻松地剪切粘贴来调整语序。
而白纸黑笔写考卷的年轻人,练成这番功夫的难度要大得多。
况且被考试指挥棒戳着的他们,恐怕也没这个闲工夫。(高级动词+1, callback +1)
本书毕竟是一本工具书,为了避免上完了课就被束之高阁的命运,在开头就把整本书的内容用一篇结果报告型论文作为例子总结了下来,方便读者速查:
听说读写按能力的判断标准,可以分成对立的两类:
听、读是内容输入的过程,水平越高,越可以在同样的表达方式中汲取更多的作者原意,而且不妄加附会。
说、写是内容输出的过程,水平越高,越可以把同样的信息用更容易理解的方式表达出来,而且不产生歧义。
某些地区某些阶段的英语考试,明显不是按照上述的标准来评价考生的。
不只是英语,每一门语言都应该适用这样的标准。
最近几篇博客的访问量比之前大很多,但是其中的信息量,恐怕不到我之前一些学习笔记的零头。
并不意外。人的水平、见识、成绩,比较适合用超几何分布建模,科普/入门文章的水平门槛越低,能看出妙处的人比例越多,流量自然越大~
(反之不然,并非流量越差的文章水平就一定高,因为交叉熵和 KL divergence 不满足交换律,不是 metric)

我知道我写的东西不能帮上所有人,但我已经不再内耗了。不是我的实验室同事,就不会再觉得那是我需要感同身受的问题了,能帮多少帮多少,与其检讨自己的写作水平,不如抱怨别人的阅读能力~
阅读能力是最近很多人抱怨的“教材都有‘防自学机制’”的原因之一。不论语文考试的分数高低,不少学生的语文水平,在理解同一年级其他科目的课本文字的时候已经有困难了。
写作方面,防自学机制很多都是翻译问题。除了定语从句这样的长难句直译过来不好理解,即便是中国人写的纯中文,因为“专名号”这一标点符号没有推广开,一旦句子中包含原装进口的专业术语,就容易让人难以辨别句子结构。
“民科”常见的问题也不止是“思而不学则殆”,还在于因小失大,逮着一两个专业术语,一个字一个字地嚼,穿凿附会,陷入字词而盲于篇章。
顺便一提,国内有些不太出名的教材,水平反而不错,因为作者见过好东西,然后用自己的理解和表达方式反刍出来,反而比专业人士翻译的外语原版更适合中国宝宝体质。(我没说他们洗稿,你们要干什么)
这确实是很多人会有的想法:一句 prompt 就可以让大语言模型吐出一长篇文章,内容格式都像模像样,那人类还用得着会写吗?
首先,给 AI 投喂 prompt 的行为本身也是一种写作,依然对人的写作能力有要求,也就是所谓的 prompt engineering。这些模型的参数是通过对人类语料的学习确定的,那么好 prompt 的标准就还是会收敛到人类对好问题、好文章的标准。
其次,在 AI 获得法律意义上的人权之前,依然是由使用 AI 的人类占有 AI 生成物的收益,并承担品控的责任。AI 对人效率的提升,其安全上限只能是人类的写作速度和阅读速度的差值。超过这一限度的提升,都是以品质上的隐患为代价的。
事实方面的品控,依然需要检查逻辑是否自洽、证据是否确凿;
格式方面的品控,依然需要人类自己会写,而且这种需要比 AI 时代以前更加迫切。
博士刚入学的时候,所有国际学生都被拉去考了个英语摸底考,然后我就被通知口语和写作都需要补课。冤枉啊,我绝对不是我们系我们年级英语最差的,他们怎么不用补课……
Anyway, 写作课用的参考书是 Mimi Zeiger 的《Essentials of Writing Biomedical Research Papers》,虽然内容主要面向生物医学专业,但是其他理工科也能有所收获。
作者说为什么要清楚表达的时候给了两个理由:一是清楚地让读者了解你要表达的信息,另一个是通过写作来帮自己理清思路。后者也是我自己写博客的目的。
精确、简单、必要、慎用缩写。
字词最能体现出一个人对这门语言驾轻就熟的程度,不限于英语。
同样是将一个东西分为两段,什么叫切、斩、劈、砍、截……
什么样的山叫峰、岭、崖、峦、岳……
什么样的路叫 path, way, road, street, avenue, boulevard…
临阵磨枪的话,我们老师推荐了这个网站:https://ozdic.com/,输入一个单词,可以得到词义辨析,还可以联想经常与之搭配的动词、形容词或副词。

不论汉语还是英语,自然语言中的 token 们来自于先民在各种场合下的创造性使用,各有出处和掌故。用词准确之所以值得夸耀,就在于这是使用者熟悉对应的文化,腹有诗书的证明。
要说区别,汉语中这种秀操作的近义词群以名词居多,而英语中以动词居多。为什么?句子层面的限制可能是原因之一。
句子层面反而需要做减法,少整花活儿。
语法中有主语、谓语、宾语;
逻辑中有主体、关系、客体——
分别对应起来,直观方便又正确。尤其是科技论文写作,作者须要表述的内容已经足够困难和复杂了,更不应该在内容之外,在表达形式上另加难度。
所以只改变语义,不改变结构的谓语动词就成了夸耀词汇量的绝佳竞技场;做主语和宾语的名词往往都是专业术语,轻易不能替换。
反观某些地区某些阶段的英语学习,积累词汇的硬功夫难以立竿见影,就把各种各样的非谓语形式当作高级句式来炫技,炫则酷矣,但如果使用者没有逻辑意识,很容易让命题的主体被挪到主语的修饰词里面,客体被挤到宾语的定语,甚至是整个句子的状语里——内容被表达反噬,“文胜质则史”。
再反过来,如果口语会话时某个高级词汇发音不准,别人听不懂,可以用复杂句式+简单词汇的方式四两拨千斤,绕过发音有困难的部分。

那么高级句式就不能用吗?当然不是。怎么用?看段落的需求。
字词体现的是与内容无关的平时积累;
段落表达的是对当前内容的具体理解。
一段文章之所以好,应该好在作者的观察准确符合事实,思想深刻有洞见,超出这两者的赞美,要么是读者自作多情,要么是作者欺世盗名。
欺世盗名不是绝大多数科技论文写作者需要担心的问题,问题是酒香也怕巷子深,要让人读得下去,读完能有所得。同样的信息量下,需要尽力节省读者的心智负担。
对偶和排比很有用,但是能纳入这种形式化框架的素材可欲而不可求。
更多的素材,需要作者凭自己对各个概念之间逻辑关系的理解,来设计它们在文章中出现的位置。利用人脑的工作记忆的特性,把相同/相近的概念,跨越句子/命题摆在相近的位置,把信息编码在空间里。
这是一种不太被重视的修辞手法,俗称“鱼咬尾”。一个例子是张若虚的《春江花月夜》,这里用粗体字和下划线简单标注几个明显的前后串联的意象,包括但不限于:
春江潮水连海平,海上明月共潮生。 滟滟随波千万里,何处春江无月明。 江流宛转绕芳甸,月照花林皆似霰。 空里流霜不觉飞,汀上白沙看不见。 江天一色无纤尘,皎皎空中孤月轮。 江畔何人初见月?江月何年初照人? 人生代代无穷已,江月年年望相似。 不知江月待何人,但见长江送流水。 白云一片去悠悠,青枫浦上不胜愁。 谁家今夜扁舟子?何处相思明月楼? 可怜楼上月徘徊,应照离人妆镜台。 玉户帘中卷不去,捣衣砧上拂还来。 此时相望不相闻,愿逐月华流照君。 鸿雁长飞光不度,鱼龙潜跃水成文。 昨夜闲潭梦落花,可怜春半不还家。 江水流春去欲尽,江潭落月复西斜。 斜月沉沉藏海雾,碣石潇湘无限路。 不知乘月几人归,落月摇情满江树。
复杂句式的用武之地也类似——
就比如被动语态,刚学的时候老师会说这是高级句式,好用多用;
后来反转了,被动语态不能滥用,但是为什么不能,什么程度算滥用,没人规定。
怎么回事呢?被动语态的主语和主动语态的宾语,位置正好对调,你需要让这个概念出现在这句话的开头还是末尾,这是一个取决于上下文,需要临机应变的问题。
在电脑上码字的时候,可以轻松地剪切粘贴来调整语序。
而白纸黑笔写考卷的年轻人,练成这番功夫的难度要大得多。
况且被考试指挥棒戳着的他们,恐怕也没这个闲工夫。(高级动词+1, callback +1)
本书毕竟是一本工具书,为了避免上完了课就被束之高阁的命运,在开头就把整本书的内容用一篇结果报告型论文作为例子总结了下来,方便读者速查:
听说读写按能力的判断标准,可以分成对立的两类:
听、读是内容输入的过程,水平越高,越可以在同样的表达方式中汲取更多的作者原意,而且不妄加附会。
说、写是内容输出的过程,水平越高,越可以把同样的信息用更容易理解的方式表达出来,而且不产生歧义。
某些地区某些阶段的英语考试,明显不是按照上述的标准来评价考生的。
不只是英语,每一门语言都应该适用这样的标准。
最近几篇博客的访问量比之前大很多,但是其中的信息量,恐怕不到我之前一些学习笔记的零头。
并不意外。人的水平、见识、成绩,比较适合用超几何分布建模,科普/入门文章的水平门槛越低,能看出妙处的人比例越多,流量自然越大~
(反之不然,并非流量越差的文章水平就一定高,因为交叉熵和 KL divergence 不满足交换律,不是 metric)

我知道我写的东西不能帮上所有人,但我已经不再内耗了。不是我的实验室同事,就不会再觉得那是我需要感同身受的问题了,能帮多少帮多少,与其检讨自己的写作水平,不如抱怨别人的阅读能力~
阅读能力是最近很多人抱怨的“教材都有‘防自学机制’”的原因之一。不论语文考试的分数高低,不少学生的语文水平,在理解同一年级其他科目的课本文字的时候已经有困难了。
写作方面,防自学机制很多都是翻译问题。除了定语从句这样的长难句直译过来不好理解,即便是中国人写的纯中文,因为“专名号”这一标点符号没有推广开,一旦句子中包含原装进口的专业术语,就容易让人难以辨别句子结构。
“民科”常见的问题也不止是“思而不学则殆”,还在于因小失大,逮着一两个专业术语,一个字一个字地嚼,穿凿附会,陷入字词而盲于篇章。
顺便一提,国内有些不太出名的教材,水平反而不错,因为作者见过好东西,然后用自己的理解和表达方式反刍出来,反而比专业人士翻译的外语原版更适合中国宝宝体质。(我没说他们洗稿,你们要干什么)
这确实是很多人会有的想法:一句 prompt 就可以让大语言模型吐出一长篇文章,内容格式都像模像样,那人类还用得着会写吗?
首先,给 AI 投喂 prompt 的行为本身也是一种写作,依然对人的写作能力有要求,也就是所谓的 prompt engineering。这些模型的参数是通过对人类语料的学习确定的,那么好 prompt 的标准就还是会收敛到人类对好问题、好文章的标准。
其次,在 AI 获得法律意义上的人权之前,依然是由使用 AI 的人类占有 AI 生成物的收益,并承担品控的责任。AI 对人效率的提升,其安全上限只能是人类的写作速度和阅读速度的差值。超过这一限度的提升,都是以品质上的隐患为代价的。
事实方面的品控,依然需要检查逻辑是否自洽、证据是否确凿;
格式方面的品控,依然需要人类自己会写,而且这种需要比 AI 时代以前更加迫切。