CGI脚本入门学习资料
作者:
学习CGI脚本(脚本)
作为一个网页设计者, 你创建客户端的 CGI脚本, 服务器端的程序用来处理用户输入, 结果返回给用户.
在这里你将学习关于CGI脚本的一切:
- CGI脚本是什么?它是怎样工作的
- 一个CGI脚本输出象什么?
- 怎样用参数或无参数创建一个CGI脚本
- 怎样创建一个返回规定响应的CGI脚本
- 怎样创建一个输入表单的CGI脚本
- 有关在使用CGI脚本中的问题
- 你能在脚本中使用的CGI变量
CGI脚本是什么?
CGI 脚本难道不是一个真正的脚本?按照你的服务器的支持, 他们可能是一个编译好的程序或者批命令文件或者其他可执行的东西. 为了简单起见,我们统称他们为脚本scripts.
CGI脚本是用下列两种方法使用的: 作为一个表单的ACTION 或 作为一个页中的直接link。
CGI脚本是怎样工作的?
图1. 从浏览器到服务器到脚本到程序 记住再回来噢!
这有个简短的示意解释:
- 一个URL指向一个CGI脚本. 一个CGI脚本的URL能如普通的URL一样在任何地方出现。
- 服务器接收请求, 按照那个URL指向的脚本文件(注意文件的位置和扩展名),执行脚本.
- 脚本执行基于输入数据的操作,包括查询数据库、计算数值或调用系统中其他程序.
- 脚本产生某种Web服务器能理解的输出结果.
- 服务器接收来自脚本的输出并且把它传回浏览器,让用户了解结果。
一个简单的例子
在图2中有个例图:
图2. 带有一个脚本连接的页.
Display Date处是个指向CGI脚本的连接. 它的HTML是这样的:
<A HREF="http://www.popchina.com/cgi-bin/getdate">Display the Date</A>说明是个CGI脚本是因为这里面有个cgi-bin的路径. 在许多服务器cgi-bin是仅能够放置CGI脚本的目录.
当你选择这个连接时, 你的浏览器将向www.popchina.com服务器提出请求. 服务器接收这个请求计算出URL处的脚本文件名然后执行这个脚本.
这个getdate脚本, 在UNIX系统中执行是这样的:
#!/bin/sh echo Content-type: text/plain echo /bin/date第一行是个特殊的命令,告诉UNIX系统这是个shell脚本; 真实的情况是从这行开始的下一行,这个脚本做两件事:它输出行Content-type: text/plain, 接着开始一个空行;第二, 它调用UNIX系统时间date程序, 这样输出日期和时间. 脚本执行后输出应该这样:
Content-type: text/plain Tue Oct 25 16:15:57 EDT 1994这个Content-type是什么东东?它是个特殊的编码,Web服务器用来告诉浏览器输出这个文本是什么类型的. 这与HTML中Content-type含义是一样的。
这样浏览器的输出就如图3.
这是最基本的,实际情况要复杂得多,总之可以用来理解浏览器、服务器和脚本之间是怎样工作的。
我能用CGI脚本吗?
肯定吗?就是做不到,学学也可以?好吧!让我们继续.
你的服务器配置允许CGI脚本吗?
但是即使你有一个Web服务器, 这个服务器必须特别地为运行CGI脚本配置一下. 那意味着你所有的脚本必须放置在一个叫做cgi-bin的目录下.
在编写CGI脚本之前, 询问你的服务器管理者是否允许你安装和运行CGI脚本, 并且如果可以的话,他们必须放置在哪儿?还有,你必须有个真正的Web服务器,如果是FTP或Gopher服务器,那你就不能用CGI.
如果你在自己的服务器上运行, 你必须特别地创造一个叫cgi-bin的目录,并配置你的服务器认可这个目录为一个脚本目录. 也必须记住下面有关CGI脚本特点:
- 每个脚本是个程序, 它运行在浏览器可以请求的系统上, 执行时使用CPU时间和内存. 如果有成打上千的这些脚本同时运行,会怎样?你的系统将不忍负载直至崩溃。
- 如果你不仔细地编写你的CGI脚本, 你将有可能让别人通过你的CGI脚本参数进入伤害你的系统.
你会编程吗?
你必须用什么编程语言?
在这本学习手册中,仅用两种语言编写CGI脚本: UNIX shell和 Perl语言. 这个shell是适合在任何相近的UNIX系统上运行并且容易学习, 但是处理复杂的情况就困难了. Perl, 就要用这个语言了, 它是免费的, 这个语言是稳定和强大的,类似C,但它也是较难学习的.
你的服务器设置正确了吗?
如果你是租用服务器,就要是否允许运行CGI脚本.
如果你拥有自己的服务器,检查你的服务器说明书是怎样处理CGI脚本的.
如果你用的不是UNIX?
解剖一个CGI脚本
输出头部
这个头部是实际不是文本的一部分,是服务器与浏览器之间的信息协议,你实际看不到。
有三个类型的头部: Content-type, Location, 和Status. Content-type 最普遍的。
有关content-type解释可以见有关HTML的说明, 一个你可以发出的特定编码象这样:
Content-type: text/html在这个例子中,输出数据的类型是text/html; 换句话说, 他是个HTML文件.
Format |
Content-Type |
HTML | text/html |
Text | text/plain |
GIF | image/gif |
JPEG | image/jpeg |
PostScript | application/postscript |
MPEG | video/mpeg |
输出数据
练习1: 小试试.
图4. 脚本的结果
这是个很简单的例子, 他能这样备调用:
<A HREF="http://www.popchina.com/cgi-bin/pinglaura">Is Laura Logged in?</A>这是没有输入的脚本,它只运行并且返回数据.
根据前面的阐述,这个脚本内容是这样::
#!/bin/sh
echo Content-type: text/html
echo "<HTML><HEAD>"
echo "<TITLE>Is Laura There?</TITLE>"
echo "</HEAD><BODY>"
为了测试我是否已经登陆系统,用who命令(我的登陆名假设为lemay), 储存结果在变量ison中. 如果我登陆, 变量ison将有些内容,否则则是空的.
ison='who | grep lemay'试验结果及返回相应提示的脚本是这样:
if [ ! -z "$ison" ]; then echo "<P>Laura is logged in."</P> else echo "<P>Laura isn't logged in."</P> fi最后关闭HTML:
echo "</BODY></HTML>"现在你通过从命令行运行他,测试一下,你将得到一个结果说我未登陆你的系统,当然不可能的,他的输出是这样的:
Content-type: text/html <HTML><HEAD> <TITLE>Are You There?</TITLE> </HEAD><BODY> <P>Laura is not logged in. </BODY></HTML>这是输出的一个HTML文本,这样你的浏览器能正常显示他,因为他是个HTML文件。
这个例子完整的脚本如下:
#!/bin/sh echo "Content-type: text/html" echo echo "<HTML><HEAD>" echo "<TITLE>Is Laura There?</TITLE>" echo "</HEAD><BODY>" ison='who | grep lemay' if [ ! -z "$ison" ]; then echo "<P>Laura is logged in" else echo "<P>Laura isn't logged in" fi echo "</BODY></HTML>"
带有参数的脚本
<A HREF="/cgi-bin/myscript?arg1+arg2+arg3">run my script</A>当服务器接收到这个请求,它传递 arg1, arg2, 和 arg3 参数给脚本. 你然后能在脚本中使用这些参数.
这个方法有时叫查询, 因为早期它用在搜索功能中.
练习2: 检查是否有人登陆.
我们取个不同题目:
#!/bin/sh echo "Content-type: text/html" echo echo "<HTML><HEAD>" echo "<TITLE>Are You There?</TITLE>" echo "</HEAD><BODY>"在上面的例子中, 下一步应该是测试我是否登陆,在这里我们用参数${1}代替我的名字lemay, ${1}作为第一个参数, ${2}作为第二个, ${3}作为第三个.
ison='who | grep "${1}"'
剩下的所有修改如下:
if [ ! -z "$ison" ]; then echo "<P>$1 is logged in" else echo "<P>$1 isn't logged in" fi
echo "</BODY></HTML>"好了,让我们修改HTML页中的连接吧!原来是这样:
<A HREF="http://www.lne.com/cgi-bin/pinglaura">Is Laura Logged in?</A>修改为通用查询功能后是这样,比如查询名字叫john的人是否登陆:
<A HREF="http://www.lne.com/cgi-bin/pinggeneric?john">Is John Logged in?</A>在你的服务器上试试,看是否有结果。
传递其他信息给脚本
看下面一个路径信息path information例子, :
http://myhost/cgi-bin/myscript/remaining_path_info?arg1+arg2当脚本运行时,在路径中的信息将被放置于环境参数PATH_INFO. 你能在你的脚本内容中使用这些信息.
比如说, 让我们假设你在多页上已有多个连接到同一个脚本. 你能用这个路径信息显示那个有连接的HTML文件名. 这样, 在你完成处理你的脚本之后, 当你发回一个HTML文件时, 你能在这个文件里包含一个连接,发回用户一开始那个页。
你会在下一章节学到更多路径信息:有用的表单和脚本. 待后来登出
创建一个特殊的脚本输出
不用怕, 这里开始解释这些情况.
用调用另一个文本作为响应
Location: ../docs/final.html这个Location行用作通常的输出位置,也就是说,如果你用了Location, 你就不必再用象Content-type这样的数据输出(实际上,你也不能). 正如Content-type, 你也必须在这一行后面跟一个空行.
指向这个文件的路径可以是一个URL或相对路径. 所有相对路径是指相对于脚本所在的位置. 例子中的final.html文本是在当前上一个目录下docs的目录下:
echo Location: ../docs/final.html echo
No Response
很幸运, 这一切很容易. 你只要输出下面这个命令即可(后面跟一个空行):
echo Status: 204 No Response echo这个Status头部提供状态码给服务器(并且也给浏览器). 特别的204将传递给浏览器,如果能识别它,它将什么也不做.
处理表单的脚本
记住, 大多数表单有两个部分: HTML的表单格式;处理表单数据的CGI脚本. 这个CGI脚本使用标签<FORM>属性调用的.
表单形式和表单脚本
这个ACTION属性包含着处理表单的脚本:
<FORM ACTION="http://www.popchina.com/cgi-bin/processorscript">在这个表单中, 每个输入区都有一个NAME的属性, 用来称呼表单元素. 当这个表单数据被递交给你在ACTION中定义的CGI脚本, 这样这些name和输入内容被作为一个数字或字符传递给脚本.
GET 和 POST
我们上面谈论的方法,实际是GET,它将数据打包放置在环境变量QUERY_STRING中作为URL整体的一部分传递给服务器。
POST做很多类似GET同样的事情, 不同的地方就是它是分离地传递数据给脚本. 你的脚本通过标准输入获取这些数据. (有些Web服务器是存储在临时文件中.) 这个QUERY_STRING环境变量将不再设置.
那你用那个方法呢? POST是个安全的方法, 尤其如果你的表单中有很多数据的话. 当你用GET, 这个服务器就分配变量QUERY_STRING给所有的表单数据, 但是这个变量可存储量是有限的. 换句话说,如果你有很多数据但是你又用GET,你会丢失很多数据.
如果你用POST, 你可以尽可能多地使用数据, 因为这些数据从来也不分配到一个变量里.
URL 编码
theName=Ichabod+Crane&gender=male&status=missing&headless=yesURL编码遵循下列规则:
- 每对name/value由&符分开.
- 每对来自表单的name/value由=符分开. 如果用户没有输入值给这个name,那么这个name还是出现,只是无值(象这样 "name=").
- 任何特殊的字符(就是那些不是简单的七位ASCII,如汉字) 将以百分符%用十六进制编码. 当然也包括象 =, &, 和 % 这些特殊的字符.
- 在输入区中的空格将以加号+显示.
这里介绍一个叫uncgi的解码程序, 你可以从http://www.hyperion.com/~koreth/uncgi.html. 得到原码,安装在你自己的cgi-bin目录下.
练习3: 告诉我你的名字.
这个输入被发给脚本, 然后发回显示一个hello的信息(间图.6).
如果你在姓名输入处不输入任何东东,会怎样?见图7.
修改表单的HTML
<FORM METHOD=POST ACTION="../cgi-bin/form-name"> </FORM>如果你在用uncgi从input中解码, 情况有点不同. 为了是uncgi正常工作, 你首先必须调用uncgi , 如果uncgi是个目录,加上实际的脚本名, 象这样:
<FORM METHOD=POST ACTION="../cgi-bin/uncgi/form-name"> </FORM>这样,你不必修改表单中原始的HTML; 原始的HTML可以工作得很好.
脚本
在脚本中第一步是解码,在这个例子中, 我们已经使用uncgi解码输入数据, 实际这个表单已经为你做好解码. 通过建立一个uncgi的目录,一旦表单递交给服务器,服务器会自动进行解码,这样,所有的name/value已经准备就绪等待你的使用.
现在,一个例子开始部分假设是下面这样:
echo Content-type: text/html echo echo "<HTML><HEAD>" echo "<TITLE>Hello</TITLE>" echo "</HEAD><BODY>" echo "<P>"接下来,有两种情况要处理:一件是处理用户不输入名字的情况,一个是如果输入了向他们说hello.
这个Name元素的值, 是包含在WWW_theName环境变量中. 用一个简单的测试命令(-z), 你能查看环境变量是否是空的还是包括相应的输出值:
if [ ! -z "$WWW_theName" ]; then echo "Hello, " echo $WWW_theName else echo "You don't have a name?" fi最后增加一个连接"go back" . 用来返回:
echo "</P><P><A HREF="../lemay/name1.html">Go Back</A></P>" echo "</BODY></HTML>"
问题
- 脚本内容只显示不执行.
你正确配置了你的服务器运行CGI脚本? 你的脚本是放置在cgi-bin目录中吗?如果你的服务器允许带.cgi扩展名的CGI运行, 你的脚本文件名的扩展名是这样吗?
- Error 500: Server doesn't support POST.
解答还是如上一条一样,然后你用命令行执行你的CGI,可以正常运行吗?是否有错误?.
- Document contains no data.
确定你的头部行和数据部之间有一空行.
- Error 500: Bad Script Request.
确定你的脚本是可执行的(在UNIX, 用chmod +x 你的脚本.cgi). 在从浏览器运行之前,你应当从命令行运行你的脚本,如果客户端是win95,可以用telnet登陆你的服务器,执行命令行,当然必须了解UNIX命令.
CGI变量
环境变量 |
意义 |
SERVER_NAME | CGI脚本运行时的主机名和IP地址. |
SERVER_SOFTWARE | 你的服务器的类型如: CERN/3.0 或 NCSA/1.3. |
GATEWAY_INTERFACE | 运行的CGI版本. 对于UNIX服务器, 这是CGI/1.1. |
SERVER_PROTOCOL | 服务器运行的HTTP协议. 这里当是HTTP/1.0. |
SERVER_PORT | 服务器运行的TCP口,通常Web服务器是80. |
REQUEST_METHOD | POST 或 GET, 取决于你的表单是怎样递交的. |
HTTP_ACCEPT | 浏览器能直接接收的Content-types, 可以有HTTP Accept header定义. |
HTTP_USER_AGENT | 递交表单的浏览器的名称、版本 和其他平台性的附加信息。 |
HTTP_REFERER | 递交表单的文本的 URL,不是所有的浏览器都发出这个信息,不要依赖它 |
PATH_INFO | 附加的路径信息, 由浏览器通过GET方法发出. |
PATH_TRANSLATED | 在PATH_INFO中系统规定的路径信息. |
SCRIPT_NAME | 指向这个CGI脚本的路径, 是在URL中显示的(如, /cgi-bin/thescript). |
QUERY_STRING | 脚本参数或者表单输入项(如果是用GET递交). QUERY_STRING 包含URL中问号后面的参数. |
REMOTE_HOST | 递交脚本的主机名,这个值不能被设置. |
REMOTE_ADDR | 递交脚本的主机IP地址. |
REMOTE_USER | 递交脚本的用户名. 如果服务器的authentication被激活,这个值可以设置。 |
REMOTE_IDENT | 如果Web服务器是在ident (一种确认用户连接你的协议)运行, 递交表单的系统也在运行ident, 这个变量就含有ident返回值. |
CONTENT_TYPE | 如果表单是用POST递交, 这个值将是 application/x-www-form-urlencoded. 在上载文件的表单中, content-type 是个 multipart/form-data. |
CONTENT_LENGTH | 对于用POST递交的表单, 标准输入口的字节数. |
表单输入的解码程序
当然也有表单上载时可以解码的程序,很少。
uncgi
cgi-lib.pl
为了使用cgi-lib.pl,你通常要这样写:
#!/usr/lib/perl
require 'cgi-lib.pl';cgi-lib中尽管有很多子程序, 最重要的是ReadParse子程. ReadParse 读取输入方便地将name/value储存在一个Perl阵列中. 在你的Perl脚本中通常是这样调用的:
&ReadParse(*in);此例中,阵列名是in, 可以随便取名的.
在表单输入解码后, 你能读取和处理这个name/value,方法是象下面这样:
print $in{'theName'};这个将显示名字name是theName的值value.
如果你有多个用同样名字的name对, cgi-lib.pl用(\0)分隔多个名字. 这样可以正常处理你的脚本.
解码上传的文件输入
cgi-lib.pl 后来版本可以很好支持, 在http://www.bio.cam.ac.uk/cgi-lib/ 了解更多的情况.
另一个处理用Perl编写的CGI地址是 http://valine.ncsa.uiuc.edu/cgi_docs.html .
自己做
非解剖的脚本头部
<ISINDEX> 脚本
总结
注意:上述程序可以用ultra edit来编辑,注意转换UNIX格式 ,必须采用UNIX格式存盘,再上载,用telnet登陆,在命令行键入perl sample.pl,看有无bug,再 在浏览器中调用。CGI程序包括放置CGI的目录一定要改属性为777, 要写入的HTML文件也要改属性为777.
现在网上有很多免费的cgi,基本可以满足一般需求,请到这个网址查询你要的cgi:http://www.itm.com/cgicollection/
本人汉化了一个古老的通用留言簿,大家可以拿去做自己的留言簿。这里下载