program sederhana ini digunakan untuk mengumpulkan link-link yang ada pada sebuah halaman web, bisa juga di kembangkan menjadi sebuah crawler..
#!/usr/bin/python
#info: program untuk mendapatkan info link-link
# yang terdapat dalam sebuah halaman web
#
# otoy(http://otoyrood.wordpress.com)
# 0x102010
from urllib import urlopen
import re,sys
peng = '''Penggunaan: python %s http://<alamat web> (jangan lupa http:// atau https://)
Contoh : python %s http://otoyrood.wordpress.com''' %(sys.argv[0],sys.argv[0])
def main():
if len(sys.argv) <=1:
print peng
sys.exit(1)
urls=set()
pat = re.compile('href="([http:|https:].*?)"')
try:
urlscn = urlopen(sys.argv[1]).read()
except IOError:
print peng
sys.exit(1)
print "[+]Gathering links from the web"
for url in pat.findall(urlscn):
urls.add(url)
fl = open("haslscan.txt","w")
for url in sorted(urls):
hsl = '%s' % url,"\n"
fl.writelines(hsl)
fl.close()
print "[+]Gathering links done"
if __name__ == "__main__" :
main()
the result:
Advertisement


