19100205 11day

11661246 · 11661246 · commit e1b1e2848fe8 · 2019-03-31T22:16:57.000+08:00
diff --git a/19100205/11661246/d11_training1.py b/19100205/11661246/d11_training1.py
@@ -0,0 +1,28 @@
+import yagmail
+import getpass
+import requests
+from pyquery import PyQuery
+
+# -*- coding: utf-8 -*-
+response = requests.get('https://mp.weixin.qq.com/s/pLmuGoc4bZrMNl7MSoWgiA', auth=('zoroya@126.com', 'ZoroYa11661246'))
+
+#提取公众号伪代码
+
+document = PyQuery(response.text)
+content = document('#js_content').text() #把抓取的内容写成可视的文字
+
+
+
+#链接邮箱服务器
+sender = input('输入发件人地址:')
+password = getpass.getpass('输入发件人密码:')
+recipients = input('输入收件人地址:')
+smtp = 'smtp.126.com' #服务器地址
+#Todo：在下面实现自己的分词统计和发送邮件的操作
+
+#统计内容的前100词频
+print(mymodule.stats_word.stats_text(text))
+
+
+# 发送邮件
+yag.send('11661246@qq.com', '19100205 11661246', text)
diff --git a/19100205/11661246/main.py b/19100205/11661246/main.py
@@ -26,4 +26,4 @@
 except ValueError:
     print('输入的不是文本格式，请重新输入：')   
     
-print(mymodule.stats_word.stats_text_cn(text))
+print(mymodule.stats_word.stats_text_cn(text,10))
diff --git a/19100205/11661246/mymodule/stats_word.py b/19100205/11661246/mymodule/stats_word.py
@@ -1,61 +1,47 @@
 # encoding=utf 
+# 调用jieba
 import jieba #day10
+#调用counter
 import collections
+import re
 
 # 函数1：统计输入文本中英文单词的词频：
-def stats_text_en(text):
+def stats_text_en(text,count):
     if not isinstance(text,str):
         raise ValueError('输入的不是文本格式，请重新输入：') # 第8天作业要求，添加参数类型检查
     text = text.replace('.', '').replace('!', '').replace('--', '').replace('*', '').replace(',', '').replace('(', '').replace(')', '').replace(';', '').replace(':', '').replace('\'', '').replace('?', '').replace('_', '').replace('-', '').replace('/', '') .replace('[', '') .replace(']', '') .replace('\\', '') .replace('\"', '').replace('{', '').replace('}', '').replace('\t', '').replace('\n', '').replace('\r\n', '')    
         
     # 以上替换去除各种标点符号
     list_text = text.split() # 将字符串转换为列表
     import collections
-    count = int(input("请输入要限制输出的元素个数："))
     dic = collections.Counter(list_text).most_common(count)
     return dic
 
 
 
 # 函数2：统计输入文本中中文字的词频：
-def stats_text_cn(text):  
+def stats_text_cn(text,count):  
     if not isinstance(text,str):
         raise ValueError('输入的不是文本格式，请重新输入：') # 第8天作业要求，添加参数类型检查
     
     text1 = []
     for i in text:  # 这个循环有效，说明一串汉字也是一个字符串，每个汉字就是其中的一个元素，可以用for in 来遍历，其中i代表了每个汉字的unicode编码
         if u'\u4e00' > i > u'\u9fff':     # 挑选出非中文字
-            text=text.split(i,"") # 将非中文字符替换为空格
-    seg_list = jieba.cut(text,cut_all =False)
+            text=text.split(i,"") # 将非中文字符替换
+    seg_list = jieba.cut(text,cut_all =False) 
     
     for j in seg_list:
              if len(j) >= 2 : #只统计长度大于等于2的词
               text1.append(j)
-    count = int(input('请输入要限制输出的元素个数：'))
     text1 = collections.Counter(text1).most_common(count)  #按出现次数从大到小排列
     return text1
 
 
 # 函数3：统计中英文混合词频：
-def stats_text(text):
-    '''函数说明：
-    本函数的功能是统计输入文本的汉字及英语单词词频，并以降序排列输出。'''
-    dic_1 = stats_text_cn(text) # 调用函数1统计中文字词频
-    if not isinstance(text,str):
-        raise ValueError('输入的不是文本格式，请重新输入：') # 第8天作业要求，添加参数类型检查
-    for i in text:
-        if u'\u4e00' <= i <= u'\u9fff':
-            text = text.replace(i,"") #删除所有中文字
-    text = text.replace('「', '').replace('」', '').replace('，', '').replace('。', '').replace('：', '').replace('？', '').replace('！', '')
-    # 以上一句删除所有中文标点
-    dic_2 = stats_text_en(text) # 调用2函数统计英文单词词频
-    dic_3 = {}
-    dic_3.update(dic_2)
-    dic_3.update(dic_1) # 将之前分别得到的两个中英文词频结果字典合并
-    dic_3 = sorted(dic_3.items(),key = lambda x:x[1],reverse = True) # 对合并后的字典进行排序，得出混合排序结果
-
-    return(dic_3)
-
-# print(stats_text(text))
-
-print(stats_text.__doc__)
+def stats_text(text,count) :
+    '''合并中英文词频'''
+    '''参数类型检查，如果输入参数不为字符串抛出ValueError'''
+    if  not  isinstance(text, str) :
+        return(stats_text_en(text,count) + stats_text_cn(text,count))
+    else:
+        raise ValueError("输入的不是字符串")
diff --git a/19100205/11661246/mymodule/test.py b/19100205/11661246/mymodule/test.py
@@ -1,4 +1,4 @@
-import jieba
+'''import jieba
 import collections
 # 函数2：统计输入文本中中文字的词频：
 def stats_text_cn(text):  
@@ -27,4 +27,68 @@ def stats_text_cn(text):
 except ValueError:
     print('输入的不是文本格式，请重新输入：')   
     
-print(stats_text_cn(a))
+print(stats_text_cn(a))'''
+
+'''
+r = requests.get('https://mp.weixin.qq.com/s/pLmuGoc4bZrMNl7MSoWgiA', auth=('linlinya@gmail.com', 'yWt590109'))
+r.status_code
+200
+r.headers['content-type']
+'application/json; charset=utf8'
+r.encoding
+'utf-8'
+r.text
+u'{"type":"User"...'
+r.json()
+{u'disk_usage': 368627, u'private_gists': 484, ...}
+
+print r.status_code
+print r.headers['content-type']'''
+
+
+'''# 函数3：统计中英文混合词频：
+def stats_text(text):
+    
+    dic_1 = stats_text_cn(text) # 调用函数1统计中文字词频
+    if not isinstance(text,str):
+        raise ValueError('输入的不是文本格式，请重新输入：') # 第8天作业要求，添加参数类型检查
+    for i in text:
+        if u'\u4e00' <= i <= u'\u9fff':
+            text = text.replace(i,"") #删除所有中文字
+    text = text.replace('「', '').replace('」', '').replace('，', '').replace('。', '').replace('：', '').replace('？', '').replace('！', '')
+    # 以上一句删除所有中文标点
+    dic_2 = stats_text_en(text) # 调用2函数统计英文单词词频
+    dic_3 = {}
+    dic_3.update(dic_2)
+    dic_3.update(dic_1) # 将之前分别得到的两个中英文词频结果字典合并
+    dic_3 = sorted(dic_3.items(),key = lambda x:x[1],reverse = True) # 对合并后的字典进行排序，得出混合排序结果
+
+    return(dic_3) '''
+import jieba
+import collections
+    # 函数2：统计输入文本中中文字的词频：
+def stats_text_cn(text,count):  
+    if not isinstance(text,str):
+        raise ValueError('输入的不是文本格式，请重新输入：') # 第8天作业要求，添加参数类型检查
+    
+    text1 = []
+    for i in text:  # 这个循环有效，说明一串汉字也是一个字符串，每个汉字就是其中的一个元素，可以用for in 来遍历，其中i代表了每个汉字的unicode编码
+        if i < u'\u4e00' and i > u'\u9fff':     # 挑选出非中文字
+            text=text.split(i,"") # 将非中文字符替换
+    seg_list = jieba.cut(text,cut_all =False) 
+    
+    for j in seg_list:
+             if len(j) >= 2 : #只统计长度大于等于2的词
+              text1.append(j)
+    text1 = collections.Counter(text1).most_common(count)  #按出现次数从大到小排列
+    return text1
+
+with open('tang300.json','r',encoding='UTF-8') as f:
+    a = f.read()
+try:
+    if not isinstance(a,str):
+        raise ValueError()
+    
+except ValueError:
+    print('输入的不是文本格式')  
+print(stats_text-cn(a,10))
diff --git a/19100205/11661246/mymodule/test11day.py b/19100205/11661246/mymodule/test11day.py
@@ -0,0 +1,31 @@
+import yagmail
+import getpass
+import requests
+from pyquery import PyQuery
+
+response = requests.get('https://mp.weixin.qq.com/s/pLmuGoc4bZrMNl7MSoWgiA')
+
+#提取公众号伪代码
+
+document = PyQuery(response.text)
+content = document('#js_content').text() #把抓取的内容写成可视的文字
+
+
+
+#链接邮箱服务器
+sender = input('输入发件人地址:')
+password = getpass.getpass('输入发件人密码:')
+recipients = input('输入收件人地址:')
+smtp = 'smtp.126.com' #服务器地址
+#Todo：在下面实现自己的分词统计和发送邮件的操作
+
+import mymodule.stats_word
+#统计内容的前100词频
+statlist = mymodule.stats_word.stats_text_cn(content,100)
+statString = "".join(str(i) for i in statlist)
+
+
+# 发送邮件
+yagmail.SMTP(sender,password,smtp).send(recipients, '19100205 11661246', content)
+
+
diff --git a/19100205/11661246/mymodule/text11.PY b/19100205/11661246/mymodule/text11.PY
@@ -38,4 +38,54 @@ def stats_text(text_e_c,count_e_c):
     else:
          raise ValueError("输入的不是字符串")
         
+# encoding=utf 
+import jieba #day10
+import collections
+
+# 函数1：统计输入文本中英文单词的词频：
+def stats_text_en(text,count):
+    if not isinstance(text,str):
+        raise ValueError('输入的不是文本格式，请重新输入：') # 第8天作业要求，添加参数类型检查
+    text = text.replace('.', '').replace('!', '').replace('--', '').replace('*', '').replace(',', '').replace('(', '').replace(')', '').replace(';', '').replace(':', '').replace('\'', '').replace('?', '').replace('_', '').replace('-', '').replace('/', '') .replace('[', '') .replace(']', '') .replace('\\', '') .replace('\"', '').replace('{', '').replace('}', '').replace('\t', '').replace('\n', '').replace('\r\n', '')    
+        
+    # 以上替换去除各种标点符号
+    list_text = text.split() # 将字符串转换为列表
+    import collections
+    count = int(input("请输入要限制输出的元素个数："))
+    dic = collections.Counter(list_text).most_common(count)
+    return dic
+
+
+
+# 函数2：统计输入文本中中文字的词频：
+def stats_text_cn(text):  
+    if not isinstance(text,str):
+        raise ValueError('输入的不是文本格式，请重新输入：') # 第8天作业要求，添加参数类型检查
+    
+    text1 = []
+    for i in text:  # 这个循环有效，说明一串汉字也是一个字符串，每个汉字就是其中的一个元素，可以用for in 来遍历，其中i代表了每个汉字的unicode编码
+        if u'\u4e00' > i > u'\u9fff':     # 挑选出非中文字
+            text=text.split(i,"") # 将非中文字符替换
+    seg_list = jieba.cut(text,cut_all =False) 
+    
+    for j in seg_list:
+             if len(j) >= 2 : #只统计长度大于等于2的词
+              text1.append(j)
+    count = int(input('请输入要限制输出的元素个数：'))
+    text1 = collections.Counter(text1).most_common(count)  #按出现次数从大到小排列
+    return text1
+
+
+# 函数3：统计中英文混合词频：
+def stats_text(text) :
+    '''合并中英文词频'''
+    '''参数类型检查，如果输入参数不为字符串抛出ValueError'''
+    if  not  isinstance(text, str) :
+        return(stats_text_en(text) + stats_text_cn(text))
+    else:
+        raise ValueError("输入的不是字符串")
+
+# print(stats_text(text))
+
+print(stats_text.__doc__)