fix:twitter 过滤

0832e447 · liyang · d13aeedc · 0832e447
Commit 0832e447 authored Jul 28, 2023 by liyang
Hide whitespace changes
Inline Side-by-side

Showing with 21 additions and 28 deletions

pc_twitter.py pc_twitter.py +21 -28

No files found.
--- a/pc_twitter.py
+++ b/pc_twitter.py
@@ -102,26 +102,15 @@ def reptile(browser=None, search_word=""):
        # lth = len(ignore_list)
        if len(video_list) > 0:
            # for key,element in enumerate(video_list):
-            # div_elements = soup.find("div").findChildren("div", recursive=False)
+            div_elements = soup.find("div").findChildren("div", recursive=False)
            # div_tags = soup.find_all("div", recursive=False)
            for item in video_list:
-                # 把video替换成img标签
-                # 创建 <img> 标签
                img_tag = soup.new_tag('img')
                img_tag["src"] = item["poster"]
-                item.replaceWith(img_tag)
-            # 确保列表中至少有两个 <div> 子元素
-            # if len(div_elements) >= 2:
-            #     # 获取第二个 <div> 元素，并将其从父级元素中移除
-            #     for item in div_elements:
-            #         if hasattr(item,"aria-labelledby"):
-            #             item.extract()
-                # 删除
-                # div.decompose()
-                # 创建video标签占位
-                # custom_video = soup.new_tag("video")
-                # custom_video["src"] = ""
-                # soup.find("div").append(custom_video)
+                for items in div_elements:
+                    if hasattr(items,"aria-labelledby"):
+                        # div[@aria-labelledby="xx"] 替换为img标签【内容含有视频的替换为img标签】
+                        items.replaceWith(img_tag)
        else:
            # print("")
            error = ""
@@ -130,18 +119,22 @@ def reptile(browser=None, search_word=""):
        picture_url = []
        if len(image_list) > 0:
            for key, element in enumerate(image_list):
-                # 下载图片至本地，替换标签中的src
-                id = str(int(time.time()))
-                image_type = extract_image_format(element['src'])
-                # 下载地址
-                download_dir = f'{os.path.join(file_dir, f"{id}.{image_type}")}'
-                # 访问地址
-                access_address = f'{get_base_file_url()}{table_name.split("_")[1]}/{id}.{image_type}'
-                # 下载状态
-                status = download_image(element['src'], download_dir)
-                if status:
-                    element['src'] = access_address
-                    picture_url.append(download_dir)
+                # 如果是svg，就删除
+                if str(element['src']).find("svg") != -1:
+                    element.extract()
+                else:
+                    # 下载图片至本地，替换标签中的src
+                    id = str(int(time.time()))
+                    image_type = extract_image_format(element['src'])
+                    # 下载地址
+                    download_dir = f'{os.path.join(file_dir, f"{id}.{image_type}")}'
+                    # 访问地址
+                    access_address = f'{get_base_file_url()}{table_name.split("_")[1]}/{id}.{image_type}'
+                    # 下载状态
+                    status = download_image(element['src'], download_dir)
+                    if status:
+                        element['src'] = access_address
+                        picture_url.append(download_dir)
        else:
            # print("")
            error = ""